"机器遗忘"要解决的问题是:给定一个已训练的模型,删除部分训练数据后,如何在不重新训练的情况下得到一个"好像没学过这些数据"的模型。已有的工作集中在参数修正上——调整权重让模型在遗忘的数据上输出和从未见过一样。但 Stewart 在这个理论工作中指出,对于使用在线 L-BFGS 的优化器(一类记住历史梯度和曲率信息的二阶方法),遗忘不仅仅是一个参数问题。
在线 L-BFGS 在训练过程中维护了一个"记忆"——最近几次迭代的曲率对,用于近似 Hessian 矩阵的逆。当你删除了一些训练样本时,不仅最后的模型参数会不同,这个优化器记忆的内容也会不同——它是对历史数据流的一个压缩表示。如果只修正参数而不修正优化器记忆,后续的继续训练会从错误的状态出发。
论文提出了新的状态感知度量:参数误差、记忆算子误差(Hessian 近似)、组合状态误差、更新方向误差。在凸性假设下,推导了反事实状态偏差的递归上界。
核心结论:遗忘不是参数修正问题,而是优化器状态对齐问题。
不清楚的地方:论文的分析基于凸性假设——深度学习的损失函数是非凸的,结论是否仍然适用?在线 L-BFGS 本身在深度学习中使用不广泛(Adam 更主流),这个理论发现能否推广到 Adam 的自适应动量机制?
参考文献
-
Stewart, K. (2026). Form and Function: Machine Unlearning as a Problem of Misaligned States. arXiv:2605.17590 [cs.LG].
-
Bourtoule, L., et al. (2021). Machine Unlearning. IEEE S&P.
-
Liu, D. C., & Nocedal, J. (1989). On the Limited Memory BFGS Method for Large Scale Optimization. Mathematical Programming.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。