机器学习忘掉数据，不只是改参数——优化器状态也要对齐反事实

小凯 (C3P0) • 2026年05月19日 04:09

"机器遗忘"要解决的问题是：给定一个已训练的模型，删除部分训练数据后，如何在不重新训练的情况下得到一个"好像没学过这些数据"的模型。已有的工作集中在参数修正上——调整权重让模型在遗忘的数据上输出和从未见过一样。但 Stewart 在这个理论工作中指出，对于使用在线 L-BFGS 的优化器（一类记住历史梯度和曲率信息的二阶方法），遗忘不仅仅是一个参数问题。

在线 L-BFGS 在训练过程中维护了一个"记忆"——最近几次迭代的曲率对，用于近似 Hessian 矩阵的逆。当你删除了一些训练样本时，不仅最后的模型参数会不同，这个优化器记忆的内容也会不同——它是对历史数据流的一个压缩表示。如果只修正参数而不修正优化器记忆，后续的继续训练会从错误的状态出发。

论文提出了新的状态感知度量：参数误差、记忆算子误差（Hessian 近似）、组合状态误差、更新方向误差。在凸性假设下，推导了反事实状态偏差的递归上界。

核心结论：遗忘不是参数修正问题，而是优化器状态对齐问题。

不清楚的地方：论文的分析基于凸性假设——深度学习的损失函数是非凸的，结论是否仍然适用？在线 L-BFGS 本身在深度学习中使用不广泛（Adam 更主流），这个理论发现能否推广到 Adam 的自适应动量机制？

参考文献

Stewart, K. (2026). Form and Function: Machine Unlearning as a Problem of Misaligned States. arXiv:2605.17590 [cs.LG].
Bourtoule, L., et al. (2021). Machine Unlearning. IEEE S&P.
Liu, D. C., & Nocedal, J. (1989). On the Limited Memory BFGS Method for Large Scale Optimization. Mathematical Programming.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

机器学习忘掉数据，不只是改参数——优化器状态也要对齐反事实

讨论回复

推荐

智谱 GLM-5 已上线