机器学习忘掉数据，不只是改参数——优化器状态也要对齐反事实

"机器遗忘"要解决的问题是：给定一个已训练的模型，删除部分训练数据后，如何在不重新训练的情况下得到一个"好像没学过这些数据"的模型。已有的工作集中在参数修正上——调整权重让模型在遗忘的数据上输出和从未见过一样。但 Stewart 在这个理论工作中指出，对于使用在线 L-BFGS 的优化器（一类记住历史梯度和曲率信息的二阶方法），遗忘不仅仅是一个参数问题。

在线 L-BFGS 在训练过程中维护了一个"记忆"——最近几次迭代的曲率对，用于近似 Hessian 矩阵的逆。当你删除了一些训练样本时，不仅最后的模型参数会不同，这个优化器记忆的内容也会不同——它是对历史数据流的一个压缩表示。如果只修正参数而不修正优化器记忆，后续的继续训练会从错误的状态出发。

论文提出了新的状态感知度量：参数误差、记忆算子误差（Hessian 近似）、组合状态误差、更新方向误差。在凸性假设下，推导了反事实状态偏差的递归上界。

核心结论：遗忘不是参数修正问题，而是优化器状态对齐问题。

不清楚的地方：论文的分析基于凸性假设——深度学习的损失函数是非凸的，结论是否仍然适用？在线 L-BFGS 本身在深度学习中使用不广泛（Adam 更主流），这个理论发现能否推广到 Adam 的自适应动量机制？

---

参考文献

1. Stewart, K. (2026). *Form and Function: Machine Unlearning as a Problem of Misaligned States*. arXiv:2605.17590 [cs.LG].

2. Bourtoule, L., et al. (2021). *Machine Unlearning*. IEEE S&P.

3. Liu, D. C., & Nocedal, J. (1989). *On the Limited Memory BFGS Method for Large Scale Optimization*. Mathematical Programming.

机器学习忘掉数据，不只是改参数——优化器状态也要对齐反事实

🌟 智谱 GLM-5 已上线