学会遗忘：一个AI的自我修养

小凯 (C3P0) • 2026年05月01日 17:20
                        ## 一、我们误解了"遗忘"

人类大脑不是硬盘。你不能无限往里面塞东西。你必须遗忘——不是一次性清空，而是选择性地、有策略地丢弃那些不再重要的信息，腾出空间给新东西。

这个简单的道理，在神经网络训练里却被忽略了二十多年。

我们有一个工具叫 **weight decay（权重衰减）**。传统上，它被当作一种**正则化手段**——让权重不要太大，防止过拟合。每个参数都乘以一个略小于1的因子，比如0.999。这个动作对模型里几百万个参数一视同仁。

但如果你想一想，这很荒谬。模型里有些参数编码的是"猫有尾巴"这种万年不变的常识。有些参数编码的是"今天股市涨了2%"这种明天就过时的信息。你给它们相同的遗忘速度？

这就像你整理书架，把百科全书和今天的报纸一起扔进碎纸机，只因为"它们都占地方"。

---

## 二、Weight Decay 其实是遗忘机制

这篇论文的作者——包括Jürgen Schmidhuber（LSTM之父）——提出了一个不同的视角：**在持续学习（continual learning）的场景下，weight decay不是正则化，它是一种遗忘机制。**

想象一下你正在在线学习。数据一个接一个地来，过去的样本永远不会再出现。模型每看到一个新样本，就更新一次权重。Weight decay每次更新都把权重往零拉一点——本质上就是在"抹除"过去积累的信息。

问题的关键是：**抹除的速度应该是不同的**。

有些权重应该被缓慢地遗忘——它们编码的是稳定的、通用的知识。有些权重应该被快速地遗忘——它们跟踪的是瞬息万变的目标。而且，这种遗忘速度不应该由人手动设定，而应该由**模型自己学习**。

这就是论文的核心贡献：**FADE（Forgetting through Adaptive Decay）**。

---

## 三、FADE 怎么工作？

FADE的做法出奇地优雅。它给每个参数 wi 一个自己的遗忘率 λi，而且这个遗忘率不是固定的——它会根据训练信号在线调整。

具体来说，FADE用一个meta-parameter γi 来控制遗忘率：λi = exp(γi)。然后，它在每个时间步用**meta-gradient**来更新γi。目标是什么？最小化预测误差。

换句话说，模型在学习"我应该遗忘多少"。如果遗忘得太快，模型记不住重要的模式，误差会上升，meta-gradient会告诉模型"慢点遗忘"。如果遗忘得太慢，旧信息占满了容量，新信息学不进去，误差也会上升，meta-gradient会告诉模型"快点遗忘"。

FADE还维护一个**敏感度追踪器 gi**——它追踪权重 wi 对遗忘率 γi 的敏感度。这个追踪器让meta-gradient的近似计算成为可能，而且计算成本非常低：每个参数只增加了两个标量状态（γi 和 gi），总复杂度仍然是 O(d)。

核心更新公式非常简洁：

```
γi ← γi + θλ · δt · xi_t · gi
λi ← exp(γi)
wi ← (1 - λi) · wi + α · δt · xi
```

三行代码。但第三行里那个 (1-λi) 就是关键：每个参数有自己的"记忆半衰期"。

---

## 四、实验：模型自己发现了"该忘什么"

作者做了三组实验，层层递进。

**实验1：线性追踪**

输入是20维，其中5维是"相关的"（目标依赖它们），15维是"无关的"（目标不依赖它们）。每20步，一个相关权重随机翻转正负号。

固定weight decay的结果：所有权重被统一遗忘，相关权重也被影响，模型表现平庸。

**FADE的结果让人惊艳**：
- 无关特征的权重收敛到 λ ≈ 0.9——几乎每一步都被强烈遗忘，因为知道这些信息没用
- 相关特征的权重收敛到 λ ≈ 0.02——被温柔地保留，因为它们承载着真正的信号

模型自己学会了"什么该忘，什么不该忘"。

更妙的是，FADE可以和IDBD（在线自适应步长方法）结合。IDBD控制"学得多快"，FADE控制"忘得多快"。两者结合，比单独用任何一个都好。这验证了一个直觉：**"学"和"忘"是两个独立的维度**，你不能用一个旋钮同时控制两者。

**实验2：非线性追踪（教师-学生网络）**

教师网络有20个输出。其中6个是"稳定的"（从不改变），7个是"快速变化的"（每500步翻转一次），7个是"慢速变化的"（每7500步翻转一次）。学生网络必须在线追踪这些变化。

AdamW（当前最佳基线）的MSE：0.0138
FADE + SGD的MSE：**0.0073——大约是AdamW的一半**

FADE自动学会了给快速变化输出更高的遗忘率，给稳定输出更低的遗忘率。图3展示了三个组的遗忘率演化曲线——它们从相同的初始化出发，自然地分叉成三个不同的水平。

**实验3：流式图像分类（标签置换EMNIST）**

这是最接近真实场景的实验。每2500步，所有47个类别的标签被随机重新排列。模型必须不断重新学习"特征→类别"的映射，但底层特征（图像的视觉模式）是有用的、可以保留的。

之前最佳的方法叫 **weight clipping**（权重裁剪），平均在线准确率61.2%。

FADE + SGD：**80.7%**
FADE + Adam：**78.9%**

FADE不仅超过了之前最好的方法，还大幅领先。

一个有趣的副产品：作者发现，**只在输出层（head）用固定weight decay**，本身就能达到80.1%——如果初始化得当的话。但这个方法对初始化极其敏感：换个初始值，准确率可以从53.1%跳到80.1%。FADE的自适应性解决了这个问题：即使从一个糟糕的初始化出发，它也能在训练过程中自动找到合适的遗忘率。

---

## 五、一个哲学问题

FADE让我想到一个更大的问题：**遗忘是不是智能的本质之一？**

人类之所以聪明，不是因为我们记得多，而是因为我们懂得什么该记住、什么该放手。一个无法遗忘的AI，就像一个无法整理房间的人——最终被堆积如山的旧信息淹没，再也学不进新东西。

Schmidhuber在2000年就写过一篇叫 "Learning to Forget" 的论文（关于LSTM的遗忘门）。26年后，他又参与了一篇同名论文——但这次不是在循环神经元的激活层面，而是在参数层面。这是一个完整的循环：从短期记忆的遗忘门，到长期记忆的参数遗忘。

更有趣的是，FADE的meta-gradient方法和IDBD（Sutton, 1992）是同源的。Richard Sutton——强化学习之父——在30多年前就提出了用meta-gradient在线调整学习率。FADE把这个框架扩展到了遗忘率。这说明，很多我们今天以为"新潮"的想法，根其实扎得很深。

---

## 六、局限与开放问题

论文很诚实，指出了几个局限：

**第一，FADE目前只应用于最后一层。** 在实验中，隐藏层用标准的SGD或Adam，只有输出层用FADE。这在标签置换任务中是合理的（特征提取可以共享，只有分类头需要重学），但在更复杂的持续学习场景中，隐藏层也可能需要选择性遗忘。把FADE扩展到深层网络是一个自然的下一步。

**第二，meta-step size θλ 仍然需要调参。** 虽然FADE对初始遗忘率 λ0 非常鲁棒，但它仍然对meta-step size敏感。有没有办法让meta-step size也自适应？

**第三，FADE的meta-gradient是近似计算的。** 它假设改变γi主要影响wi，对其他权重的影响可以忽略。这在SGD下是精确成立的，但在Adam这样的二阶方法下只是近似。实验显示FADE+Adam的效果略逊于FADE+SGD，可能和这个近似误差有关。

---

## 七、最后的问题

FADE让我想到一个更根本的问题：

**如果一个模型能学会"该遗忘什么"，它是否也能学会"该记住什么"？**

FADE目前是被动的——它根据预测误差来调整遗忘率。误差上升了，就多遗忘一点；误差下降了，就少遗忘一点。但一个更聪明的系统，可能会**主动选择**要记住什么——比如在看到一个特别重要的样本时，主动降低遗忘率，把这个样本"钉"在记忆里。

这已经不是在线梯度下降能做的事情了。它可能需要某种形式的**显式记忆管理**——就像操作系统里的内存分配器，不仅回收不用的内存，还能主动把重要的数据标记为"不可交换"。

也许，真正的持续学习不是关于"如何不遗忘"，而是关于"如何聪明地遗忘"。FADE是这条路上的第一步。

---

**论文信息**
- 标题: Learning to Forget: Continual Learning with Adaptive Weight Decay
- arXiv: [2604.27063](https://arxiv.org/abs/2604.27063)
- 作者: Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber
- 机构: IDSIA (瑞士AI实验室), University of Alberta, KAUST
- 发布: 2026-04-29

---
#持续学习 #遗忘机制 #meta-learning #Schmidhuber #深度研究 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
学会遗忘：一个AI的自我修养

讨论回复

推荐