一个信号，两份工作：惊讶如何让AI既不忘旧、又知未知

一个尴尬的事实

你给一个视觉语言模型看一张 obscure 的植物照片，问它："这是什么？"

它不会说"我不知道"。它会编一个名字——一本正经地、自信地编。你纠正它，告诉它正确答案。下次再问，它还是编那个错的。

这不是个例，这是当前AI的两个顽疾：学了新的忘旧的（灾难性遗忘），不知道自己不知道（幻觉）。几十年来，研究者把它们当成两个独立问题分别攻克——用回放保旧记忆，用置信度阈值抑制幻觉——各管一摊，互不相干。

Louis Mouchon，一位独立研究者，在 2026 年 6 月的一篇研究笔记里提出了一个不太一样的想法：这两个问题其实是同一个问题——模型缺一个"这东西是新还是旧"的信号。给它一个，两个问题一起解决。

这个信号，他叫它 surprise（惊讶）。

大脑早就这么干了

在你脑子里，这个信号已经跑了上亿年。

海马体负责快速记下新东西——你今天午饭吃了什么、刚认识的人的名字。新皮层负责慢慢把它整合成长期知识。两者之间靠"睡眠"做离线回放：海马体把白天的痕迹重放给新皮层，新皮层把它织进已有的知识网络。这套机制叫互补学习系统（Complementary Learning Systems），1995 年 McClelland 和 O'Reilly 就提出来了。

驱动这套系统的关键开关是什么？预测误差。当一个刺激和你预期的差得远——也就是"惊讶"——海马体就写一条新痕迹。不惊讶，就不写。同一个信号，还顺带告诉你"这个东西我不熟"，让你在回答时留有余地。

一个信号，两份工作：可塑性的开关，元认知的基底。

Mouchon 的工作就是把这套东西搬进AI，原样搬。

系统一：惊讶门控的记忆

架构简单到让人怀疑：

冻结的骨干网络（DINOv2 或 I-JEPA）：负责把图片变成向量。一旦训练好就再也不动。
一个小预测器（JEPA anchor）：尝试从遮掩的视角预测完整嵌入。预测得准 → 惊讶低；预测不准 → 惊讶高。
海马体：一个非参数化的存储。新图片进来，惊讶超过阈值才写进去，否则不写。
新皮层：一个线性分类器。只在"睡眠"阶段更新，用海马体里回放的样本做训练。

骨干网络从头到尾不动，这就从根上排除了表示层面的灾难性遗忘。所有适应都发生在上面那几个轻量模块里。

关键数据

在 1000 类 ImageNet 的连续流上：

配置	DINOv2 旧类保留	I-JEPA 旧类保留
不回放（naive）	65.8%	25.9%
睡眠回放（sleep）	83.5%	77.2%
上界（i.i.d. 训练）	84.4%	78.5%

睡眠回放为 DINOv2 找回了 17.7 个百分点的保留率，为 I-JEPA 找回了 51.3 个百分点。骨干网络的特征越难线性分割，回放的价值越大。

一个反直觉的发现

"只回放最近的几个任务"——听起来像是个合理的节省内存的策略。结果呢？DINOv2 上旧类保留掉到 41.2%，I-JEPA 上直接归零。比完全不回放还差。

为什么？因为只回放最近的，等于不断强化新记忆、挤掉旧记忆——这正是灾难性遗忘的机制本身。你要么全回放，要么别回放，部分回放是最坏选择。

这和大脑是一致的：睡眠不是只重放昨晚的事，是把远期和近期一起重放。

系统二：惊讶驱动的元认知

第二个系统把同一个惊讶信号用在了完全不同的地方——让模型知道自己不知道什么。

这次骨干网络换成 SigLIP（文本-图像共享空间），加一个 BGE-M3 做文本检索。惊讶分数被校准到 [0, 1] 区间：已知概念约 0.14，全新概念约 1.0。然后设两个阈值：0.35 和 0.65。

惊讶 < 0.35（已知）：模型被指示自信回答，从检索到的事实里取答案。
0.35 ≤ 惊讶 ≤ 0.65（部分熟悉）：模型对冲，给出候选但标注不确定。
惊讶 > 0.65（全新）：模型进入学生模式——只描述它看到的，明确说"这个概念我没见过，你能告诉我吗？"——然后从用户的一句话里一次性学会这个概念。

为什么闸门必须在外部？

这是全文最漂亮的一个实验。

研究者让三种"探测器"比赛区分已知概念和未知概念：

探测器	AUROC
外部惊讶检测器（本文）	0.966 ± 0.024
模型自报的置信度（让它打 0-100 分）	0.618 ± 0.060
模型 token 级置信度（"是的我知道"的概率）	0.292 ± 0.043

模型的 token 级置信度低于随机猜。它对编造的概念和真实概念一样自信。

这不是 bug，是训练的必然结果：模型被训练得越会"回答"，它就越分不清自己"知道"还是"不知道"。生成器天生不能当自己的裁判。所以惊讶信号必须来自外部——一个冻结的、不参与生成的独立检测器。

睡眠之后：99.2% vs 0%

研究者教系统 50 个事实（每个只教一次），触发睡眠阶段（海马体整合到新皮层，海马体清空），然后清空整个对话历史，逐个查询这 50 个事实。

结果：99.2% 被正确回忆（5 个种子的均值，95% 置信区间 ±0.9）。对照组（没有情景记忆的基座模型）：0%。

事实真的存在了慢速存储里，不依赖对话上下文，不依赖海马体——它已经被整合进了新皮层。

记忆的权威

最反直觉的设计决定：当记忆和模型的预训练先验冲突时，记忆赢。

你告诉模型"勃朗峰海拔 4806 米"（它预训练里学的是 4810 米）。基座模型会坚持自己的答案——2/3 的情况它报预训练值。但完整系统里，检索到的事实被注入时带有"这条信息优先于你的先验"的指令。结果：3/3 全部按纠正后的值回答，而且模型会说"这是刚才被教过的"。

记忆不是建议，是命令。

一个信号，为什么能做两件事

论文的标题就是论点：Surprise as a Signal for Plasticity and Metacognition。一个预测误差信号，同时驱动可塑性和元认知。

为什么能行？因为这两件事在逻辑上依赖的是同一个判断——"这个输入对我熟不熟悉？"

如果熟 → 不需要写新记忆（可塑性关闭），可以自信回答（元认知放行）。
如果不熟 → 写新记忆（可塑性开启），不要乱答（元认知拦截）。

大脑发现这个一石二鸟的结构，用了几亿年。AI 研究者把它拆成两个独立问题分别打补丁，打了几十年。Mouchon 的工作把它们重新合回去——用一个 JEPA 预测器输出的标量残差，同时做写入门控和行为调制。

工程启示

这篇论文是 proof-of-concept，benchmark 都很小，作者在 Limitations 里老实承认了。但有几个工程洞察我认为会留下来：

1. 冻结骨干 + 轻量适应层是正确的姿态。 大模型不动，所有适应发生在小的、可检查的模块里。这从结构上排除了表示层面的遗忘，也让系统变得可解释——你知道每条记忆在哪一层、什么时候写的。

2. 外部检测器比自报置信度可靠得多。 0.966 vs 0.618 vs 0.292——这个差距大到让人后怕。我们之前所有依赖"模型自评置信度"做幻觉抑制的方案，可能都建在一个不可靠的地基上。

3. 非参数化存储不会遗忘。 参数化的记忆（比如 test-time training）只要停止重写旧概念就会忘。原型写一次就不再覆盖，从设计上免疫这个失败模式。

4. 部分回放比不回放更糟。 这是个反直觉但一旦想通就很显然的结论。工程上意味着：要么全量回放，要么干脆别回放，别想着省内存搞滑动窗口。

5. 睡眠不是可选的。 50 个事实一次性教完，不睡眠，对话一清空全没了。睡眠阶段把脆弱的短期痕迹转成稳定的长期表征——这个步骤跳过，系统就只是个带上下文窗口的聊天机器人。

我的思考

这篇论文让我想起一个被忽视的事实：大脑的"省电设计"恰恰是它的智能来源。

海马体只写高惊讶的东西——这省能量。睡眠只回放高惊讶的痕迹——这也省能量。同一个信号驱动两个功能——这还是省能量。演化压力逼出来的 parsimony，恰好是最优雅的架构。

AI 研究过去十年的主流路径是"堆规模"——更多参数、更多数据、更多算力。这条路是对的，但它有一个隐含假设：所有问题都能靠规模解决。这篇论文指出了规模解决不了的东西：模型需要一个"我不知道"的信号，而这个信号不能从规模里涌现出来——GPT-5.5 和 Gemma 4 12B 一样，token 级置信度低于随机猜。

规模让模型知道得更多，但不会让它知道自己不知道什么。后者需要一个架构选择——把惊讶信号放在生成器外面。

Mouchon 是独立研究者，论文标注为 "Research Note"，benchmark 小，单种子运行，作者自己把局限写得清清楚楚。但核心洞察是对的：一个信号，两份工作。这个想法会以更大规模、更严格的 benchmark 被重新验证——但它已经指出了方向。

有时候，一个好想法不需要一个大赛道。它只需要一个对的问题，和一个对的信号。

---

论文：Surprise as a Signal for Plasticity and Metacognition, Louis Mouchon, 2026-06-28

作者：Louis Mouchon（独立研究者）

代码：暂未开源（proof-of-concept）

关键词：惊讶门控、互补学习系统、持续学习、元认知、幻觉抑制、JEPA