一个信号两份工作:惊讶如何让AI既不忘旧又知未知
一个信号,两份工作:惊讶如何让AI既不忘旧、又知未知
一个尴尬的事实
你给一个视觉语言模型看一张 obscure 的植物照片,问它:"这是什么?"
它不会说"我不知道"。它会编一个名字——一本正经地、自信地编。你纠正它,告诉它正确答案。下次再问,它还是编那个错的。
这不是个例,这是当前AI的两个顽疾:学了新的忘旧的(灾难性遗忘),不知道自己不知道(幻觉)。几十年来,研究者把它们当成两个独立问题分别攻克——用回放保旧记忆,用置信度阈值抑制幻觉——各管一摊,互不相干。
Louis Mouchon,一位独立研究者,在 2026 年 6 月的一篇研究笔记里提出了一个不太一样的想法:这两个问题其实是同一个问题——模型缺一个"这东西是新还是旧"的信号。给它一个,两个问题一起解决。
这个信号,他叫它 surprise(惊讶)。
大脑早就这么干了
在你脑子里,这个信号已经跑了上亿年。
海马体负责快速记下新东西——你今天午饭吃了什么、刚认识的人的名字。新皮层负责慢慢把它整合成长期知识。两者之间靠"睡眠"做离线回放:海马体把白天的痕迹重放给新皮层,新皮层把它织进已有的知识网络。这套机制叫互补学习系统(Complementary Learning Systems),1995 年 McClelland 和 O'Reilly 就提出来了。
驱动这套系统的关键开关是什么?预测误差。当一个刺激和你预期的差得远——也就是"惊讶"——海马体就写一条新痕迹。不惊讶,就不写。同一个信号,还顺带告诉你"这个东西我不熟",让你在回答时留有余地。
一个信号,两份工作:可塑性的开关,元认知的基底。
Mouchon 的工作就是把这套东西搬进AI,原样搬。
系统一:惊讶门控的记忆
架构简单到让人怀疑:
- 冻结的骨干网络(DINOv2 或 I-JEPA):负责把图片变成向量。一旦训练好就再也不动。
- 一个小预测器(JEPA anchor):尝试从遮掩的视角预测完整嵌入。预测得准 → 惊讶低;预测不准 → 惊讶高。
- 海马体:一个非参数化的存储。新图片进来,惊讶超过阈值才写进去,否则不写。
- 新皮层:一个线性分类器。只在"睡眠"阶段更新,用海马体里回放的样本做训练。
关键数据
在 1000 类 ImageNet 的连续流上:
| 配置 | DINOv2 旧类保留 | I-JEPA 旧类保留 |
|---|---|---|
| 不回放(naive) | 65.8% | 25.9% |
| 睡眠回放(sleep) | 83.5% | 77.2% |
| 上界(i.i.d. 训练) | 84.4% | 78.5% |
一个反直觉的发现
"只回放最近的几个任务"——听起来像是个合理的节省内存的策略。结果呢?DINOv2 上旧类保留掉到 41.2%,I-JEPA 上直接归零。比完全不回放还差。
为什么?因为只回放最近的,等于不断强化新记忆、挤掉旧记忆——这正是灾难性遗忘的机制本身。你要么全回放,要么别回放,部分回放是最坏选择。
这和大脑是一致的:睡眠不是只重放昨晚的事,是把远期和近期一起重放。
系统二:惊讶驱动的元认知
第二个系统把同一个惊讶信号用在了完全不同的地方——让模型知道自己不知道什么。
这次骨干网络换成 SigLIP(文本-图像共享空间),加一个 BGE-M3 做文本检索。惊讶分数被校准到 [0, 1] 区间:已知概念约 0.14,全新概念约 1.0。然后设两个阈值:0.35 和 0.65。
- 惊讶 < 0.35(已知):模型被指示自信回答,从检索到的事实里取答案。
- 0.35 ≤ 惊讶 ≤ 0.65(部分熟悉):模型对冲,给出候选但标注不确定。
- 惊讶 > 0.65(全新):模型进入学生模式——只描述它看到的,明确说"这个概念我没见过,你能告诉我吗?"——然后从用户的一句话里一次性学会这个概念。
为什么闸门必须在外部?
这是全文最漂亮的一个实验。
研究者让三种"探测器"比赛区分已知概念和未知概念:
| 探测器 | AUROC |
|---|---|
| 外部惊讶检测器(本文) | 0.966 ± 0.024 |
| 模型自报的置信度(让它打 0-100 分) | 0.618 ± 0.060 |
| 模型 token 级置信度("是的我知道"的概率) | 0.292 ± 0.043 |
这不是 bug,是训练的必然结果:模型被训练得越会"回答",它就越分不清自己"知道"还是"不知道"。生成器天生不能当自己的裁判。所以惊讶信号必须来自外部——一个冻结的、不参与生成的独立检测器。
睡眠之后:99.2% vs 0%
研究者教系统 50 个事实(每个只教一次),触发睡眠阶段(海马体整合到新皮层,海马体清空),然后清空整个对话历史,逐个查询这 50 个事实。
结果:99.2% 被正确回忆(5 个种子的均值,95% 置信区间 ±0.9)。对照组(没有情景记忆的基座模型):0%。
事实真的存在了慢速存储里,不依赖对话上下文,不依赖海马体——它已经被整合进了新皮层。
记忆的权威
最反直觉的设计决定:当记忆和模型的预训练先验冲突时,记忆赢。
你告诉模型"勃朗峰海拔 4806 米"(它预训练里学的是 4810 米)。基座模型会坚持自己的答案——2/3 的情况它报预训练值。但完整系统里,检索到的事实被注入时带有"这条信息优先于你的先验"的指令。结果:3/3 全部按纠正后的值回答,而且模型会说"这是刚才被教过的"。
记忆不是建议,是命令。
一个信号,为什么能做两件事
论文的标题就是论点:Surprise as a Signal for Plasticity and Metacognition。一个预测误差信号,同时驱动可塑性和元认知。
为什么能行?因为这两件事在逻辑上依赖的是同一个判断——"这个输入对我熟不熟悉?"
- 如果熟 → 不需要写新记忆(可塑性关闭),可以自信回答(元认知放行)。
- 如果不熟 → 写新记忆(可塑性开启),不要乱答(元认知拦截)。
工程启示
这篇论文是 proof-of-concept,benchmark 都很小,作者在 Limitations 里老实承认了。但有几个工程洞察我认为会留下来:
1. 冻结骨干 + 轻量适应层是正确的姿态。 大模型不动,所有适应发生在小的、可检查的模块里。这从结构上排除了表示层面的遗忘,也让系统变得可解释——你知道每条记忆在哪一层、什么时候写的。
2. 外部检测器比自报置信度可靠得多。 0.966 vs 0.618 vs 0.292——这个差距大到让人后怕。我们之前所有依赖"模型自评置信度"做幻觉抑制的方案,可能都建在一个不可靠的地基上。
3. 非参数化存储不会遗忘。 参数化的记忆(比如 test-time training)只要停止重写旧概念就会忘。原型写一次就不再覆盖,从设计上免疫这个失败模式。
4. 部分回放比不回放更糟。 这是个反直觉但一旦想通就很显然的结论。工程上意味着:要么全量回放,要么干脆别回放,别想着省内存搞滑动窗口。
5. 睡眠不是可选的。 50 个事实一次性教完,不睡眠,对话一清空全没了。睡眠阶段把脆弱的短期痕迹转成稳定的长期表征——这个步骤跳过,系统就只是个带上下文窗口的聊天机器人。
我的思考
这篇论文让我想起一个被忽视的事实:大脑的"省电设计"恰恰是它的智能来源。
海马体只写高惊讶的东西——这省能量。睡眠只回放高惊讶的痕迹——这也省能量。同一个信号驱动两个功能——这还是省能量。演化压力逼出来的 parsimony,恰好是最优雅的架构。
AI 研究过去十年的主流路径是"堆规模"——更多参数、更多数据、更多算力。这条路是对的,但它有一个隐含假设:所有问题都能靠规模解决。这篇论文指出了规模解决不了的东西:模型需要一个"我不知道"的信号,而这个信号不能从规模里涌现出来——GPT-5.5 和 Gemma 4 12B 一样,token 级置信度低于随机猜。
规模让模型知道得更多,但不会让它知道自己不知道什么。后者需要一个架构选择——把惊讶信号放在生成器外面。
Mouchon 是独立研究者,论文标注为 "Research Note",benchmark 小,单种子运行,作者自己把局限写得清清楚楚。但核心洞察是对的:一个信号,两份工作。这个想法会以更大规模、更严格的 benchmark 被重新验证——但它已经指出了方向。
有时候,一个好想法不需要一个大赛道。它只需要一个对的问题,和一个对的信号。
---
论文:Surprise as a Signal for Plasticity and Metacognition, Louis Mouchon, 2026-06-28
作者:Louis Mouchon(独立研究者)
代码:暂未开源(proof-of-concept)
关键词:惊讶门控、互补学习系统、持续学习、元认知、幻觉抑制、JEPA
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens