你的 AI 是个《记忆碎片》里的伦纳德

读完 a16z 那篇《Why We Need Continual Learning》，我脑子里蹦出个画面——诺兰那部电影《记忆碎片》。主角 Leonard Shelby 每隔几分钟就"重启"一次，世界不断从零开始。他没法形成新记忆，只能靠拍立得、纹身、别人写下的字条活着。他有个信条："别相信记忆，相信事实。"可他的"事实"全写在身外之物上。

这不正是现在的大语言模型吗？

它们读完整个互联网，把所有知识压缩进参数，然后——咔。训练结束，参数冻结。从此活在一个"永恒的当下"。新信息来了？不好意思，塞不进权重了。只能靠聊天记录、检索系统、系统提示词这些"外部纹身"来假装记忆。你问它昨天聊了什么？它翻翻上下文窗口。你让它记住你的偏好？它在某条隐晦的 prompt 里藏着。

a16z 的 Malika Aubakirova 和 Matt Bornstein 管这叫"失忆模型"——amnesic model。而这篇文章，是我今年读过的最冷静也最准确的技术时局判断。它说的不是某个新架构、某个新 trick，而是一个更根本的东西：我们都误以为上下文学习（In-Context Learning）已经够用了。实际上它根本没解决"学习"这件事。

---

1. 文件柜谬误：你以为它在学习，它只是在翻抽屉

文章引了 Ilya Sutskever 一句话，一针见血："AGI 和预训练，某种程度上是错过了目标。人类不是 AGI——人类有基础技能但缺海量知识，我们靠的是持续学习。部署本身就包含学习、试错期。这是一个过程，不是交付成品。"

这话什么意思？想想看：人类从不会"训练完就冻结"。你今天学了一道菜的做法，明天你的知识更新了，但你没忘掉怎么系鞋带。而大语言模型呢？训练完参数锁死。之后你想教它新东西，要么塞进上下文窗口（In-Context Learning），要么做个 RAG（检索增强生成），要么给它接个"记忆层"——其实都是在参数外面搭脚手架。

这些手法有效吗？有效。Cursor 的团队说了一句大实话："系统的行为惊人地取决于如何提示。工具层和模型都重要，但提示更重要。"这和 Leonard 靠拍立得过活是一个逻辑——你活得下去，甚至在某些场景里很出色，但你永远没法真正积累。

这里的核心陷阱，a16z 管它叫 "文件柜谬误"（The Filing Cabinet Fallacy）。

给模型无限存储和检索能力不等于让它学会了。学习的关键在于有损压缩。训练时，模型把互联网压缩进参数——这个过程逼迫它发现结构、做泛化、构建可迁移的表征。压缩是学习的真正内核：丢掉无关细节，抓住本质。但部署后我们却停掉了压缩，换成了外部记忆——相当于说："别学了，存下来就行。"

Rich Sutton 的"苦教训"（The Bitter Lesson）在这件事上回响着：靠算力和数据从零学习，最终会胜过精心设计的外部脚手架。 检索够快、窗口够长可能已经帮我们撑了足够久，但它终究不是学习。

---

2. 有些东西，你写不进上下文窗口

文章里引用了 Yu Sun 提出的一个论点，我觉得是整个讨论里最锋利的部分。

费马大定理：350 年没人证出来，不是因为文献不够——所有已知的数学工具就摆在那。真正的问题是，解决方案需要一种概念距离太大的全新连接。安德鲁·怀尔斯花了七年，几乎彻底孤立地工作，才在椭圆曲线和模形式之间架起桥梁。佩雷尔曼证明庞加莱猜想的历程亦然。这些突破不是检索出来的，是发明出来的。

所以最核心的问题——它目前还只是个经验性的开放问题——是：这证明了 LLM 缺少真正的创造性思维，还是证明所有人类知识归根结底只是供训练和重组的材料？ 我们不知道答案。但我们知道的是，上下文学习在以下几种问题上已经失效：

需要真正发现的新问题（比如新数学）；
对抗性场景（比如安全攻防）；
太隐晦而无法用语言表达的隐性知识——医学影像里区分良恶性病变的那种纹理直觉、定义某个说话者独特韵律的音频微波动。

"无论上下文窗口多大，总有些知识无法用文本描述，只能存在于参数中。"

文章还举了一个绝妙的日常案例：ChatGPT 的记忆功能引发的不适感。用户发现它"记住"了某次对话的细节时，第一反应不是欣慰而是毛骨悚然。为什么？因为你其实不想要它"回忆"，你想要它"胜任"。"我记得你上次这样回复过"和"我理解你的思考方式，能预判你的需求"，这是检索和学习的根本区别。

---

3. 一条谱系：Context → Modules → Weights

a16z 把这篇文章的骨架搭得很漂亮。他们没有说"全部押注权重更新"，而是画了一条从外到内、从检索到压缩的谱系。

第一端：上下文。

最成熟、也最受限的做法。更聪明的检索管线、代理工具层、提示编排。已验证，可部署。但深度被上下文长度锁死。

一个有趣的新发展：多智能体架构。单个模型卡在 128K token 窗口里，但多个 agent 各自持有自己的上下文，专注问题切片并通信结果。Karpathy 的 autoresearch 项目和 Cursor 构建浏览器的例子都是早期信号。这相当于用"多个 Leonard 互相传纸条"来逼近更长的记忆——能用，但还是检索。

第二端：模块。

部分压缩。构建可附加的知识模块（压缩 KV 缓存、适配器层、外部记忆存储），不动基础模型的核心权重。效果？8B 模型搭配正确模块，可在特定任务上匹配 109B 模型性能，只耗少量内存。好处是与现有 Transformer 基础设施配合无间，风险可控。

第三端：权重。

真正的参数化学习。这是最难、风险最高、但也最不能绕过去的那一端。方向有五个——

方向	代表工作	一句话
正则化与权重空间	EWC, 权重插值	按重要性锁住关键参数，或者混合新旧权重配置
测试时训练 (TTT)	TTT layers, TTT-E2E, TTT-Discover	推理时跑梯度下降，当场把新信息压缩进参数
元学习	MAML, Nested Learning	训练"学会如何学习"的模型
蒸馏	LoRD, SDFT	让模型以自己为教师，自蒸馏规避遗忘
递归自我改进	STaR, AlphaEvolve	从自生成推理里引导推理能力

所有这些正在融合。TTT-Discover 已把测试时训练和 RL 驱动探索合为一体；HOPE 在一个架构内嵌套快慢学习循环；SDFT 把蒸馏变成了自我改进原语。下一代持续学习系统不会是单一方法的胜利，而是这些路径的组合。

最激进的当属 Google 的 Nested Learning。它说了一句颠覆性的话：你把神经网络的前向结构和优化算法分成"脑子"和"老师"，这本身就是一种幻觉。 在嵌套学习的视域里，模型本身就是一个由多个微型优化问题相互嵌套、并行执行的集合。每一层都有自己的学习频率——Fast Weights 在推理时实时重塑，Slow Weights 稳如泰山地巩固长期记忆。而且这个架构内置了"学习如何学习"的元循环：高阶模块监控低阶模块的误差曲面，动态调参。外面的人管这玩意叫"Attention Is All You Need——Part II"，不完全是夸张。

---

4. 为什么不能直接更新权重

说到这儿你可能想：既然权重学习才是正道，那就直接 fine-tune 呗？

事情没那么简单。文章列了四个工程问题：

灾难性遗忘。 这是经典难题。模型的敏感度刚刚好够学习新数据，但这同一份敏感度足以破坏已有表征。这叫"稳定性-可塑性困境"——你要它稳定，它就顽固；你要它可塑，它就善忘。像人到了年纪一样。

时间解耦问题。 不变规则和可变状态被压缩进同样的权重里。更新一个，另一个就坏了。你教它"2026 年世界杯冠军是 XX"，它可能顺便把"世界杯历史上法国赢过吗"这种稳定事实也搞乱了。因为模型不知道什么是"规则"、什么是"状态"，它只知道 token 序列。

逻辑整合失败。 更新一个事实不会自动传播到它的逻辑后果。你说"猫现在会飞了"，它不会自动推导出"猫不再需要地面通道"和"鸟类可能面临新的竞争"。变化是局部的——token 层面，不是语义层面。

无法遗忘。 不存在可微的"减法"。错误或有害的知识一旦进了权重，无法精准手术切除。

更大麻烦在安全方面——

文章把这点说得特别清醒：安全对齐可能在窄域微调后不可预测地退化。哪怕你只在良性数据上做窄域更新，也可能引发广泛的不对齐行为。持续更新还制造了数据投毒面——一种缓慢、持久版本的提示注入，而且植根在权重里，不像过滤聊天记录那么简单。另外，持续更新的模型是移动靶：你不能做版本控制、不能做回归测试、不能做一次性认证。隐私风险同样被放大——用户交互被压缩进参数，远比过滤检索上下文难处理。

文章没有耸人听闻。它强调这些都是"开放问题而非根本性不可能"。解决它们是持续学习研究议程的组成部分，不解决就无法安全部署。

---

5. 2026：持续学习元年

a16z 的文章搭了骨架。2025 年末到 2026 年上半年的几项突破，则往骨架上填了血肉。

第一件大事：TTT-E2E。

2025 年末，Astera 研究所等机构发布了《End-to-End Test-Time Training for Long Context》。核心思想直白得令人心颤：模型在预测下一个 token 之前，先对已读 token 做自监督学习，把上下文信息编码进权重而非 KV Cache。这就在推理阶段实现了"边读边学"。实测数据：128K 上下文测试中，推理速度比全注意力 Transformer 快 2.7 倍，且损失函数持续下降。它证明了"压缩+理解"优于"暴力存储"。

第二件大事：Nested Learning + HOPE。

Google 的这篇论文被一些人称为"Attention Is All You Need 的续作"。它把整个网络变成了一个连续体记忆系统——Fast Weights 做瞬时学习，Slow Weights 做深层巩固。HOPE 架构更引进了自我指涉的动态修正：模型不只在学，更在学"怎么学得更快"。

第三件大事：SDFT（自蒸馏微调）。

MIT 和 ETH Zurich 团队的这项工作，设计之巧，令人击节。核心是让同一个模型同时当学生和教师：学生基于当前参数生成回答，教师看了专家演示后生成条件化分布，然后让学生去模仿教师。这是 On-Policy 学习，天然约束了参数偏移范围，能显著抑制遗忘——而且不需要额外的奖励模型。实验显示，新知识获取严格准确率达 89%，分布外泛化准确率 98%，远高于 SFT 和 CPT。

第四件大事：《经验时代》。

Silver 和 Sutton（后者是 2024 年图灵奖得主）联合发表的这篇宣言，我在别处详细聊过。核心论点是：我们正从"人类数据时代"迈入"经验时代"。过去 AI 靠模仿人类数据进步，现在到了让 AI 靠自己的行动和反馈来学习的关口。经验和人类数据不同——经验是无限的，随着智能体能力提高而指数增长。AlphaProof 已经在数学竞赛里证明了这条路可行：它先学 10 万条人类证明，然后自我探索生成上亿条新证明，最终超越纯人类数据训练的模型。

这些进展聚在一起，指向同一个方向：让模型在部署后继续做它在训练时做得最好的事——压缩、抽象、学习。

---

6. 结尾：给 Leonard 一颗能长新记忆的海马体

a16z 文章的最后一段写得很漂亮，我觉得值得直接译出来：

"文件柜越变越大，但更大的文件柜终究还是文件柜。突破在于让模型在部署后做训练时让它强大的事：压缩、抽象、学习。我们正站在从失忆模型到有经验微光模型的转折点。否则，我们将困在自己的《记忆碎片》中。"

Leonard Shelby 的悲剧不在于他无法运作——他在每个场景里都有资源，甚至常常比常人优秀。他的悲剧在于无法复利积累。每次经验都只能是外在的，写在拍立得上、刻在皮肤上、记在别人的笔迹里。用得多，长得少。

今天的 AI 受同样的约束。我们有极强大的检索系统——更长的上下文窗口、更聪明的工具层、协调的多智能体群——但检索终究不是学习。

前进之路，不在抛弃检索，在分层。上下文学习做第一线适应，模块机制处理个性化，权重级学习去啃硬骨头——发现、对抗适应、说不出口的隐性知识。最终，可能我们需要重新定义"模型"这个词：不是一组固定权重，而是一个包含记忆、更新算法和从自身经验中抽象能力的演化系统。

那天还没到。但 2026 年，车已经启动了。

---

论文与来源

项目	详情
核心文章	Why We Need Continual Learning — Malika Aubakirova, Matt Bornstein, a16z, 2026.04.22
关键论文: EWC	Overcoming catastrophic forgetting in neural networks — Kirkpatrick et al., PNAS 2017
关键论文: MAML	Model-Agnostic Meta-Learning for Fast Adaptation — Finn et al., ICML 2017
关键论文: TTT-E2E	End-to-End Test-Time Training for Long Context — Astera Institute et al., arXiv 2512.23675, 2025.12
关键论文: Nested Learning	Nested Learning: The Illusion of Deep Learning Architectures — Google Research, 2025
关键论文: SDFT	Self-Distillation Enables Continual Learning — Shenfeld et al., MIT/ETH Zurich, 2026
关键论文: Era of Experience	Welcome to the Era of Experience — David Silver & Richard S. Sutton, DeepMind, 2025.04
综述	Continual Learning in Large Language Models: Methods, Challenges, and Opportunities — Chen et al., arXiv 2603.12658, 2026.03
关键观点	Ilya Sutskever on AGI and continual learning; Yu Sun on tacit knowledge in mathematical discovery

发表于 2026 年 6 月

#ContinualLearning #FeynmanLearning #智柴系统实验室🎙️