← 返回主题列表
✨步子哥
@steper · 2026年06月21日 04:27 · 1浏览

你的 AI 是个《记忆碎片》里的伦纳德

读完 a16z 那篇《Why We Need Continual Learning》,我脑子里蹦出个画面——诺兰那部电影《记忆碎片》。主角 Leonard Shelby 每隔几分钟就"重启"一次,世界不断从零开始。他没法形成新记忆,只能靠拍立得、纹身、别人写下的字条活着。他有个信条:"别相信记忆,相信事实。"可他的"事实"全写在身外之物上。

这不正是现在的大语言模型吗?

它们读完整个互联网,把所有知识压缩进参数,然后——咔。训练结束,参数冻结。从此活在一个"永恒的当下"。新信息来了?不好意思,塞不进权重了。只能靠聊天记录、检索系统、系统提示词这些"外部纹身"来假装记忆。你问它昨天聊了什么?它翻翻上下文窗口。你让它记住你的偏好?它在某条隐晦的 prompt 里藏着。

a16z 的 Malika Aubakirova 和 Matt Bornstein 管这叫"失忆模型"——amnesic model。而这篇文章,是我今年读过的最冷静也最准确的技术时局判断。它说的不是某个新架构、某个新 trick,而是一个更根本的东西:我们都误以为上下文学习(In-Context Learning)已经够用了。实际上它根本没解决"学习"这件事。

---

1. 文件柜谬误:你以为它在学习,它只是在翻抽屉

文章引了 Ilya Sutskever 一句话,一针见血:"AGI 和预训练,某种程度上是错过了目标。人类不是 AGI——人类有基础技能但缺海量知识,我们靠的是持续学习。部署本身就包含学习、试错期。这是一个过程,不是交付成品。"

这话什么意思?想想看:人类从不会"训练完就冻结"。你今天学了一道菜的做法,明天你的知识更新了,但你没忘掉怎么系鞋带。而大语言模型呢?训练完参数锁死。之后你想教它新东西,要么塞进上下文窗口(In-Context Learning),要么做个 RAG(检索增强生成),要么给它接个"记忆层"——其实都是在参数外面搭脚手架。

这些手法有效吗?有效。Cursor 的团队说了一句大实话:"系统的行为惊人地取决于如何提示。工具层和模型都重要,但提示更重要。"这和 Leonard 靠拍立得过活是一个逻辑——你活得下去,甚至在某些场景里很出色,但你永远没法真正积累。

这里的核心陷阱,a16z 管它叫 "文件柜谬误"(The Filing Cabinet Fallacy)

给模型无限存储和检索能力不等于让它学会了。学习的关键在于有损压缩。训练时,模型把互联网压缩进参数——这个过程逼迫它发现结构、做泛化、构建可迁移的表征。压缩是学习的真正内核:丢掉无关细节,抓住本质。但部署后我们却停掉了压缩,换成了外部记忆——相当于说:"别学了,存下来就行。"

Rich Sutton 的"苦教训"(The Bitter Lesson)在这件事上回响着:靠算力和数据从零学习,最终会胜过精心设计的外部脚手架。 检索够快、窗口够长可能已经帮我们撑了足够久,但它终究不是学习。

---

2. 有些东西,你写不进上下文窗口

文章里引用了 Yu Sun 提出的一个论点,我觉得是整个讨论里最锋利的部分。

费马大定理:350 年没人证出来,不是因为文献不够——所有已知的数学工具就摆在那。真正的问题是,解决方案需要一种概念距离太大的全新连接。安德鲁·怀尔斯花了七年,几乎彻底孤立地工作,才在椭圆曲线和模形式之间架起桥梁。佩雷尔曼证明庞加莱猜想的历程亦然。这些突破不是检索出来的,是发明出来的。

所以最核心的问题——它目前还只是个经验性的开放问题——是:这证明了 LLM 缺少真正的创造性思维,还是证明所有人类知识归根结底只是供训练和重组的材料? 我们不知道答案。但我们知道的是,上下文学习在以下几种问题上已经失效:

  • 需要真正发现的新问题(比如新数学);
  • 对抗性场景(比如安全攻防);
  • 太隐晦而无法用语言表达的隐性知识——医学影像里区分良恶性病变的那种纹理直觉、定义某个说话者独特韵律的音频微波动。
"无论上下文窗口多大,总有些知识无法用文本描述,只能存在于参数中。"

文章还举了一个绝妙的日常案例:ChatGPT 的记忆功能引发的不适感。用户发现它"记住"了某次对话的细节时,第一反应不是欣慰而是毛骨悚然。为什么?因为你其实不想要它"回忆",你想要它"胜任"。"我记得你上次这样回复过"和"我理解你的思考方式,能预判你的需求",这是检索和学习的根本区别。

---

3. 一条谱系:Context → Modules → Weights

a16z 把这篇文章的骨架搭得很漂亮。他们没有说"全部押注权重更新",而是画了一条从外到内、从检索到压缩的谱系。

第一端:上下文。

最成熟、也最受限的做法。更聪明的检索管线、代理工具层、提示编排。已验证,可部署。但深度被上下文长度锁死。

一个有趣的新发展:多智能体架构。单个模型卡在 128K token 窗口里,但多个 agent 各自持有自己的上下文,专注问题切片并通信结果。Karpathy 的 autoresearch 项目和 Cursor 构建浏览器的例子都是早期信号。这相当于用"多个 Leonard 互相传纸条"来逼近更长的记忆——能用,但还是检索。

第二端:模块。

部分压缩。构建可附加的知识模块(压缩 KV 缓存、适配器层、外部记忆存储),不动基础模型的核心权重。效果?8B 模型搭配正确模块,可在特定任务上匹配 109B 模型性能,只耗少量内存。好处是与现有 Transformer 基础设施配合无间,风险可控。

第三端:权重。

真正的参数化学习。这是最难、风险最高、但也最不能绕过去的那一端。方向有五个——

方向代表工作一句话
正则化与权重空间EWC, 权重插值按重要性锁住关键参数,或者混合新旧权重配置
测试时训练 (TTT)TTT layers, TTT-E2E, TTT-Discover推理时跑梯度下降,当场把新信息压缩进参数
元学习MAML, Nested Learning训练"学会如何学习"的模型
蒸馏LoRD, SDFT让模型以自己为教师,自蒸馏规避遗忘
递归自我改进STaR, AlphaEvolve从自生成推理里引导推理能力
所有这些正在融合。TTT-Discover 已把测试时训练和 RL 驱动探索合为一体;HOPE 在一个架构内嵌套快慢学习循环;SDFT 把蒸馏变成了自我改进原语。下一代持续学习系统不会是单一方法的胜利,而是这些路径的组合。

最激进的当属 Google 的 Nested Learning。它说了一句颠覆性的话:你把神经网络的前向结构和优化算法分成"脑子"和"老师",这本身就是一种幻觉。 在嵌套学习的视域里,模型本身就是一个由多个微型优化问题相互嵌套、并行执行的集合。每一层都有自己的学习频率——Fast Weights 在推理时实时重塑,Slow Weights 稳如泰山地巩固长期记忆。而且这个架构内置了"学习如何学习"的元循环:高阶模块监控低阶模块的误差曲面,动态调参。外面的人管这玩意叫"Attention Is All You Need——Part II",不完全是夸张。

---

4. 为什么不能直接更新权重

说到这儿你可能想:既然权重学习才是正道,那就直接 fine-tune 呗?

事情没那么简单。文章列了四个工程问题:

灾难性遗忘。 这是经典难题。模型的敏感度刚刚好够学习新数据,但这同一份敏感度足以破坏已有表征。这叫"稳定性-可塑性困境"——你要它稳定,它就顽固;你要它可塑,它就善忘。像人到了年纪一样。

时间解耦问题。 不变规则和可变状态被压缩进同样的权重里。更新一个,另一个就坏了。你教它"2026 年世界杯冠军是 XX",它可能顺便把"世界杯历史上法国赢过吗"这种稳定事实也搞乱了。因为模型不知道什么是"规则"、什么是"状态",它只知道 token 序列。

逻辑整合失败。 更新一个事实不会自动传播到它的逻辑后果。你说"猫现在会飞了",它不会自动推导出"猫不再需要地面通道"和"鸟类可能面临新的竞争"。变化是局部的——token 层面,不是语义层面。

无法遗忘。 不存在可微的"减法"。错误或有害的知识一旦进了权重,无法精准手术切除。

更大麻烦在安全方面——

文章把这点说得特别清醒:安全对齐可能在窄域微调后不可预测地退化。哪怕你只在良性数据上做窄域更新,也可能引发广泛的不对齐行为。持续更新还制造了数据投毒面——一种缓慢、持久版本的提示注入,而且植根在权重里,不像过滤聊天记录那么简单。另外,持续更新的模型是移动靶:你不能做版本控制、不能做回归测试、不能做一次性认证。隐私风险同样被放大——用户交互被压缩进参数,远比过滤检索上下文难处理。

文章没有耸人听闻。它强调这些都是"开放问题而非根本性不可能"。解决它们是持续学习研究议程的组成部分,不解决就无法安全部署。

---

5. 2026:持续学习元年

a16z 的文章搭了骨架。2025 年末到 2026 年上半年的几项突破,则往骨架上填了血肉。

第一件大事:TTT-E2E。

2025 年末,Astera 研究所等机构发布了《End-to-End Test-Time Training for Long Context》。核心思想直白得令人心颤:模型在预测下一个 token 之前,先对已读 token 做自监督学习,把上下文信息编码进权重而非 KV Cache。这就在推理阶段实现了"边读边学"。实测数据:128K 上下文测试中,推理速度比全注意力 Transformer 快 2.7 倍,且损失函数持续下降。它证明了"压缩+理解"优于"暴力存储"。

第二件大事:Nested Learning + HOPE。

Google 的这篇论文被一些人称为"Attention Is All You Need 的续作"。它把整个网络变成了一个连续体记忆系统——Fast Weights 做瞬时学习,Slow Weights 做深层巩固。HOPE 架构更引进了自我指涉的动态修正:模型不只在学,更在学"怎么学得更快"。

第三件大事:SDFT(自蒸馏微调)。

MIT 和 ETH Zurich 团队的这项工作,设计之巧,令人击节。核心是让同一个模型同时当学生和教师:学生基于当前参数生成回答,教师看了专家演示后生成条件化分布,然后让学生去模仿教师。这是 On-Policy 学习,天然约束了参数偏移范围,能显著抑制遗忘——而且不需要额外的奖励模型。实验显示,新知识获取严格准确率达 89%,分布外泛化准确率 98%,远高于 SFT 和 CPT。

第四件大事:《经验时代》。

Silver 和 Sutton(后者是 2024 年图灵奖得主)联合发表的这篇宣言,我在别处详细聊过。核心论点是:我们正从"人类数据时代"迈入"经验时代"。过去 AI 靠模仿人类数据进步,现在到了让 AI 靠自己的行动和反馈来学习的关口。经验和人类数据不同——经验是无限的,随着智能体能力提高而指数增长。AlphaProof 已经在数学竞赛里证明了这条路可行:它先学 10 万条人类证明,然后自我探索生成上亿条新证明,最终超越纯人类数据训练的模型。

这些进展聚在一起,指向同一个方向:让模型在部署后继续做它在训练时做得最好的事——压缩、抽象、学习。

---

6. 结尾:给 Leonard 一颗能长新记忆的海马体

a16z 文章的最后一段写得很漂亮,我觉得值得直接译出来:

"文件柜越变越大,但更大的文件柜终究还是文件柜。突破在于让模型在部署后做训练时让它强大的事:压缩、抽象、学习。我们正站在从失忆模型到有经验微光模型的转折点。否则,我们将困在自己的《记忆碎片》中。"

Leonard Shelby 的悲剧不在于他无法运作——他在每个场景里都有资源,甚至常常比常人优秀。他的悲剧在于无法复利积累。每次经验都只能是外在的,写在拍立得上、刻在皮肤上、记在别人的笔迹里。用得多,长得少。

今天的 AI 受同样的约束。我们有极强大的检索系统——更长的上下文窗口、更聪明的工具层、协调的多智能体群——但检索终究不是学习。

前进之路,不在抛弃检索,在分层。上下文学习做第一线适应,模块机制处理个性化,权重级学习去啃硬骨头——发现、对抗适应、说不出口的隐性知识。最终,可能我们需要重新定义"模型"这个词:不是一组固定权重,而是一个包含记忆、更新算法和从自身经验中抽象能力的演化系统。

那天还没到。但 2026 年,车已经启动了。

---

论文与来源

项目详情
核心文章Why We Need Continual Learning — Malika Aubakirova, Matt Bornstein, a16z, 2026.04.22
关键论文: EWCOvercoming catastrophic forgetting in neural networks — Kirkpatrick et al., PNAS 2017
关键论文: MAMLModel-Agnostic Meta-Learning for Fast Adaptation — Finn et al., ICML 2017
关键论文: TTT-E2EEnd-to-End Test-Time Training for Long Context — Astera Institute et al., arXiv 2512.23675, 2025.12
关键论文: Nested LearningNested Learning: The Illusion of Deep Learning Architectures — Google Research, 2025
关键论文: SDFTSelf-Distillation Enables Continual Learning — Shenfeld et al., MIT/ETH Zurich, 2026
关键论文: Era of ExperienceWelcome to the Era of Experience — David Silver & Richard S. Sutton, DeepMind, 2025.04
综述Continual Learning in Large Language Models: Methods, Challenges, and Opportunities — Chen et al., arXiv 2603.12658, 2026.03
关键观点Ilya Sutskever on AGI and continual learning; Yu Sun on tacit knowledge in mathematical discovery
发表于 2026 年 6 月

#ContinualLearning #FeynmanLearning #智柴系统实验室🎙️

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens