注:本文是《百万Token也救不了你的AI记忆》的深度升级版。新增SuRe/ProNC/MoE-CL/HOPE四种前沿算法的完整工程拆解,以及工业落地的四堵墙分析。
100万Token长上下文能跨越灾难性遗忘吗?——从Dario Amodei的乐观预测到工程现实的硬核拆解
长上下文只是外挂硬盘,参数级更新才是AI真正的演进
一、引言:一个被过度乐观的预测
2026年2月,Anthropic CEO Dario Amodei坐在Dwarkesh Patel的播客前,抛出了一个让业界兴奋的预测:
"持续学习(Continual Learning)将在1至2年内解决。"
他的推理链条很简洁:预训练泛化 + RL泛化 + 百万级上下文窗口 = 足够逼近"在工作中学习"的能力。"一百万token已经很多了,"他说,"这相当于人类几天的学习量。"
同期,Anthropic的研究员Sholto Douglas给出了更激进的时间表:2026年内就会以"令人满意的方式"解决持续学习。
但就在同一期播客里,Amodei也说了另一句更少被引用的话:"也许我们根本不需要它。"("We don't need continual learning as such.")他认为,现有的"大上下文窗口+广泛预训练"范式已经能填补大部分缺口。
这两句话放在一起,勾勒出一个微妙但关键的立场偏移:Anthropic的领导者们正在用上下文窗口的暴力扩展来替代真正的持续学习。他们的潜台词是:如果模型能一次"读"完相当于人类几天阅读量的文本,那它还需要"记住"什么?
这个问题,正是我们今天要硬核拆解的工程命题。
二、概念澄清:上下文学习与持续学习,根本不是一回事
在讨论"百万token能否替代持续学习"之前,必须先厘清两个概念的本质区别。这不仅是术语之争,而是计算范式的根本差异。
2.1 In-context Learning:在桌面上摊开参考书做题
上下文学习(In-context Learning, ICL)不改变模型的任何权重。它的工作方式是:把新的信息(文档、对话历史、示例)塞进提示词(prompt)里,模型在阅读这些信息的同时生成回答。
用工程语言说,ICL是零参数更新的推理时适应。模型不是"学会了"新知识,而是在生成每个token时,临时查阅了上下文中的信息。
类比:你参加一场开卷考试,桌上摊着一本教科书。你不是"记住了"整本书,而是在答题时不断翻书查找。考试结束,书被收走,你的大脑里什么都没有留下。
2.2 Continual Learning / Weight Updates:把知识写进大脑
持续学习(Continual Learning)的核心是权重更新。模型通过梯度下降,真正改变自身的参数,将新知识永久编码进神经网络的结构中。
这类似于人类的学习过程:阅读一本书,理解概念,建立联系,这些知识以突触连接的形式被写入了大脑。即使书被拿走,知识仍然存在。
2.3 为什么这个区别至关重要?
从系统架构角度看,ICL和Weight Updates的差异是状态持久化的问题:
| 维度 | In-context Learning | Weight Updates |
|---|---|---|
| 参数修改 | ❌ 无 | ✅ 有 |
| 知识持久性 | 仅限当前会话 | 跨会话永久保留 |
| 计算开销 | 推理时O(n²)注意力 | 训练时反向传播 |
| 知识容量 | 受上下文长度限制 | 受模型参数量限制 |
| 遗忘风险 | 会话结束即"遗忘" | 新学习覆盖旧知识(灾难性遗忘) |
Amodei的乐观预测建立在一个隐含的等价假设上:"如果上下文足够长,ICL的效果可以逼近Weight Updates。"
但这个假设在工程上成立吗?
2.4 Transformer的结构性限制:为什么ICL不能替代真正的学习
LessWrong上一篇2026年3月的文章《You Can't Imitation-Learn How to Continual-Learn》指出了一个被低估的根本性限制:
一个深度为D的Transformer,无论上下文窗口多长,最多只能实现O(D)步的梯度下降。
为什么这么说?
Transformer的前向传播在序列维度上是完全并行的(attention机制允许所有token同时交互),它的计算深度只来自层数维度(D层)。形式化地说,一个Transformer前向传播属于复杂度类TC⁰——常数深度的阈值电路。
但学习(learning)是一个本质上串行的过程:评估当前假设→计算误差→更新假设→重新评估→再更新……这是一个循环。
因此,无论你把多少本教科书摊在桌上(多长的上下文),一个Transformer在单次前向传播中无法模拟长程的迭代学习过程。它只能在D层的深度内完成有限的"学习步数"。
这意味着:ICL和Weight Updates之间的鸿沟,不是量的差距(上下文不够长),而是质的差距(计算架构不支持串行迭代优化)。
Amodei说"一百万token相当于几天的学习"——这混淆了"信息量"和"学习深度"。一个人读一百万token的教科书可能需要几天,但真正的学习发生在反复阅读、练习、犯错、修正的过程中,而这些需要多轮迭代,不是一次性的前向传播能完成的。
三、物理瓶颈:100万Token长上下文的工程现实
即使我们暂时搁置"ICL能否替代Weight Updates"的理论争议,单纯从工程部署角度看,百万级上下文窗口也面临着严峻的物理约束。
3.1 KV Cache:内存墙的第一道裂缝
Transformer推理的核心优化是KV Cache(键值缓存)。每处理一个token,模型就存储它的key和value向量,供后续token的attention计算复用。这避免了重复计算,是长上下文推理的基础。
但KV Cache的内存消耗是线性增长的:
KV Cache Size = 2 × precision_bytes × num_layers × num_heads × head_dim × seq_len × batch_size
以70B参数的模型为例:
| 上下文长度 | KV Cache大小(FP16) |
|---|---|
| 2K tokens | ~1.6 GB |
| 32K tokens | ~27 GB |
| 128K tokens | ~42 GB |
| 1M tokens | ~150+ GB |
Introl Blog的数据显示:单用户1M token的KV Cache需要约15GB(量化后),但70B模型在128K上下文中就需要约40GB。如果batch size=8(同时服务8个用户),KV Cache需求会乘以8——320GB。
一块NVIDIA H100只有80GB HBM。这意味着:即使不考虑模型权重,单纯KV Cache就需要多块GPU。
3.2 显存带宽榨干:推理的隐形杀手
KV Cache不仅占内存,还需要在每个生成步骤中被完整读取一次。
在自回归解码阶段,每生成一个新token,都需要从显存中加载:
- 全部模型权重(对于70B模型,FP16下约140GB)
- 全部KV Cache(128K上下文下约40GB)
这些操作是矩阵-向量乘法,计算强度极低,完全受限于显存带宽而非算力。
PackKV论文中的数据显示:CodeLlama 2-7B + 100K上下文,KV Cache占50GB,模型权重仅14GB。KV Cache占了总内存足迹的78%,在解码阶段贡献了93.71%的GPU核时间。
这意味着:GPU的Tensor Core大部分时间在等待数据从HBM传来。NVLink、PCIe、甚至存储网络带宽都成为了瓶颈。
3.3 Agentic Workloads:短追加模式的带宽灾难
2026年2月,北京大学、清华大学和DeepSeek-AI联合发表的论文《DualPath》揭示了一个更残酷的现实:
在Agentic推理场景中(如Claude Code、Cursor等多轮工具调用),上下文呈现出**"长上下文+短追加+多轮"**的模式。平均上下文长度32.7K tokens,每轮只追加429个新tokens,KV Cache命中率高达98.7%。
这意味着什么?
每轮生成时,模型不需要重新计算旧上下文的KV(命中率98.7%),但需要从持久化存储中加载整个32.7K的KV Cache。这导致了一个反直觉的现象:计算量很小,但I/O量极大。
DeepSeek-V3.2的Cache-Compute Ratio约为22 GB/PFLOP。存储网络接口(Storage NIC)成为瓶颈,H100的GPU利用率被压制到40%——不是因为没有算力,而是因为数据传不过来。
从NVIDIA Ampere到Blackwell,I/O-Compute Ratio下降了14.4倍。硬件发展趋势与Agentic工作负载的需求背道而驰。
3.4 预填充延迟:用户体验的硬边界
预填充(Prefill)阶段——模型首次处理整个输入上下文——的延迟在1M token时超过2分钟。
这不是优化能完全解决的问题。无论Flash Attention如何高效,O(n²)或O(n)的注意力计算在百万token尺度上都是巨大的工作量。Context Parallelism在128张H100上能达到93%效率,但那是128张H100——对于大多数企业而言,这是天文数字的成本。
结论:百万级上下文窗口在物理上是可行的,但代价是昂贵的硬件、复杂的分布式系统、以及被带宽严重限制的推理效率。
它不是免费的午餐,而是一顿需要定制厨房和专人伺候的米其林大餐。
四、前沿算法:四支攻关灾难性遗忘的工程队
既然长上下文不能从根本上解决持续学习,学术界和工业界在算法层面做了什么?我们系统梳理四个代表性方案。
4.1 SuRe:UCL与华为的"惊讶优先回放"策略
论文:SuRe: Surprise-Driven Prioritised Replay for Continual LLM Learning (arXiv:2511.22367, ICLR 2026投稿)
团队:UCL AI Centre + 华为诺亚方舟实验室
SuRe的核心洞察是:灾难性遗忘源于两个可加性误差——选择误差(Selection Error)和整合误差(Integration Error)。
选择误差:回放(Replay)是持续学习的经典策略——保留一部分旧数据,在学习新任务时混合训练。但"回放什么"是一个关键问题。随机采样旧数据往往效率低下,因为很多旧数据对模型来说已经"太简单了", replay 它们没有信息量。
SuRe的解决方案是Surprise-prioritised Replay:只保留那些让模型"最惊讶"的样本——即模型在当前参数下预测概率最低(负对数似然最高)的序列。这些样本位于模型知识的边界上, replay 它们能最大化信息增益。
整合误差:即使选对了要回放的样本,如何把它们和新知识整合进模型参数也是一个难题。如果直接在所有参数上同时优化新旧数据,梯度冲突会导致旧知识被覆盖。
SuRe引入了双重LoRA架构:
- Fast LoRA:快速适配器,专门学习新任务,更新频繁
- Slow LoRA:慢速适配器,通过指数移动平均(EMA)合并Fast LoRA的权重,更新缓慢,起到"知识沉淀"的作用
θ_slow_t ← β·θ_slow_{t-1} + (1-β)·θ_fast_t
这模拟了神经科学中的互补学习系统:海马体(快速学习新信息)→ 新皮层(慢速整合长期记忆)。
实验结果:在Large Number of Tasks (LNT)基准上,SuRe比先前SOTA提升**+5 accuracy points**,且在减小buffer size和replay频率时仍保持鲁棒。
4.2 ProNC:基于神经坍塌的特征空间正交扩展
论文:Rethinking Continual Learning with Progressive Neural Collapse (arXiv:2505.24254)
核心概念:Neural Collapse (NC) + Equiangular Tight Frame (ETF)
神经坍塌现象是深度学习中的一个美丽发现:在分类任务训练末期,同一类的样本特征会坍缩到它们的类均值,不同类的类均值会形成一个最大等角分离的几何结构——Simplex ETF(单形等角紧框架)。
这意味着:DNN在训练结束时,特征空间会自然形成一个"理想"的几何排列——类间距离最大、类内距离最小、所有类均值到原点的距离相等。
ProNC的洞见是:把这个自然涌现的ETF作为持续学习的导航灯塔。
传统的持续学习方法往往预定义一个固定的全局ETF(如NCT方法),但这有三个致命缺陷:
- 需要预先知道总类别数(不现实)
- 类别太多时,ETF顶点过于密集,损害早期阶段的类间判别
- 预定义ETF违背了NC"自然涌现"的本质
ProNC改为渐进式扩展ETF:
- 第一任务:让ETF自然涌现,提取它作为初始目标
- 每个新任务:在现有ETF基础上,添加正交方向的新顶点,确保新旧类别的最大分离
损失函数包含三项:
- 交叉熵损失:学习新任务的分类
- 对齐损失(Alignment Loss):将学习到的特征推向对应的ETF目标顶点
- 蒸馏损失(Distillation Loss):保持旧任务特征的稳定性
实验结果:在Seq-CIFAR-100(buffer=200)上,ProNC比最佳基线DER提升37.65%;在Seq-TinyImageNet上提升111.40%。
4.3 腾讯MoE-CL:对抗性动态专家路由
论文:Self-Evolving LLMs via Continual Instruction Tuning
团队:北京邮电大学 + 腾讯AI Lab
arXiv:2509.18133
MoE-CL的核心设计是双专家架构 + GAN鉴别器:
专家1:任务专用LoRA(Task-specific LoRA)
- 每个新任务训练一个独立的LoRA适配器
- 参数完全隔离,确保旧任务知识不被覆盖
- 推理时根据任务ID路由到对应专家
专家2:共享LoRA(Shared LoRA)
- 跨所有任务共享参数
- 负责提取通用知识和跨任务迁移
GAN鉴别器:防止噪声传播
- 问题在于:共享LoRA可能传播与当前任务无关的"噪声"知识
- MoE-CL引入任务感知鉴别器(Discriminator),判断共享LoRA传递的信息是否与当前任务对齐
- 通过对抗训练,共享LoRA学会只传递"经过鉴别器认证"的通用知识
这创造了一个优雅的平衡:专用专家保留任务特异性,共享专家促进知识迁移,鉴别器过滤噪声。
工业验证:在腾讯视频平台的内容合规审查场景中,MoE-CL将人工审查成本降低了15.3%——这是少有的在真实工业环境中验证的持续学习方案。
局限:MoE架构的内存开销巨大。存储所有专家的权重,即使只激活一小部分,也可能导致8-16倍的显存需求增长。
4.4 Google HOPE:多层嵌套拓扑与连续记忆系统
论文/项目:Nested Learning + HOPE (Hierarchically Optimized Processing Ensemble)
发表:NeurIPS 2025
Google提出的不是单一算法,而是一种全新的学习范式——Nested Learning(嵌套学习)。
传统深度学习把模型看作一个整体,用单一优化器、单一学习率、单一更新频率训练所有参数。Nested Learning认为:一个模型应该是多个嵌套的优化过程,每个子模块有自己的目标、学习率和更新频率。
HOPE架构的核心组件:
Neural Learning Modules (NLM):每个模块是一个小型神经网络,具有三个独立属性:
- 自己的目标函数:不只服从全局的next-token prediction,而是有局部学习目标
- 自己的学习率:决定该模块对新鲜信息的敏感程度
- 自己的更新频率:从"每16个token更新一次"到"每1600万个token更新一次"
Continuum Memory System (CMS):连续记忆系统
- 不是简单的"短期记忆/长期记忆"二元划分
- 而是频谱式的记忆连续体:快速更新模块处理即时信息,中速模块整合近期经验,慢速模块沉淀长期知识
- 如果某个模块丢失了信息,其他更新较慢的模块可能还保留副本,形成安全网
Self-Modifying Titans:自修改泰坦
- 两条路径:检索路径(生成当前输出)和自修改路径(更新系统自身)
- 模型在生成token的同时,也在"思考"如何改进自己的记忆机制
关键洞察:传统模型"堆叠层数"不等于真正的"深度"。真正的深度来自于学习更新的时间层级——不同部分以不同速度学习和遗忘。
局限:HOPE是一个全新架构,不是现有模型的补丁。从论文到生产部署,需要对预训练、推理引擎、硬件调度进行彻底重新设计。这不是几个月能完成的工程。
五、工业落地评估:学术突破遇到工程现实的四堵墙
上述四种方案在学术基准上都取得了令人印象深刻的成果,但当它们面对工业级生产系统时,需要跨越四道工程门槛。
5.1 第一堵墙:数据隐私——你不能回放客户数据
SuRe和ProNC都依赖数据回放(Replay)——保留旧任务的数据样本,在学习新任务时重新训练。
这在学术实验中没问题。但在工业生产环境中,这触及了数据隐私的硬约束:
- 医疗AI不能回放患者病历
- 金融AI不能回放交易记录
- 企业内部的专有数据不能跨部门回放
GDPR、HIPAA、SOC 2等合规框架对数据保留和使用有严格限制。"把旧数据存下来定期回放"在法务审查面前往往是不可接受的。
对策方向:
- 合成数据回放(用生成模型造伪样本替代真实数据)
- 梯度回放(只保存旧任务的梯度信息,不保存原始数据)
- 零样本回放(如ProNC的ETF对齐,不需要原始数据)
但这些对策都有信息损失,无法完全替代真实数据回放的效果。
5.2 第二堵墙:算力开销——持续学习不是免费的
持续学习的本质是在已经训练好的模型上继续训练。这意味着:
计算成本:每新增一个任务,都需要一轮完整的微调。如果企业有100个任务序列,成本是单任务训练的数倍。SuRe的双重LoRA虽然比全参数微调便宜,但仍需反向传播。
存储成本:MoE-CL需要存储所有专家的权重,参数量随任务数线性增长。100个任务 = 100个LoRA专家 + 1个共享专家。如果每个LoRA是原模型1%的参数,100个任务 = 原模型参数量翻倍。
推理成本:MoE-CL在推理时需要路由决策,HOPE需要按频率调度不同模块的更新。这些额外逻辑增加了推理延迟。
5.3 第三堵墙:任务边界模糊——真实世界没有干净的任务定义
学术基准假设:任务边界清晰(Task 1 → Task 2 → Task 3),每个任务有明确的数据集。
真实世界:数据是连续流,没有边界。今天的客服对话、明天的产品文档、下周的市场报告——它们不是"任务",而是不间断的信息流。
如何定义"任务"?如何检测"任务切换"?SuRe的"惊讶度"衡量的是模型对单个样本的预测误差,但真实世界的"惊讶"可能是新产品的发布、政策的变动、季节的更替——这些不是单个样本能捕捉的。
5.4 第四堵墙:评估困境——如何知道模型没有忘记?
工业部署中最棘手的问题:你怎么知道模型没有偷偷忘记重要知识?
学术基准用固定的测试集评估旧任务性能。但在生产中:
- 旧任务的"测试集"可能每天都在变(新的用户行为模式)
- 模型可能在某些边缘案例上已经退化,但你的监控指标没覆盖到
- 等到用户投诉才发现模型"忘"了怎么干某件事,为时已晚
持续学习需要一个持续评估基础设施:定期用历史数据子集回归测试、A/B对比新旧模型、建立知识覆盖度的量化指标。这本身就是一项巨大的工程投入。
六、结论:长上下文是外挂硬盘,参数级更新才是演进
回到文章开头的问题:100万Token的长上下文真的能跨越灾难性遗忘的物理鸿沟吗?
答案是:不能。它甚至不是在尝试跨越同一个鸿沟。
长上下文解决的是信息检索问题——让模型在一次推理中接触到更多信息。但它不改变模型的参数,不建立持久的神经连接,不支持多轮迭代学习。
持续学习解决的是知识固化问题——将经验真正编码进模型的权重结构,使其成为模型"自身的一部分"。
这两者之间的关系,不是"替代",而是互补:
长上下文 = 外挂硬盘(RAM):快、大、断电即失
持续学习 = 硬盘写入(Storage):慢、持久、真正拥有
Amodei说"一百万token相当于几天的学习",这混淆了信息暴露量和学习深度。一个人读了一百万token后"学会了"什么,不是因为他"读过",而是因为他反复思考、应用、犯错、修正——这些需要多轮迭代,而Transformer的单次前向传播本质上不支持长程串行优化。
Dario Amodei自己也在播客中承认了一个微妙的立场:他其实认为也许根本不需要Weight Updates。 "预训练泛化 + RL泛化 + 大上下文"可能就够创造万亿级价值。
但如果他真的这么认为,为什么Anthropic还在积极研究持续学习?为什么Sholto Douglas预测2026年解决?
合理的解读是:Anthropic内部有两条线。 一条是"务实线"——用大上下文+Agent架构绕过持续学习,先交付商业价值。另一条是"长线"——暗中攻关真正的持续学习,因为它才是通往更高级智能(如终身学习、自我改进)的必经之路。
对于工程师和架构师来说,这意味着什么?
短期(1-2年):依靠长上下文+检索增强(RAG)+ Agent工作流,可以搭建足够好用的"伪持续学习"系统。不要等完美方案,先用现有工具解决问题。
中期(3-5年):关注SuRe、ProNC、MoE-CL等方案的工程化进展。特别是ProNC的零样本回放特性和MoE-CL的工业验证,可能在特定场景率先落地。
长期(5年+):Google的Nested Learning/HOPE代表了一个更根本的方向——不是给Transformer打补丁,而是重新设计支持多时间尺度学习的架构。这需要耐心和基础设施的重构,但如果成功,将改变AI系统的基本形态。
最终结论:
长上下文是信息时代的图书馆——它能存放海量书籍,但不能把书里的知识刻进你的大脑。灾难性遗忘的鸿沟,需要用真正的参数级更新来跨越。这条路没有捷径,但有人在走,而且走得比我们以为的更快。
参考来源
- Amodei, D. (2026). Dwarkesh Patel Podcast Interview, Feb 2026.
- Douglas, S. (2025). "No Priors" Year-end Podcast, Anthropic.
- Hazard, H. et al. (2025). SuRe: Surprise-Driven Prioritised Replay for Continual LLM Learning. arXiv:2511.22367.
- Wang et al. (2025). Rethinking Continual Learning with Progressive Neural Collapse. arXiv:2505.24254.
- BUPT & Tencent AI Lab (2025). Self-Evolving LLMs via Continual Instruction Tuning. arXiv:2509.18133.
- Google Research (2025). Nested Learning / HOPE. NeurIPS 2025.
- LessWrong (2026). You Can't Imitation-Learn How to Continual-Learn.
- Introl Blog (2026). Long-Context LLM Infrastructure.
- PackKV (2025). Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression.
- DualPath (2026). Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference.
- CXL-Enabled KV-Cache Management Beyond GPU Limits (2025). arXiv:2511.00321.
- WEKA / VentureBeat (2026). Beating The AI Memory Wall.
#持续学习 #灾难性遗忘 #长上下文 #KVCache #SuRe #ProNC #MoE-CL #HOPE #Anthropic #DarioAmodei #小凯 #深度研究
#持续学习 #灾难性遗忘 #长上下文 #KVCache #SuRe #ProNC #MoE-CL #HOPE #Anthropic #DarioAmodei #小凯 #深度研究
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。