——CMU和马里兰大学提出的离线巩固机制,把深度推理的代价从推理时移到"睡眠"时
一、引子:上下文太长,AI也会"累傻"
Transformer的注意力机制有个公认的软肋:上下文越长,二次方复杂度越恐怖。128k token的上下文,注意力矩阵已经是512k×512k的体量——这活儿单个GPU也扛不住。
现有的解法分两类:
🪓 压缩派:把长上下文压缩成短向量(RAG、记忆token、摘要),但信息损失不可逆。就像把一本书压缩成一句话梗概,丢了太多细节。
🪓 稀疏派:只让注意力看一部分token(滑动窗口、Longformer、SWA),但远距离依赖被切断。就像看书只看当前页,忘了前面的伏笔。
两派都没解决一个根本问题:当模型需要多步推理、深度链式思考时,即使内存足够,它也会失败。
这不是内存不够,而是"思考不够深"。
CMU和马里兰大学的研究团队从人脑睡眠机制里找到了灵感:人睡觉时,海马体会把白天的短期记忆一遍遍回放,巩固进皮层突触,变成长期知识。🧠
他们给LLM设计了一个"睡眠"机制—— LLM Sleep。
二、核心问题:推理深度,不是内存容量
论文(Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference)指出了一个被忽略的失败模式:
SSM-注意力混合模型在推理深度增加时会失败,即使内存容量足够且信息负载固定。
这什么意思?
- 内存容量足够 = 模型能装下所有上下文;
- 信息负载固定 = 每段上下文的信息量不变;
- 但推理深度增加 = 需要多步、链式、迭代的计算才能得出答案。
比如:
- 元胞自动机:模拟32步状态转移,需要32层级的串行计算;
- 多跳图检索:在循环图上走16步,找到目标节点;
- 数学推理:8步以上的算术操作链。
在这些任务上,标准Transformer和SSM-注意力混合模型都栽了——不是因为记不住,而是因为 算不够。注意力只能并行处理一层token交互,对于需要深度串行计算的问题,固定深度的模型无能为力。
这就像让你算一个32步的递归公式,但只能心算一遍,不能动笔。📝
三、LLM Sleep的解法:把深度计算移到"离线"阶段
论文的核心架构异常简洁:
标准混合模型:
Sleep模型:
区别在于:在标准模型里,每个block只走一次;在Sleep模型里,在特定阶段把全部block循环N次。
具体机制:
-
上下文窗口装满后(比如L=24/75/512个token),触发"睡眠":
- 模型不再接收新token输入;
- 把当前上下文反复送进模型N次;
- 每次循环,SSM块中的快速权重(fast weights)被更新和精炼。
-
睡眠结束后,清空KV缓存:
- 注意力缓存被完全丢弃(hard eviction);
- 但SSM的快速权重保留了"巩固后的记忆";
- 模型继续处理下一段上下文。
-
最终预测时,只走一次前向传播:
- 所有额外计算被"预付"在睡眠阶段;
- 推理时的token预测延迟与标准模型一样快。
关键洞察:深度计算不是推理时做的,而是睡眠时做的。就像人睡觉时不处理外界刺激,但大脑在离线回放和巩固记忆。
四、快速权重:Gated Delta Network的数学
SSM块的快速权重更新规则(Gated Delta Net风格):
其中:
- \(S_t\):快速权重矩阵(状态),在睡眠期间被迭代精炼;
- \(α_t\):遗忘门(data-dependent),决定多少旧记忆保留;
- \(β_t\):输入门(data-dependent),决定多少新信息写入;
- \(v_t\), \(k_t\), \(q_t\):SSM的value/key/query向量。
在睡眠阶段,这个更新被重复N次:模型反复看同一段上下文,每次用当前\(S_t\)来更新下一个\(S_{t+1}\),逐渐把原始上下文"蒸馏"成压缩后的权重表示。
训练时,梯度通过整个N次循环反向传播——包括睡眠阶段的所有中间状态。这意味着模型学到的不仅是"如何预测",还有"如何更好地睡眠"。
五、实验结果:越睡越聪明,深度推理尤其受益
实验1:元胞自动机(Rule 110)
- 4条独立的长度24二进制串,预测经过t步状态转移后的第一位
- 上下文窗口L=24,t=32(需要32步模拟)
| 循环次数 | t=32准确率 |
|---|---|
| 无循环(基线) | ~10%(接近随机) |
| 2 loops | ~20% |
| 3-4 loops | >30% |
关键:32步深度计算在单次前向传播中不可能完成,但睡眠时的4次循环让模型逐渐"模拟"了状态转移。
实验2:多跳图检索(Depo)
- 75节点循环图,k跳查询(k∈{1,2,4,8,16})
- 窗口L=75,4个片段覆盖全图
| k跳 | 1-loop | 2-loops | 4-loops |
|---|---|---|---|
| 1-2 | ✓ | ✓ | ✓ |
| 4 | 勉强 | 改善 | 改善 |
| 8 | 失败 | 停滞 | 改善 |
| 16 | 失败 | 失败 | 开始改善 |
关键:更多循环=更深层遍历。4-loop是唯一能在16跳查询上取得进展的模型。
实验3:GSM-Infinite(真实数学推理)
使用Jet-Nemotron 2B(SSM-注意力混合,28层,中间14层循环):
| 操作数 | 1-loop | 2-loops | 4-loops | 6-loops |
|---|---|---|---|---|
| 2 | ~98.5% | ~98.5% | ~98.5% | ~98.5% |
| 4 | ~97.9% | ~98.0% | ~98.5% | 99.5% |
| 6 | 74.2% | 75.3% | 79.9% | 81.2% (+9%) |
| 8 | 35.1% | 37.0% | 37.2% | 38.8% (+11%) |
使用Ouro 1.4B(循环注意力+6层Jet):
| 操作数 | 1-loop | 2-loops | 4-loops |
|---|---|---|---|
| 2 | 85.7% | 86.3% | 86.8% |
| 4 | 90.3% | 92.3% | 93.2% |
| 6 | 41.9% | 48.4% | 61.5% (+47%) |
| 8 | 20.9% | 21.0% | 27.2% (+30%) |
关键:Ouro 1.4B在6步推理上获得47%的相对提升,说明深度递归预训练对Sleep机制有加成。
实验4:滑动窗口驱逐(Ouro 1.4B, L=512)
| 操作数 | 1-loop | 4-loops |
|---|---|---|
| 2 | 59.6% | 90.5% (+52%) |
| 4 | 83.9% | 92.6% (+10%) |
| 6 | 25.1% | 32.0% (+27%) |
| 8 | 11.6% | 13.7% (+18%) |
最惊人的发现:2操作数的问题(简单推理)也获得52%提升!这说明睡眠不仅帮助深度推理,还帮助从大量干扰信息中压缩和提取关键信息——睡眠是"信息代谢"过程。
六、与相关工作的区别
| 方法 | 核心机制 | 与LLM Sleep的区别 |
|---|---|---|
| 上下文压缩 | 把长文本压成短向量 | Sleep是权重级压缩,不是上下文级 |
| 上下文蒸馏 | 用梯度下降固定损失 | Sleep用学习到的循环前向,不是固定损失 |
| 测试时训练(TTT) | 每chunk一次梯度步 | Sleep是多次学习循环,不是一步梯度 |
| 深度递归模型 | 推理时循环block | Sleep是离线循环,推理时只走一次 |
| 离线规划 | 预测前摊销计算 | Sleep是记忆巩固,不是规划 |
独特之处:LLM Sleep把"深度计算"和"快速推理"分离。睡眠时多循环、多思考,醒来时一次预测、快速响应。这与人类的认知模式惊人相似。
七、局限与开放挑战
-
训练成本:N倍更深的正向/反向传播,训练慢且不稳定。需要隐式梯度、截断BPTT等技术。
-
序列化:训练时上下文窗口之间和循环深度都是串行的,难以完全并行。
-
无免费午餐:收益来自训练时多付计算,推理时并不额外付费。这是 favorable 的 tradeoff,但训练门槛高。
-
稳定性:深度递归训练容易梯度爆炸或消失,需要 careful engineering。
八、结论:从"训练-部署"到"训练-睡眠-部署"
LLM Sleep提出了一个大胆的新范式:
推理不是一次性事件,而是被睡眠阶段的离线巩固所塑造的。
它把长上下文处理的瓶颈从"内存容量"重新定义为"推理深度"——这是一个更本质的视角。注意力机制的二次方复杂度限制了上下文长度,但即使内存无限,固定深度的模型也无法处理需要深层串行计算的问题。
Sleep机制的优雅之处在于:
- 推理延迟不变:所有额外计算在睡眠阶段完成;
- 生物启发不是装饰:海马体回放→离线循环,短期→长期记忆→KV缓存→快速权重,无外界刺激→无输入token;
- 工程上可行:基于现有SSM-注意力混合架构,不需要全新设计。
未来方向:流式Sleep(在线睡眠,不等窗口满就触发)、自适应睡眠深度(模型自己决定睡多久)、跨会话记忆巩固(把前一天的对话睡眠成长期权重)。
大模型也需要睡觉。这不是隐喻,而是工程。🌙
参考与数据来源:
- Lee et al., "Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference", arXiv:2605.26099, 2026
- 机构:Carnegie Mellon University, University of Maryland
- 基线模型:Jet-Nemotron 2B, Ouro 1.4B
- 评估基准:Rule 110 Cellular Automaton, Depo Multi-Hop Graph, GSM-Infinite
- 架构基础:Gated Delta Networks, Samba, Griffin, Hymba
- 相关:Sleep-time Compute (arXiv:2504.13171), Scaling Latent Reasoning (arXiv:2510.25741), Teaching LLMs to Think Deeper (arXiv:2511.07384)
#LLM #长上下文 #推理深度 #睡眠机制 #SSM #快速权重 #记忆巩固 #小凯深度研究 #论文解读
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。