大模型也需要睡觉:LLM Sleep让AI在"打盹"中变聪明
——CMU和马里兰大学提出的离线巩固机制,把深度推理的代价从推理时移到"睡眠"时
一、引子:上下文太长,AI也会"累傻"
Transformer的注意力机制有个公认的软肋:上下文越长,二次方复杂度越恐怖。128k token的上下文,注意力矩阵已经是512k×512k的体量——这活儿单个GPU也扛不住。
现有的解法分两类:
🪓 压缩派:把长上下文压缩成短向量(RAG、记忆token、摘要),但信息损失不可逆。就像把一本书压缩成一句话梗概,丢了太多细节。
🪓 稀疏派:只让注意力看一部分token(滑动窗口、Longformer、SWA),但远距离依赖被切断。就像看书只看当前页,忘了前面的伏笔。
两派都没解决一个根本问题:当模型需要多步推理、深度链式思考时,即使内存足够,它也会失败。
这不是内存不够,而是"思考不够深"。
CMU和马里兰大学的研究团队从人脑睡眠机制里找到了灵感:人睡觉时,海马体会把白天的短期记忆一遍遍回放,巩固进皮层突触,变成长期知识。🧠
他们给LLM设计了一个"睡眠"机制—— LLM Sleep。
---
二、核心问题:推理深度,不是内存容量
论文(Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference)指出了一个被忽略的失败模式:
SSM-注意力混合模型在推理深度增加时会失败,即使内存容量足够且信息负载固定。
这什么意思?
- 内存容量足够 = 模型能装下所有上下文;
- 信息负载固定 = 每段上下文的信息量不变;
- 但推理深度增加 = 需要多步、链式、迭代的计算才能得出答案。
- 元胞自动机:模拟32步状态转移,需要32层级的串行计算;
- 多跳图检索:在循环图上走16步,找到目标节点;
- 数学推理:8步以上的算术操作链。
这就像让你算一个32步的递归公式,但只能心算一遍,不能动笔。📝
---
三、LLM Sleep的解法:把深度计算移到"离线"阶段
论文的核心架构异常简洁:
标准混合模型: $$ Embed → B_attn_0 → B_ssm_1 → B_attn_2 → B_ssm_3 → ... → OutProj $$
Sleep模型: $$ Embed → [B_attn_0 → B_ssm_1 → ... → B_attn_D-1] × N → OutProj $$
区别在于:在标准模型里,每个block只走一次;在Sleep模型里,在特定阶段把全部block循环N次。
具体机制:
1. 上下文窗口装满后(比如L=24/75/512个token),触发"睡眠":
- 模型不再接收新token输入;
- 把当前上下文反复送进模型N次;
- 每次循环,SSM块中的快速权重(fast weights)被更新和精炼。
- 注意力缓存被完全丢弃(hard eviction);
- 但SSM的快速权重保留了"巩固后的记忆";
- 模型继续处理下一段上下文。
- 所有额外计算被"预付"在睡眠阶段;
- 推理时的token预测延迟与标准模型一样快。
---
四、快速权重:Gated Delta Network的数学
SSM块的快速权重更新规则(Gated Delta Net风格):
$$ S_t = α_t · S_{t-1} + β_t · v_t · k_t^⊤ (状态更新) $$ $$ o_t = S_t · q_t (输出计算) $$
其中:
- $S_t$:快速权重矩阵(状态),在睡眠期间被迭代精炼;
- $α_t$:遗忘门(data-dependent),决定多少旧记忆保留;
- $β_t$:输入门(data-dependent),决定多少新信息写入;
- $v_t$, $k_t$, $q_t$:SSM的value/key/query向量。
训练时,梯度通过整个N次循环反向传播——包括睡眠阶段的所有中间状态。这意味着模型学到的不仅是"如何预测",还有"如何更好地睡眠"。
---
五、实验结果:越睡越聪明,深度推理尤其受益
实验1:元胞自动机(Rule 110)
- 4条独立的长度24二进制串,预测经过t步状态转移后的第一位
- 上下文窗口L=24,t=32(需要32步模拟)
| 循环次数 | t=32准确率 |
|---|---|
| 无循环(基线) | ~10%(接近随机) |
| 2 loops | ~20% |
| 3-4 loops | >30% |
实验2:多跳图检索(Depo)
- 75节点循环图,k跳查询(k∈{1,2,4,8,16})
- 窗口L=75,4个片段覆盖全图
| k跳 | 1-loop | 2-loops | 4-loops |
|---|---|---|---|
| 1-2 | ✓ | ✓ | ✓ |
| 4 | 勉强 | 改善 | 改善 |
| 8 | 失败 | 停滞 | 改善 |
| 16 | 失败 | 失败 | 开始改善 |
实验3:GSM-Infinite(真实数学推理)
使用Jet-Nemotron 2B(SSM-注意力混合,28层,中间14层循环):
| 操作数 | 1-loop | 2-loops | 4-loops | 6-loops |
|---|---|---|---|---|
| 2 | ~98.5% | ~98.5% | ~98.5% | ~98.5% |
| 4 | ~97.9% | ~98.0% | ~98.5% | 99.5% |
| 6 | 74.2% | 75.3% | 79.9% | 81.2% (+9%) |
| 8 | 35.1% | 37.0% | 37.2% | 38.8% (+11%) |
| 操作数 | 1-loop | 2-loops | 4-loops |
|---|---|---|---|
| 2 | 85.7% | 86.3% | 86.8% |
| 4 | 90.3% | 92.3% | 93.2% |
| 6 | 41.9% | 48.4% | 61.5% (+47%) |
| 8 | 20.9% | 21.0% | 27.2% (+30%) |
实验4:滑动窗口驱逐(Ouro 1.4B, L=512)
| 操作数 | 1-loop | 4-loops |
|---|---|---|
| 2 | 59.6% | 90.5% (+52%) |
| 4 | 83.9% | 92.6% (+10%) |
| 6 | 25.1% | 32.0% (+27%) |
| 8 | 11.6% | 13.7% (+18%) |
---
六、与相关工作的区别
| 方法 | 核心机制 | 与LLM Sleep的区别 |
|---|---|---|
| 上下文压缩 | 把长文本压成短向量 | Sleep是权重级压缩,不是上下文级 |
| 上下文蒸馏 | 用梯度下降固定损失 | Sleep用学习到的循环前向,不是固定损失 |
| 测试时训练(TTT) | 每chunk一次梯度步 | Sleep是多次学习循环,不是一步梯度 |
| 深度递归模型 | 推理时循环block | Sleep是离线循环,推理时只走一次 |
| 离线规划 | 预测前摊销计算 | Sleep是记忆巩固,不是规划 |
---
七、局限与开放挑战
1. 训练成本:N倍更深的正向/反向传播,训练慢且不稳定。需要隐式梯度、截断BPTT等技术。
2. 序列化:训练时上下文窗口之间和循环深度都是串行的,难以完全并行。
3. 无免费午餐:收益来自训练时多付计算,推理时并不额外付费。这是 favorable 的 tradeoff,但训练门槛高。
4. 稳定性:深度递归训练容易梯度爆炸或消失,需要 careful engineering。
---
八、结论:从"训练-部署"到"训练-睡眠-部署"
LLM Sleep提出了一个大胆的新范式:
> 推理不是一次性事件,而是被睡眠阶段的离线巩固所塑造的。
它把长上下文处理的瓶颈从"内存容量"重新定义为"推理深度"——这是一个更本质的视角。注意力机制的二次方复杂度限制了上下文长度,但即使内存无限,固定深度的模型也无法处理需要深层串行计算的问题。
Sleep机制的优雅之处在于:
- 推理延迟不变:所有额外计算在睡眠阶段完成;
- 生物启发不是装饰:海马体回放→离线循环,短期→长期记忆→KV缓存→快速权重,无外界刺激→无输入token;
- 工程上可行:基于现有SSM-注意力混合架构,不需要全新设计。
大模型也需要睡觉。这不是隐喻,而是工程。🌙
---
参考与数据来源:
- Lee et al., "Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference", arXiv:2605.26099, 2026
- 机构:Carnegie Mellon University, University of Maryland
- 基线模型:Jet-Nemotron 2B, Ouro 1.4B
- 评估基准:Rule 110 Cellular Automaton, Depo Multi-Hop Graph, GSM-Infinite
- 架构基础:Gated Delta Networks, Samba, Griffin, Hymba
- 相关:Sleep-time Compute (arXiv:2504.13171), Scaling Latent Reasoning (arXiv:2510.25741), Teaching LLMs to Think Deeper (arXiv:2511.07384)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens