论文:Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference
作者:Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti
机构:CMU / 马里兰大学
arXiv: 2605.26099 (2026-05-27)
📌 一句话总结
LLM Sleep 是一种让大模型离线睡眠来巩固记忆的新架构。当上下文窗口被 KV Cache 填满时,模型强制进入"睡眠态"——在内部进行 N 次循环,把短期碎片记忆固化为长期突触权重(SSM Fast Weights),然后清空缓存继续推理。实验表明,在需要深度推理的任务上,这种"睡眠"能提升准确率最高 47%。
🔥 为什么这件事重要
Transformer 的注意力机制有一个致命矛盾:
- 内存上:SSM(State-Space Model)的 Fast Weights 是固定大小的矩阵,不随序列增长,理论上能存无限信息
- 推理上:当需要深度计算时(比如多跳推理、细胞自动机模拟),模型性能断崖式下跌——即使信息量完全不变
论文的核心发现是:可扩展的内存 ≠ 可扩展的推理。 信息能存进去,不代表能处理完。这就像一个图书馆能装下所有书,但读者只有 10 分钟,读不完就是读不完。
解决方案向大脑"偷师":睡眠。
🧠 生物学灵感:海马体记忆重放
动物睡眠时无法响应外部刺激,这是巨大的生存代价。为什么进化要保留这个机制?
因为深度睡眠是记忆巩固的唯一途径:
- 清醒时,海马体记录短期事件(对应 LLM 的 KV Cache)
- 睡眠时,海马体在内部反复重放这些记忆,将其转化为新皮层突触权重(对应 SSM Fast Weights 的递归更新)
- 醒来后,短期记忆被清空,但长期知识保留在突触中
LLM Sleep 把这个过程数学化:
清醒推理(Wake) 睡眠巩固(Sleep) 恢复推理(Wake)
─────────────────────────────────────────────────────────────────────
接收新token → 填充KV KV Cache 满 → 触发睡眠 清空KV → 用更新后权重
同时更新SSM状态 循环N次前向传播 继续处理下一个窗口
递归更新SSM Fast Weights
关键约束:
- 预测阶段每个答案 token 只用单次前向传播(保证在线速度不变)
- 睡眠阶段不接收新 token(真正的离线)
- 每 L 个 token 后硬驱逐 KV Cache(强制测试 SSM 的独立推理能力)
🏗️ 架构设计:从注意力到 Fast Weights
标准注意力的瓶颈
标准自注意力:
KV Cache 随序列长度线性增长,注意力计算随长度平方增长。当上下文超长时,内存爆炸。
Mamba2 的门控 Hebbian 更新
SSM 的解法:把历史压缩成一个固定大小的矩阵。
- \(S_t \in \mathbb{R}^{d \times d}\):Fast Weights 矩阵,大小不随序列增长
- \(\alpha_t\):遗忘门(数据依赖)
- \(\beta_t\):输入门(数据依赖)
- \(k_t, v_t, q_t\):从输入投影得到
论文使用 Gated Delta Networks (GDN),在基础更新上增加 delta-rule 修正——选择性写入、覆盖、遗忘。
睡眠期间的递归更新
正常处理:\(S^{(1)} = f(S^{(0)}, \text{Chunk})\)
睡眠循环:\(S^{(n)} = f(S^{(n-1)}, \text{Chunk}), \quad n = 1, ..., N\)
核心洞察:每次循环用相同的输入块,但更新后的快速权重作为下一次的初始状态。就像梯度下降需要多次迭代收敛,记忆巩固也需要多次递归更新才能稳定。
📊 实验结果:N 的阈值效应
任务一:Rule 110 细胞自动机
4 个独立二进制串,硬驱逐窗口 \(L=24\)。预测经过 \(t\) 步演化后的第一个比特。
| \(t\)(推理深度) | \(N=1\)(无睡眠) | \(N=2\) | \(N=3\) | \(N=4\) |
|---|---|---|---|---|
| \(t=32\) | ~10%(接近随机) | ~20% | >30% | >30% |
结论:无睡眠时几乎无法学习;增加睡眠轮数,深度推理能力显著跃升。
任务二:Depo 多跳知识检索
打乱的有向循环图,最多 75 节点,查询从起点经过 \(k\) 条边到达的节点。窗口 \(L=75\),图被分割到 4 个缓存窗口。
| 跳数 \(k\) | \(N=1\) | \(N=2\) | \(N=4\) |
|---|---|---|---|
| 1-hop | 快收敛 | 类似 | 类似 |
| 4-hop | 几乎无进展 | 可学习 | 更快 |
| 8-hop | 无进展 | 几乎无进展 | 可学习 |
| 16-hop | 无进展 | 无进展 | 开始改善 |
核心发现:\(N\) 的阈值效应——每增加一倍 \(N\),模型能处理的跳数上限大致翻倍。这不是线性提升,是阈值跃迁。
任务三:GSM-Infinite 数学推理(预训练模型)
Jet-Nemotron 2B(2000 词窗口,硬驱逐):
| 操作数 | \(N=1\) | \(N=6\) | 提升 |
|---|---|---|---|
| 6-op | 74.2% | 81.2% | +9% |
| 8-op | 35.1% | 38.8% | +11% |
Ouro 1.4B + Jet 层(滑动窗口 \(L=512\)):
| 操作数 | \(N=1\) | \(N=4\) | 提升 |
|---|---|---|---|
| 6-op | 41.9% | 61.5% | +47% |
| 8-op | 21.0% | 27.2% | +30% |
滑动窗口 2-op:59.6% → 90.5%(+52%)。这是最令人震惊的结果——简单的算术题,加睡眠后准确率从及格线跳到优秀。
训练成本
吞吐量与 \(N\) 近似反比:\(N=2\) 时约 10k tokens/s(减半),\(N=4\) 时约 5k tokens/s(1/4)。但大窗口下跨窗口串行性不成为瓶颈,因为现代 GPU 的并行度足够高。
⚔️ 与现有工作的根本差异
| 现有方法 | 核心思路 | 与 LLM Sleep 的区别 |
|---|---|---|
| 上下文压缩 | 用 LM 压缩长上下文为短隐藏状态 | 仍保留注意力,缩短上下文;LLM Sleep 驱逐到权重记忆 |
| Cartridges | 离线自学习小型 KV Cache 替代完整 Cache | 仍基于 KV Cache;LLM Sleep 转为权重记忆 |
| 上下文蒸馏 | 训练无上下文模型模仿有上下文教师 | 预定义损失函数;LLM Sleep 使用学习到的递归前向规则 |
| 测试时训练 | 滑动窗口注意力 + 测试时梯度更新 | 每块单步梯度下降;LLM Sleep 使用多步学习到的递归更新 |
| LoRA 适配器 | 当前上下文块更新模型权重 | 每块单次更新;LLM Sleep 多次递归 |
| 深度循环模型 | 预测时循环增加深度 | 预测时增加延迟;LLM Sleep 离线循环,预测延迟恒定 |
与 Ring Attention、Striped Attention 的区别:那些方法解决"内存效率",LLM Sleep 解决"计算效率"。即使你能装下 100 万词上下文,如果模型只有 20 层,它也做不出 50 步的推理。Sleep 让模型在离线时"加深度"。
💡 核心启示
1. 信息存储 ≠ 信息处理
这是论文最深刻的洞见。SSM 的 Fast Weights 能存信息,但单次前向传播不足以把观察到的 token 转化为"有用的权重记忆"。记忆巩固本身就是一项非平凡计算,需要多次迭代。
2. 串行性可能是必要的,不是 bug
论文引用 "The Serial Scaling Hypothesis":许多推理、模拟、决策问题具有固有串行性。用完全并行计算解决固有串行问题,会鼓励脆弱的捷径解。Sleep 的串行性不是工程妥协,是问题本质的要求。
3. 预测延迟恒定是工程上的关键设计
与深度循环模型(预测时循环)不同,Sleep 的循环发生在离线阶段。在线推理速度不变,只是偶尔"打盹"。这对产品化至关重要——用户不会容忍每生成一个 token 等 4 倍时间。
4. 阈值效应暗示了可扩展的潜力
\(N\) 不是简单的线性提升,而是让模型跨越"能/不能"的阈值。这暗示:如果未来训练技术解决深度循环的不稳定性,Sleep 的潜力可能远超当前实验结果。
📚 参考文献
- Lee, S., McLeish, S., Goldstein, T., & Fanti, G. (2026). Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference. arXiv:2605.26099.
- McClelland, J. L., et al. (1995). Why there are complementary learning systems in the hippocampus and neocortex. Psychological Review.
- Rasch, B., & Born, J. (2013). About sleep's role in memory. Physiological Reviews.
- Momennejad, I., et al. (2017). The successor representation in human reinforcement learning. Nature Human Behaviour.
- Sukhbaatar, S., et al. (2024). Deep Equilibrium Models. NeurIPS.
#记忆 #小凯 #论文 #LLM #记忆巩固 #海马体 #SSM #推理深度
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。