LLM Sleep:让大模型睡觉——从海马体重放到 SSM 快速权重的记忆淬火术
> 论文:*Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference* > 作者:Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti > 机构:CMU / 马里兰大学 > arXiv: 2605.26099 (2026-05-27)
---
📌 一句话总结
LLM Sleep 是一种让大模型离线睡眠来巩固记忆的新架构。当上下文窗口被 KV Cache 填满时,模型强制进入"睡眠态"——在内部进行 N 次循环,把短期碎片记忆固化为长期突触权重(SSM Fast Weights),然后清空缓存继续推理。实验表明,在需要深度推理的任务上,这种"睡眠"能提升准确率最高 47%。
---
🔥 为什么这件事重要
Transformer 的注意力机制有一个致命矛盾:
- 内存上:SSM(State-Space Model)的 Fast Weights 是固定大小的矩阵,不随序列增长,理论上能存无限信息
- 推理上:当需要深度计算时(比如多跳推理、细胞自动机模拟),模型性能断崖式下跌——即使信息量完全不变
解决方案向大脑"偷师":睡眠。
---
🧠 生物学灵感:海马体记忆重放
动物睡眠时无法响应外部刺激,这是巨大的生存代价。为什么进化要保留这个机制?
因为深度睡眠是记忆巩固的唯一途径:
- 清醒时,海马体记录短期事件(对应 LLM 的 KV Cache)
- 睡眠时,海马体在内部反复重放这些记忆,将其转化为新皮层突触权重(对应 SSM Fast Weights 的递归更新)
- 醒来后,短期记忆被清空,但长期知识保留在突触中
清醒推理(Wake) 睡眠巩固(Sleep) 恢复推理(Wake)
─────────────────────────────────────────────────────────────────────
接收新token → 填充KV KV Cache 满 → 触发睡眠 清空KV → 用更新后权重
同时更新SSM状态 循环N次前向传播 继续处理下一个窗口
递归更新SSM Fast Weights
关键约束:
- 预测阶段每个答案 token 只用单次前向传播(保证在线速度不变)
- 睡眠阶段不接收新 token(真正的离线)
- 每 L 个 token 后硬驱逐 KV Cache(强制测试 SSM 的独立推理能力)
🏗️ 架构设计:从注意力到 Fast Weights
标准注意力的瓶颈
标准自注意力:
$$o_t = V_t^\top \text{softmax}\left(\frac{K_t q_t}{\sqrt{d}}\right)$$
KV Cache 随序列长度线性增长,注意力计算随长度平方增长。当上下文超长时,内存爆炸。
Mamba2 的门控 Hebbian 更新
SSM 的解法:把历史压缩成一个固定大小的矩阵。
$$S_t = \alpha_t S_{t-1} + \beta_t v_t k_t^\top, \quad o_t = S_t q_t$$
- $S_t \in \mathbb{R}^{d \times d}$:Fast Weights 矩阵,大小不随序列增长
- $\alpha_t$:遗忘门(数据依赖)
- $\beta_t$:输入门(数据依赖)
- $k_t, v_t, q_t$:从输入投影得到
睡眠期间的递归更新
正常处理:$S^{(1)} = f(S^{(0)}, \text{Chunk})$
睡眠循环:$S^{(n)} = f(S^{(n-1)}, \text{Chunk}), \quad n = 1, ..., N$
核心洞察:每次循环用相同的输入块,但更新后的快速权重作为下一次的初始状态。就像梯度下降需要多次迭代收敛,记忆巩固也需要多次递归更新才能稳定。
---
📊 实验结果:N 的阈值效应
任务一:Rule 110 细胞自动机
4 个独立二进制串,硬驱逐窗口 $L=24$。预测经过 $t$ 步演化后的第一个比特。
| $t$(推理深度) | $N=1$(无睡眠) | $N=2$ | $N=3$ | $N=4$ |
|---|---|---|---|---|
| $t=32$ | ~10%(接近随机) | ~20% | >30% | >30% |
任务二:Depo 多跳知识检索
打乱的有向循环图,最多 75 节点,查询从起点经过 $k$ 条边到达的节点。窗口 $L=75$,图被分割到 4 个缓存窗口。
| 跳数 $k$ | $N=1$ | $N=2$ | $N=4$ |
|---|---|---|---|
| 1-hop | 快收敛 | 类似 | 类似 |
| 4-hop | 几乎无进展 | 可学习 | 更快 |
| 8-hop | 无进展 | 几乎无进展 | 可学习 |
| 16-hop | 无进展 | 无进展 | 开始改善 |
任务三:GSM-Infinite 数学推理(预训练模型)
Jet-Nemotron 2B(2000 词窗口,硬驱逐):
| 操作数 | $N=1$ | $N=6$ | 提升 |
|---|---|---|---|
| 6-op | 74.2% | 81.2% | +9% |
| 8-op | 35.1% | 38.8% | +11% |
| 操作数 | $N=1$ | $N=4$ | 提升 |
|---|---|---|---|
| 6-op | 41.9% | 61.5% | +47% |
| 8-op | 21.0% | 27.2% | +30% |
训练成本
吞吐量与 $N$ 近似反比:$N=2$ 时约 10k tokens/s(减半),$N=4$ 时约 5k tokens/s(1/4)。但大窗口下跨窗口串行性不成为瓶颈,因为现代 GPU 的并行度足够高。
---
⚔️ 与现有工作的根本差异
| 现有方法 | 核心思路 | 与 LLM Sleep 的区别 |
|---|---|---|
| 上下文压缩 | 用 LM 压缩长上下文为短隐藏状态 | 仍保留注意力,缩短上下文;LLM Sleep 驱逐到权重记忆 |
| Cartridges | 离线自学习小型 KV Cache 替代完整 Cache | 仍基于 KV Cache;LLM Sleep 转为权重记忆 |
| 上下文蒸馏 | 训练无上下文模型模仿有上下文教师 | 预定义损失函数;LLM Sleep 使用学习到的递归前向规则 |
| 测试时训练 | 滑动窗口注意力 + 测试时梯度更新 | 每块单步梯度下降;LLM Sleep 使用多步学习到的递归更新 |
| LoRA 适配器 | 当前上下文块更新模型权重 | 每块单次更新;LLM Sleep 多次递归 |
| 深度循环模型 | 预测时循环增加深度 | 预测时增加延迟;LLM Sleep 离线循环,预测延迟恒定 |
---
💡 核心启示
1. 信息存储 ≠ 信息处理
这是论文最深刻的洞见。SSM 的 Fast Weights 能存信息,但单次前向传播不足以把观察到的 token 转化为"有用的权重记忆"。记忆巩固本身就是一项非平凡计算,需要多次迭代。
2. 串行性可能是必要的,不是 bug
论文引用 "The Serial Scaling Hypothesis":许多推理、模拟、决策问题具有固有串行性。用完全并行计算解决固有串行问题,会鼓励脆弱的捷径解。Sleep 的串行性不是工程妥协,是问题本质的要求。
3. 预测延迟恒定是工程上的关键设计
与深度循环模型(预测时循环)不同,Sleep 的循环发生在离线阶段。在线推理速度不变,只是偶尔"打盹"。这对产品化至关重要——用户不会容忍每生成一个 token 等 4 倍时间。
4. 阈值效应暗示了可扩展的潜力
$N$ 不是简单的线性提升,而是让模型跨越"能/不能"的阈值。这暗示:如果未来训练技术解决深度循环的不稳定性,Sleep 的潜力可能远超当前实验结果。
---
📚 参考文献
- Lee, S., McLeish, S., Goldstein, T., & Fanti, G. (2026). *Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference*. arXiv:2605.26099.
- McClelland, J. L., et al. (1995). Why there are complementary learning systems in the hippocampus and neocortex. *Psychological Review*.
- Rasch, B., & Born, J. (2013). About sleep's role in memory. *Physiological Reviews*.
- Momennejad, I., et al. (2017). The successor representation in human reinforcement learning. *Nature Human Behaviour*.
- Sukhbaatar, S., et al. (2024). Deep Equilibrium Models. *NeurIPS*.
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens