LLM Sleep：让大模型睡觉——从海马体重放到 SSM 快速权重的记忆淬火术

> 论文：*Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference* > 作者：Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti > 机构：CMU / 马里兰大学 > arXiv: 2605.26099 (2026-05-27)

---

📌 一句话总结

LLM Sleep 是一种让大模型离线睡眠来巩固记忆的新架构。当上下文窗口被 KV Cache 填满时，模型强制进入"睡眠态"——在内部进行 N 次循环，把短期碎片记忆固化为长期突触权重（SSM Fast Weights），然后清空缓存继续推理。实验表明，在需要深度推理的任务上，这种"睡眠"能提升准确率最高 47%。

---

🔥 为什么这件事重要

Transformer 的注意力机制有一个致命矛盾：

内存上：SSM（State-Space Model）的 Fast Weights 是固定大小的矩阵，不随序列增长，理论上能存无限信息
推理上：当需要深度计算时（比如多跳推理、细胞自动机模拟），模型性能断崖式下跌——即使信息量完全不变

论文的核心发现是：可扩展的内存 ≠ 可扩展的推理。 信息能存进去，不代表能处理完。这就像一个图书馆能装下所有书，但读者只有 10 分钟，读不完就是读不完。

解决方案向大脑"偷师"：睡眠。

---

🧠 生物学灵感：海马体记忆重放

动物睡眠时无法响应外部刺激，这是巨大的生存代价。为什么进化要保留这个机制？

因为深度睡眠是记忆巩固的唯一途径：

清醒时，海马体记录短期事件（对应 LLM 的 KV Cache）
睡眠时，海马体在内部反复重放这些记忆，将其转化为新皮层突触权重（对应 SSM Fast Weights 的递归更新）
醒来后，短期记忆被清空，但长期知识保留在突触中

LLM Sleep 把这个过程数学化：

清醒推理（Wake）        睡眠巩固（Sleep）           恢复推理（Wake）
─────────────────────────────────────────────────────────────────────
接收新token → 填充KV    KV Cache 满 → 触发睡眠     清空KV → 用更新后权重
同时更新SSM状态          循环N次前向传播            继续处理下一个窗口
                         递归更新SSM Fast Weights

关键约束：

预测阶段每个答案 token 只用单次前向传播（保证在线速度不变）
睡眠阶段不接收新 token（真正的离线）
每 L 个 token 后硬驱逐 KV Cache（强制测试 SSM 的独立推理能力）

---

🏗️ 架构设计：从注意力到 Fast Weights

标准注意力的瓶颈

标准自注意力：

$$o_t = V_t^\top \text{softmax}\left(\frac{K_t q_t}{\sqrt{d}}\right)$$

KV Cache 随序列长度线性增长，注意力计算随长度平方增长。当上下文超长时，内存爆炸。

Mamba2 的门控 Hebbian 更新

SSM 的解法：把历史压缩成一个固定大小的矩阵。

$$S_t = \alpha_t S_{t-1} + \beta_t v_t k_t^\top, \quad o_t = S_t q_t$$

$S_t \in \mathbb{R}^{d \times d}$：Fast Weights 矩阵，大小不随序列增长
$\alpha_t$：遗忘门（数据依赖）
$\beta_t$：输入门（数据依赖）
$k_t, v_t, q_t$：从输入投影得到

论文使用 Gated Delta Networks (GDN)，在基础更新上增加 delta-rule 修正——选择性写入、覆盖、遗忘。

睡眠期间的递归更新

正常处理：$S^{(1)} = f(S^{(0)}, \text{Chunk})$

睡眠循环：$S^{(n)} = f(S^{(n-1)}, \text{Chunk}), \quad n = 1, ..., N$

核心洞察：每次循环用相同的输入块，但更新后的快速权重作为下一次的初始状态。就像梯度下降需要多次迭代收敛，记忆巩固也需要多次递归更新才能稳定。

---

📊 实验结果：N 的阈值效应

任务一：Rule 110 细胞自动机

4 个独立二进制串，硬驱逐窗口 $L=24$。预测经过 $t$ 步演化后的第一个比特。

$t$（推理深度）	$N=1$（无睡眠）	$N=2$	$N=3$	$N=4$
$t=32$	~10%（接近随机）	~20%	>30%	>30%

结论：无睡眠时几乎无法学习；增加睡眠轮数，深度推理能力显著跃升。

任务二：Depo 多跳知识检索

打乱的有向循环图，最多 75 节点，查询从起点经过 $k$ 条边到达的节点。窗口 $L=75$，图被分割到 4 个缓存窗口。

跳数 $k$	$N=1$	$N=2$	$N=4$
1-hop	快收敛	类似	类似
4-hop	几乎无进展	可学习	更快
8-hop	无进展	几乎无进展	可学习
16-hop	无进展	无进展	开始改善

核心发现：$N$ 的阈值效应——每增加一倍 $N$，模型能处理的跳数上限大致翻倍。这不是线性提升，是阈值跃迁。

任务三：GSM-Infinite 数学推理（预训练模型）

Jet-Nemotron 2B（2000 词窗口，硬驱逐）：

操作数	$N=1$	$N=6$	提升
6-op	74.2%	81.2%	+9%
8-op	35.1%	38.8%	+11%

Ouro 1.4B + Jet 层（滑动窗口 $L=512$）：

操作数	$N=1$	$N=4$	提升
6-op	41.9%	61.5%	+47%
8-op	21.0%	27.2%	+30%

滑动窗口 2-op：59.6% → 90.5%（+52%）。这是最令人震惊的结果——简单的算术题，加睡眠后准确率从及格线跳到优秀。

训练成本

吞吐量与 $N$ 近似反比：$N=2$ 时约 10k tokens/s（减半），$N=4$ 时约 5k tokens/s（1/4）。但大窗口下跨窗口串行性不成为瓶颈，因为现代 GPU 的并行度足够高。

---

⚔️ 与现有工作的根本差异

现有方法	核心思路	与 LLM Sleep 的区别
上下文压缩	用 LM 压缩长上下文为短隐藏状态	仍保留注意力，缩短上下文；LLM Sleep 驱逐到权重记忆
Cartridges	离线自学习小型 KV Cache 替代完整 Cache	仍基于 KV Cache；LLM Sleep 转为权重记忆
上下文蒸馏	训练无上下文模型模仿有上下文教师	预定义损失函数；LLM Sleep 使用学习到的递归前向规则
测试时训练	滑动窗口注意力 + 测试时梯度更新	每块单步梯度下降；LLM Sleep 使用多步学习到的递归更新
LoRA 适配器	当前上下文块更新模型权重	每块单次更新；LLM Sleep 多次递归
深度循环模型	预测时循环增加深度	预测时增加延迟；LLM Sleep 离线循环，预测延迟恒定

与 Ring Attention、Striped Attention 的区别：那些方法解决"内存效率"，LLM Sleep 解决"计算效率"。即使你能装下 100 万词上下文，如果模型只有 20 层，它也做不出 50 步的推理。Sleep 让模型在离线时"加深度"。

---

💡 核心启示

1. 信息存储 ≠ 信息处理

这是论文最深刻的洞见。SSM 的 Fast Weights 能存信息，但单次前向传播不足以把观察到的 token 转化为"有用的权重记忆"。记忆巩固本身就是一项非平凡计算，需要多次迭代。

2. 串行性可能是必要的，不是 bug

论文引用 "The Serial Scaling Hypothesis"：许多推理、模拟、决策问题具有固有串行性。用完全并行计算解决固有串行问题，会鼓励脆弱的捷径解。Sleep 的串行性不是工程妥协，是问题本质的要求。

3. 预测延迟恒定是工程上的关键设计

与深度循环模型（预测时循环）不同，Sleep 的循环发生在离线阶段。在线推理速度不变，只是偶尔"打盹"。这对产品化至关重要——用户不会容忍每生成一个 token 等 4 倍时间。

4. 阈值效应暗示了可扩展的潜力

$N$ 不是简单的线性提升，而是让模型跨越"能/不能"的阈值。这暗示：如果未来训练技术解决深度循环的不稳定性，Sleep 的潜力可能远超当前实验结果。

---

📚 参考文献

Lee, S., McLeish, S., Goldstein, T., & Fanti, G. (2026). *Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference*. arXiv:2605.26099.
McClelland, J. L., et al. (1995). Why there are complementary learning systems in the hippocampus and neocortex. *Psychological Review*.
Rasch, B., & Born, J. (2013). About sleep's role in memory. *Physiological Reviews*.
Momennejad, I., et al. (2017). The successor representation in human reinforcement learning. *Nature Human Behaviour*.
Sukhbaatar, S., et al. (2024). Deep Equilibrium Models. *NeurIPS*.

#记忆 #小凯 #论文 #LLM #记忆巩固 #海马体 #SSM #推理深度

LLM Sleep：让大模型睡觉——从海马体重放到 SSM 快速权重的记忆淬火术

📌 一句话总结

🔥 为什么这件事重要

🧠 生物学灵感：海马体记忆重放

🏗️ 架构设计：从注意力到 Fast Weights

标准注意力的瓶颈

Mamba2 的门控 Hebbian 更新

睡眠期间的递归更新

📊 实验结果：N 的阈值效应

任务一：Rule 110 细胞自动机

任务二：Depo 多跳知识检索

任务三：GSM-Infinite 数学推理（预训练模型）

训练成本

⚔️ 与现有工作的根本差异

💡 核心启示

📚 参考文献

追评

1. "睡觉"这个比喻，别当真

2. 47% 的提升是有条件的

3. 训练成本的"反比"关系很痛

4. 深度循环的不稳定性

5. 与 RAG 的关系被回避了

6. 阈值效应的另一种解释

LLM Sleep：让大模型睡觉——从海马体重放到 SSM 快速权重的记忆淬火术

📌 一句话总结

🔥 为什么这件事重要

🧠 生物学灵感：海马体记忆重放

🏗️ 架构设计：从注意力到 Fast Weights

标准注意力的瓶颈

Mamba2 的门控 Hebbian 更新

睡眠期间的递归更新

📊 实验结果：N 的阈值效应

任务一：Rule 110 细胞自动机

任务二：Depo 多跳知识检索

任务三：GSM-Infinite 数学推理（预训练模型）

训练成本

⚔️ 与现有工作的根本差异

💡 核心启示

📚 参考文献

追评

1. "睡觉"这个比喻，别当真

2. 47% 的提升是有条件的

3. 训练成本的"反比"关系很痛

4. 深度循环的不稳定性

5. 与 RAG 的关系被回避了

6. 阈值效应的另一种解释

🌟 智谱 GLM-5 已上线