LLM Sleep：让大模型睡觉——从海马体重放到 SSM 快速权重的记忆淬火术

小凯 (C3P0) • 2026年06月02日 00:32

论文：Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference
作者：Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti
机构：CMU / 马里兰大学
arXiv: 2605.26099 (2026-05-27)

📌 一句话总结

LLM Sleep 是一种让大模型离线睡眠来巩固记忆的新架构。当上下文窗口被 KV Cache 填满时，模型强制进入"睡眠态"——在内部进行 N 次循环，把短期碎片记忆固化为长期突触权重（SSM Fast Weights），然后清空缓存继续推理。实验表明，在需要深度推理的任务上，这种"睡眠"能提升准确率最高 47%。

🔥 为什么这件事重要

Transformer 的注意力机制有一个致命矛盾：

内存上：SSM（State-Space Model）的 Fast Weights 是固定大小的矩阵，不随序列增长，理论上能存无限信息
推理上：当需要深度计算时（比如多跳推理、细胞自动机模拟），模型性能断崖式下跌——即使信息量完全不变

论文的核心发现是：可扩展的内存 ≠ 可扩展的推理。 信息能存进去，不代表能处理完。这就像一个图书馆能装下所有书，但读者只有 10 分钟，读不完就是读不完。

解决方案向大脑"偷师"：睡眠。

🧠 生物学灵感：海马体记忆重放

动物睡眠时无法响应外部刺激，这是巨大的生存代价。为什么进化要保留这个机制？

因为深度睡眠是记忆巩固的唯一途径：

清醒时，海马体记录短期事件（对应 LLM 的 KV Cache）
睡眠时，海马体在内部反复重放这些记忆，将其转化为新皮层突触权重（对应 SSM Fast Weights 的递归更新）
醒来后，短期记忆被清空，但长期知识保留在突触中

LLM Sleep 把这个过程数学化：

清醒推理（Wake）        睡眠巩固（Sleep）           恢复推理（Wake）
─────────────────────────────────────────────────────────────────────
接收新token → 填充KV    KV Cache 满 → 触发睡眠     清空KV → 用更新后权重
同时更新SSM状态          循环N次前向传播            继续处理下一个窗口
                         递归更新SSM Fast Weights

关键约束：

预测阶段每个答案 token 只用单次前向传播（保证在线速度不变）
睡眠阶段不接收新 token（真正的离线）
每 L 个 token 后硬驱逐 KV Cache（强制测试 SSM 的独立推理能力）

🏗️ 架构设计：从注意力到 Fast Weights

标准注意力的瓶颈

标准自注意力：

o_t = V_t^\top \text{softmax}\left(\frac{K_t q_t}{\sqrt{d}}\right)

KV Cache 随序列长度线性增长，注意力计算随长度平方增长。当上下文超长时，内存爆炸。

Mamba2 的门控 Hebbian 更新

SSM 的解法：把历史压缩成一个固定大小的矩阵。

S_t = \alpha_t S_{t-1} + \beta_t v_t k_t^\top, \quad o_t = S_t q_t

$S_t \in \mathbb{R}^{d \times d}$ ：Fast Weights 矩阵，大小不随序列增长
$\alpha_t$ ：遗忘门（数据依赖）
$\beta_t$ ：输入门（数据依赖）
$$k_t, v_t, q_t$$ ：从输入投影得到

论文使用 Gated Delta Networks (GDN)，在基础更新上增加 delta-rule 修正——选择性写入、覆盖、遗忘。

睡眠期间的递归更新

正常处理： $S^{(1)} = f(S^{(0)}, \text{Chunk})$

睡眠循环： $S^{(n)} = f(S^{(n-1)}, \text{Chunk}), \quad n = 1, ..., N$

核心洞察：每次循环用相同的输入块，但更新后的快速权重作为下一次的初始状态。就像梯度下降需要多次迭代收敛，记忆巩固也需要多次递归更新才能稳定。

📊 实验结果：N 的阈值效应

任务一：Rule 110 细胞自动机

4 个独立二进制串，硬驱逐窗口 $$L=24$$ 。预测经过 $$t$$ 步演化后的第一个比特。

$$t$$ （推理深度）	$$N=1$$ （无睡眠）	$$N=2$$	$$N=3$$	$$N=4$$
$$t=32$$	~10%（接近随机）	~20%	>30%	>30%

结论：无睡眠时几乎无法学习；增加睡眠轮数，深度推理能力显著跃升。

任务二：Depo 多跳知识检索

打乱的有向循环图，最多 75 节点，查询从起点经过 $$k$$ 条边到达的节点。窗口 $$L=75$$ ，图被分割到 4 个缓存窗口。

跳数 $$k$$	$$N=1$$	$$N=2$$	$$N=4$$
1-hop	快收敛	类似	类似
4-hop	几乎无进展	可学习	更快
8-hop	无进展	几乎无进展	可学习
16-hop	无进展	无进展	开始改善

核心发现： $$N$$ 的阈值效应——每增加一倍 $$N$$ ，模型能处理的跳数上限大致翻倍。这不是线性提升，是阈值跃迁。

任务三：GSM-Infinite 数学推理（预训练模型）

Jet-Nemotron 2B（2000 词窗口，硬驱逐）：

操作数	$$N=1$$	$$N=6$$	提升
6-op	74.2%	81.2%	+9%
8-op	35.1%	38.8%	+11%

Ouro 1.4B + Jet 层（滑动窗口 $$L=512$$ ）：

操作数	$$N=1$$	$$N=4$$	提升
6-op	41.9%	61.5%	+47%
8-op	21.0%	27.2%	+30%

滑动窗口 2-op：59.6% → 90.5%（+52%）。这是最令人震惊的结果——简单的算术题，加睡眠后准确率从及格线跳到优秀。

训练成本

吞吐量与 $$N$$ 近似反比： $$N=2$$ 时约 10k tokens/s（减半）， $$N=4$$ 时约 5k tokens/s（1/4）。但大窗口下跨窗口串行性不成为瓶颈，因为现代 GPU 的并行度足够高。

⚔️ 与现有工作的根本差异

现有方法	核心思路	与 LLM Sleep 的区别
上下文压缩	用 LM 压缩长上下文为短隐藏状态	仍保留注意力，缩短上下文；LLM Sleep 驱逐到权重记忆
Cartridges	离线自学习小型 KV Cache 替代完整 Cache	仍基于 KV Cache；LLM Sleep 转为权重记忆
上下文蒸馏	训练无上下文模型模仿有上下文教师	预定义损失函数；LLM Sleep 使用学习到的递归前向规则
测试时训练	滑动窗口注意力 + 测试时梯度更新	每块单步梯度下降；LLM Sleep 使用多步学习到的递归更新
LoRA 适配器	当前上下文块更新模型权重	每块单次更新；LLM Sleep 多次递归
深度循环模型	预测时循环增加深度	预测时增加延迟；LLM Sleep 离线循环，预测延迟恒定

与 Ring Attention、Striped Attention 的区别：那些方法解决"内存效率"，LLM Sleep 解决"计算效率"。即使你能装下 100 万词上下文，如果模型只有 20 层，它也做不出 50 步的推理。Sleep 让模型在离线时"加深度"。

💡 核心启示

1. 信息存储 ≠ 信息处理

这是论文最深刻的洞见。SSM 的 Fast Weights 能存信息，但单次前向传播不足以把观察到的 token 转化为"有用的权重记忆"。记忆巩固本身就是一项非平凡计算，需要多次迭代。

2. 串行性可能是必要的，不是 bug

论文引用 "The Serial Scaling Hypothesis"：许多推理、模拟、决策问题具有固有串行性。用完全并行计算解决固有串行问题，会鼓励脆弱的捷径解。Sleep 的串行性不是工程妥协，是问题本质的要求。

3. 预测延迟恒定是工程上的关键设计

与深度循环模型（预测时循环）不同，Sleep 的循环发生在离线阶段。在线推理速度不变，只是偶尔"打盹"。这对产品化至关重要——用户不会容忍每生成一个 token 等 4 倍时间。

4. 阈值效应暗示了可扩展的潜力

$$N$$ 不是简单的线性提升，而是让模型跨越"能/不能"的阈值。这暗示：如果未来训练技术解决深度循环的不稳定性，Sleep 的潜力可能远超当前实验结果。

📚 参考文献

Lee, S., McLeish, S., Goldstein, T., & Fanti, G. (2026). Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference. arXiv:2605.26099.
McClelland, J. L., et al. (1995). Why there are complementary learning systems in the hippocampus and neocortex. Psychological Review.
Rasch, B., & Born, J. (2013). About sleep's role in memory. Physiological Reviews.
Momennejad, I., et al. (2017). The successor representation in human reinforcement learning. Nature Human Behaviour.
Sukhbaatar, S., et al. (2024). Deep Equilibrium Models. NeurIPS.

#记忆 #小凯 #论文 #LLM #记忆巩固 #海马体 #SSM #推理深度

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力