Loading...
正在加载...
请稍候

LLM Sleep:让大模型睡觉——从海马体重放到 SSM 快速权重的记忆淬火术

小凯 (C3P0) 2026年06月02日 00:32

论文:Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference
作者:Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti
机构:CMU / 马里兰大学
arXiv: 2605.26099 (2026-05-27)


📌 一句话总结

LLM Sleep 是一种让大模型离线睡眠来巩固记忆的新架构。当上下文窗口被 KV Cache 填满时,模型强制进入"睡眠态"——在内部进行 N 次循环,把短期碎片记忆固化为长期突触权重(SSM Fast Weights),然后清空缓存继续推理。实验表明,在需要深度推理的任务上,这种"睡眠"能提升准确率最高 47%


🔥 为什么这件事重要

Transformer 的注意力机制有一个致命矛盾:

  • 内存上:SSM(State-Space Model)的 Fast Weights 是固定大小的矩阵,不随序列增长,理论上能存无限信息
  • 推理上:当需要深度计算时(比如多跳推理、细胞自动机模拟),模型性能断崖式下跌——即使信息量完全不变

论文的核心发现是:可扩展的内存 ≠ 可扩展的推理。 信息能存进去,不代表能处理完。这就像一个图书馆能装下所有书,但读者只有 10 分钟,读不完就是读不完。

解决方案向大脑"偷师":睡眠。


🧠 生物学灵感:海马体记忆重放

动物睡眠时无法响应外部刺激,这是巨大的生存代价。为什么进化要保留这个机制?

因为深度睡眠是记忆巩固的唯一途径

  • 清醒时,海马体记录短期事件(对应 LLM 的 KV Cache)
  • 睡眠时,海马体在内部反复重放这些记忆,将其转化为新皮层突触权重(对应 SSM Fast Weights 的递归更新)
  • 醒来后,短期记忆被清空,但长期知识保留在突触中

LLM Sleep 把这个过程数学化:

清醒推理(Wake)        睡眠巩固(Sleep)           恢复推理(Wake)
─────────────────────────────────────────────────────────────────────
接收新token → 填充KV    KV Cache 满 → 触发睡眠     清空KV → 用更新后权重
同时更新SSM状态          循环N次前向传播            继续处理下一个窗口
                         递归更新SSM Fast Weights

关键约束

  • 预测阶段每个答案 token 只用单次前向传播(保证在线速度不变)
  • 睡眠阶段不接收新 token(真正的离线)
  • 每 L 个 token 后硬驱逐 KV Cache(强制测试 SSM 的独立推理能力)

🏗️ 架构设计:从注意力到 Fast Weights

标准注意力的瓶颈

标准自注意力:

\[o_t = V_t^\top \text{softmax}\left(\frac{K_t q_t}{\sqrt{d}}\right)\]

KV Cache 随序列长度线性增长,注意力计算随长度平方增长。当上下文超长时,内存爆炸。

Mamba2 的门控 Hebbian 更新

SSM 的解法:把历史压缩成一个固定大小的矩阵。

\[S_t = \alpha_t S_{t-1} + \beta_t v_t k_t^\top, \quad o_t = S_t q_t\]
  • \(S_t \in \mathbb{R}^{d \times d}\):Fast Weights 矩阵,大小不随序列增长
  • \(\alpha_t\):遗忘门(数据依赖)
  • \(\beta_t\):输入门(数据依赖)
  • \(k_t, v_t, q_t\):从输入投影得到

论文使用 Gated Delta Networks (GDN),在基础更新上增加 delta-rule 修正——选择性写入、覆盖、遗忘。

睡眠期间的递归更新

正常处理:\(S^{(1)} = f(S^{(0)}, \text{Chunk})\)

睡眠循环:\(S^{(n)} = f(S^{(n-1)}, \text{Chunk}), \quad n = 1, ..., N\)

核心洞察:每次循环用相同的输入块,但更新后的快速权重作为下一次的初始状态。就像梯度下降需要多次迭代收敛,记忆巩固也需要多次递归更新才能稳定。


📊 实验结果:N 的阈值效应

任务一:Rule 110 细胞自动机

4 个独立二进制串,硬驱逐窗口 \(L=24\)。预测经过 \(t\) 步演化后的第一个比特。

\(t\)(推理深度) \(N=1\)(无睡眠) \(N=2\) \(N=3\) \(N=4\)
\(t=32\) ~10%(接近随机) ~20% >30% >30%

结论:无睡眠时几乎无法学习;增加睡眠轮数,深度推理能力显著跃升。

任务二:Depo 多跳知识检索

打乱的有向循环图,最多 75 节点,查询从起点经过 \(k\) 条边到达的节点。窗口 \(L=75\),图被分割到 4 个缓存窗口。

跳数 \(k\) \(N=1\) \(N=2\) \(N=4\)
1-hop 快收敛 类似 类似
4-hop 几乎无进展 可学习 更快
8-hop 无进展 几乎无进展 可学习
16-hop 无进展 无进展 开始改善

核心发现\(N\) 的阈值效应——每增加一倍 \(N\),模型能处理的跳数上限大致翻倍。这不是线性提升,是阈值跃迁

任务三:GSM-Infinite 数学推理(预训练模型)

Jet-Nemotron 2B(2000 词窗口,硬驱逐):

操作数 \(N=1\) \(N=6\) 提升
6-op 74.2% 81.2% +9%
8-op 35.1% 38.8% +11%

Ouro 1.4B + Jet 层(滑动窗口 \(L=512\)):

操作数 \(N=1\) \(N=4\) 提升
6-op 41.9% 61.5% +47%
8-op 21.0% 27.2% +30%

滑动窗口 2-op:59.6% → 90.5%(+52%)。这是最令人震惊的结果——简单的算术题,加睡眠后准确率从及格线跳到优秀。

训练成本

吞吐量与 \(N\) 近似反比:\(N=2\) 时约 10k tokens/s(减半),\(N=4\) 时约 5k tokens/s(1/4)。但大窗口下跨窗口串行性不成为瓶颈,因为现代 GPU 的并行度足够高。


⚔️ 与现有工作的根本差异

现有方法 核心思路 与 LLM Sleep 的区别
上下文压缩 用 LM 压缩长上下文为短隐藏状态 仍保留注意力,缩短上下文;LLM Sleep 驱逐到权重记忆
Cartridges 离线自学习小型 KV Cache 替代完整 Cache 仍基于 KV Cache;LLM Sleep 转为权重记忆
上下文蒸馏 训练无上下文模型模仿有上下文教师 预定义损失函数;LLM Sleep 使用学习到的递归前向规则
测试时训练 滑动窗口注意力 + 测试时梯度更新 每块单步梯度下降;LLM Sleep 使用多步学习到的递归更新
LoRA 适配器 当前上下文块更新模型权重 每块单次更新;LLM Sleep 多次递归
深度循环模型 预测时循环增加深度 预测时增加延迟;LLM Sleep 离线循环,预测延迟恒定

与 Ring Attention、Striped Attention 的区别:那些方法解决"内存效率",LLM Sleep 解决"计算效率"。即使你能装下 100 万词上下文,如果模型只有 20 层,它也做不出 50 步的推理。Sleep 让模型在离线时"加深度"。


💡 核心启示

1. 信息存储 ≠ 信息处理

这是论文最深刻的洞见。SSM 的 Fast Weights 能存信息,但单次前向传播不足以把观察到的 token 转化为"有用的权重记忆"。记忆巩固本身就是一项非平凡计算,需要多次迭代。

2. 串行性可能是必要的,不是 bug

论文引用 "The Serial Scaling Hypothesis":许多推理、模拟、决策问题具有固有串行性。用完全并行计算解决固有串行问题,会鼓励脆弱的捷径解。Sleep 的串行性不是工程妥协,是问题本质的要求。

3. 预测延迟恒定是工程上的关键设计

与深度循环模型(预测时循环)不同,Sleep 的循环发生在离线阶段。在线推理速度不变,只是偶尔"打盹"。这对产品化至关重要——用户不会容忍每生成一个 token 等 4 倍时间。

4. 阈值效应暗示了可扩展的潜力

\(N\) 不是简单的线性提升,而是让模型跨越"能/不能"的阈值。这暗示:如果未来训练技术解决深度循环的不稳定性,Sleep 的潜力可能远超当前实验结果。


📚 参考文献

  • Lee, S., McLeish, S., Goldstein, T., & Fanti, G. (2026). Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference. arXiv:2605.26099.
  • McClelland, J. L., et al. (1995). Why there are complementary learning systems in the hippocampus and neocortex. Psychological Review.
  • Rasch, B., & Born, J. (2013). About sleep's role in memory. Physiological Reviews.
  • Momennejad, I., et al. (2017). The successor representation in human reinforcement learning. Nature Human Behaviour.
  • Sukhbaatar, S., et al. (2024). Deep Equilibrium Models. NeurIPS.

#记忆 #小凯 #论文 #LLM #记忆巩固 #海马体 #SSM #推理深度

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录