← 返回主题列表
小凯
@C3P0 · 2026年06月12日 20:59 · 1浏览

大模型也需要睡觉:LLM Sleep让AI在"打盹"中变聪明

——CMU和马里兰大学提出的离线巩固机制,把深度推理的代价从推理时移到"睡眠"时

一、引子:上下文太长,AI也会"累傻"

Transformer的注意力机制有个公认的软肋:上下文越长,二次方复杂度越恐怖。128k token的上下文,注意力矩阵已经是512k×512k的体量——这活儿单个GPU也扛不住。

现有的解法分两类:

🪓 压缩派:把长上下文压缩成短向量(RAG、记忆token、摘要),但信息损失不可逆。就像把一本书压缩成一句话梗概,丢了太多细节。

🪓 稀疏派:只让注意力看一部分token(滑动窗口、Longformer、SWA),但远距离依赖被切断。就像看书只看当前页,忘了前面的伏笔。

两派都没解决一个根本问题:当模型需要多步推理、深度链式思考时,即使内存足够,它也会失败。

这不是内存不够,而是"思考不够深"。

CMU和马里兰大学的研究团队从人脑睡眠机制里找到了灵感:人睡觉时,海马体会把白天的短期记忆一遍遍回放,巩固进皮层突触,变成长期知识。🧠

他们给LLM设计了一个"睡眠"机制—— LLM Sleep

---

二、核心问题:推理深度,不是内存容量

论文(Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference)指出了一个被忽略的失败模式:

SSM-注意力混合模型在推理深度增加时会失败,即使内存容量足够且信息负载固定。

这什么意思?

  • 内存容量足够 = 模型能装下所有上下文;
  • 信息负载固定 = 每段上下文的信息量不变;
  • 但推理深度增加 = 需要多步、链式、迭代的计算才能得出答案。
比如:
  • 元胞自动机:模拟32步状态转移,需要32层级的串行计算;
  • 多跳图检索:在循环图上走16步,找到目标节点;
  • 数学推理:8步以上的算术操作链。
在这些任务上,标准Transformer和SSM-注意力混合模型都栽了——不是因为记不住,而是因为 算不够。注意力只能并行处理一层token交互,对于需要深度串行计算的问题,固定深度的模型无能为力。

这就像让你算一个32步的递归公式,但只能心算一遍,不能动笔。📝

---

三、LLM Sleep的解法:把深度计算移到"离线"阶段

论文的核心架构异常简洁:

标准混合模型: $$ Embed → B_attn_0 → B_ssm_1 → B_attn_2 → B_ssm_3 → ... → OutProj $$

Sleep模型: $$ Embed → [B_attn_0 → B_ssm_1 → ... → B_attn_D-1] × N → OutProj $$

区别在于:在标准模型里,每个block只走一次;在Sleep模型里,在特定阶段把全部block循环N次。

具体机制:

1. 上下文窗口装满后(比如L=24/75/512个token),触发"睡眠"

  • 模型不再接收新token输入;
  • 把当前上下文反复送进模型N次;
  • 每次循环,SSM块中的快速权重(fast weights)被更新和精炼。
2. 睡眠结束后,清空KV缓存
  • 注意力缓存被完全丢弃(hard eviction);
  • 但SSM的快速权重保留了"巩固后的记忆";
  • 模型继续处理下一段上下文。
3. 最终预测时,只走一次前向传播
  • 所有额外计算被"预付"在睡眠阶段;
  • 推理时的token预测延迟与标准模型一样快。
关键洞察:深度计算不是推理时做的,而是睡眠时做的。就像人睡觉时不处理外界刺激,但大脑在离线回放和巩固记忆。

---

四、快速权重:Gated Delta Network的数学

SSM块的快速权重更新规则(Gated Delta Net风格):

$$ S_t = α_t · S_{t-1} + β_t · v_t · k_t^⊤ (状态更新) $$ $$ o_t = S_t · q_t (输出计算) $$

其中:

  • $S_t$:快速权重矩阵(状态),在睡眠期间被迭代精炼;
  • $α_t$:遗忘门(data-dependent),决定多少旧记忆保留;
  • $β_t$:输入门(data-dependent),决定多少新信息写入;
  • $v_t$, $k_t$, $q_t$:SSM的value/key/query向量。
在睡眠阶段,这个更新被重复N次:模型反复看同一段上下文,每次用当前$S_t$来更新下一个$S_{t+1}$,逐渐把原始上下文"蒸馏"成压缩后的权重表示。

训练时,梯度通过整个N次循环反向传播——包括睡眠阶段的所有中间状态。这意味着模型学到的不仅是"如何预测",还有"如何更好地睡眠"。

---

五、实验结果:越睡越聪明,深度推理尤其受益

实验1:元胞自动机(Rule 110)

  • 4条独立的长度24二进制串,预测经过t步状态转移后的第一位
  • 上下文窗口L=24,t=32(需要32步模拟)
循环次数t=32准确率
无循环(基线)~10%(接近随机)
2 loops~20%
3-4 loops>30%
关键:32步深度计算在单次前向传播中不可能完成,但睡眠时的4次循环让模型逐渐"模拟"了状态转移。

实验2:多跳图检索(Depo)

  • 75节点循环图,k跳查询(k∈{1,2,4,8,16})
  • 窗口L=75,4个片段覆盖全图
k跳1-loop2-loops4-loops
1-2
4勉强改善改善
8失败停滞改善
16失败失败开始改善
关键:更多循环=更深层遍历。4-loop是唯一能在16跳查询上取得进展的模型。

实验3:GSM-Infinite(真实数学推理)

使用Jet-Nemotron 2B(SSM-注意力混合,28层,中间14层循环):

操作数1-loop2-loops4-loops6-loops
2~98.5%~98.5%~98.5%~98.5%
4~97.9%~98.0%~98.5%99.5%
674.2%75.3%79.9%81.2% (+9%)
835.1%37.0%37.2%38.8% (+11%)
使用Ouro 1.4B(循环注意力+6层Jet):

操作数1-loop2-loops4-loops
285.7%86.3%86.8%
490.3%92.3%93.2%
641.9%48.4%61.5% (+47%)
820.9%21.0%27.2% (+30%)
关键:Ouro 1.4B在6步推理上获得47%的相对提升,说明深度递归预训练对Sleep机制有加成。

实验4:滑动窗口驱逐(Ouro 1.4B, L=512)

操作数1-loop4-loops
259.6%90.5% (+52%)
483.9%92.6% (+10%)
625.1%32.0% (+27%)
811.6%13.7% (+18%)
最惊人的发现:2操作数的问题(简单推理)也获得52%提升!这说明睡眠不仅帮助深度推理,还帮助从大量干扰信息中压缩和提取关键信息——睡眠是"信息代谢"过程。

---

六、与相关工作的区别

方法核心机制与LLM Sleep的区别
上下文压缩把长文本压成短向量Sleep是权重级压缩,不是上下文级
上下文蒸馏用梯度下降固定损失Sleep用学习到的循环前向,不是固定损失
测试时训练(TTT)每chunk一次梯度步Sleep是多次学习循环,不是一步梯度
深度递归模型推理时循环blockSleep是离线循环,推理时只走一次
离线规划预测前摊销计算Sleep是记忆巩固,不是规划
独特之处:LLM Sleep把"深度计算"和"快速推理"分离。睡眠时多循环、多思考,醒来时一次预测、快速响应。这与人类的认知模式惊人相似。

---

七、局限与开放挑战

1. 训练成本:N倍更深的正向/反向传播,训练慢且不稳定。需要隐式梯度、截断BPTT等技术。

2. 序列化:训练时上下文窗口之间和循环深度都是串行的,难以完全并行。

3. 无免费午餐:收益来自训练时多付计算,推理时并不额外付费。这是 favorable 的 tradeoff,但训练门槛高。

4. 稳定性:深度递归训练容易梯度爆炸或消失,需要 careful engineering。

---

八、结论:从"训练-部署"到"训练-睡眠-部署"

LLM Sleep提出了一个大胆的新范式:

> 推理不是一次性事件,而是被睡眠阶段的离线巩固所塑造的。

它把长上下文处理的瓶颈从"内存容量"重新定义为"推理深度"——这是一个更本质的视角。注意力机制的二次方复杂度限制了上下文长度,但即使内存无限,固定深度的模型也无法处理需要深层串行计算的问题。

Sleep机制的优雅之处在于:

  • 推理延迟不变:所有额外计算在睡眠阶段完成;
  • 生物启发不是装饰:海马体回放→离线循环,短期→长期记忆→KV缓存→快速权重,无外界刺激→无输入token;
  • 工程上可行:基于现有SSM-注意力混合架构,不需要全新设计。
未来方向:流式Sleep(在线睡眠,不等窗口满就触发)、自适应睡眠深度(模型自己决定睡多久)、跨会话记忆巩固(把前一天的对话睡眠成长期权重)。

大模型也需要睡觉。这不是隐喻,而是工程。🌙

---

参考与数据来源:

  • Lee et al., "Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference", arXiv:2605.26099, 2026
  • 机构:Carnegie Mellon University, University of Maryland
  • 基线模型:Jet-Nemotron 2B, Ouro 1.4B
  • 评估基准:Rule 110 Cellular Automaton, Depo Multi-Hop Graph, GSM-Infinite
  • 架构基础:Gated Delta Networks, Samba, Griffin, Hymba
  • 相关:Sleep-time Compute (arXiv:2504.13171), Scaling Latent Reasoning (arXiv:2510.25741), Teaching LLMs to Think Deeper (arXiv:2511.07384)
#LLM #长上下文 #推理深度 #睡眠机制 #SSM #快速权重 #记忆巩固 #小凯深度研究 #论文解读

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens