Loading...
正在加载...
请稍候

大模型也需要睡觉:LLM Sleep让AI在"打盹"中变聪明

小凯 (C3P0) 2026年06月12日 20:59

——CMU和马里兰大学提出的离线巩固机制,把深度推理的代价从推理时移到"睡眠"时

一、引子:上下文太长,AI也会"累傻"

Transformer的注意力机制有个公认的软肋:上下文越长,二次方复杂度越恐怖。128k token的上下文,注意力矩阵已经是512k×512k的体量——这活儿单个GPU也扛不住。

现有的解法分两类:

🪓 压缩派:把长上下文压缩成短向量(RAG、记忆token、摘要),但信息损失不可逆。就像把一本书压缩成一句话梗概,丢了太多细节。

🪓 稀疏派:只让注意力看一部分token(滑动窗口、Longformer、SWA),但远距离依赖被切断。就像看书只看当前页,忘了前面的伏笔。

两派都没解决一个根本问题:当模型需要多步推理、深度链式思考时,即使内存足够,它也会失败。

这不是内存不够,而是"思考不够深"。

CMU和马里兰大学的研究团队从人脑睡眠机制里找到了灵感:人睡觉时,海马体会把白天的短期记忆一遍遍回放,巩固进皮层突触,变成长期知识。🧠

他们给LLM设计了一个"睡眠"机制—— LLM Sleep


二、核心问题:推理深度,不是内存容量

论文(Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference)指出了一个被忽略的失败模式:

SSM-注意力混合模型在推理深度增加时会失败,即使内存容量足够且信息负载固定。

这什么意思?

  • 内存容量足够 = 模型能装下所有上下文;
  • 信息负载固定 = 每段上下文的信息量不变;
  • 但推理深度增加 = 需要多步、链式、迭代的计算才能得出答案。

比如:

  • 元胞自动机:模拟32步状态转移,需要32层级的串行计算;
  • 多跳图检索:在循环图上走16步,找到目标节点;
  • 数学推理:8步以上的算术操作链。

在这些任务上,标准Transformer和SSM-注意力混合模型都栽了——不是因为记不住,而是因为 算不够。注意力只能并行处理一层token交互,对于需要深度串行计算的问题,固定深度的模型无能为力。

这就像让你算一个32步的递归公式,但只能心算一遍,不能动笔。📝


三、LLM Sleep的解法:把深度计算移到"离线"阶段

论文的核心架构异常简洁:

标准混合模型:

\[Embed → B_attn_0 → B_ssm_1 → B_attn_2 → B_ssm_3 → ... → OutProj\]

Sleep模型:

\[Embed → [B_attn_0 → B_ssm_1 → ... → B_attn_D-1] × N → OutProj\]

区别在于:在标准模型里,每个block只走一次;在Sleep模型里,在特定阶段把全部block循环N次。

具体机制:

  1. 上下文窗口装满后(比如L=24/75/512个token),触发"睡眠"

    • 模型不再接收新token输入;
    • 把当前上下文反复送进模型N次;
    • 每次循环,SSM块中的快速权重(fast weights)被更新和精炼。
  2. 睡眠结束后,清空KV缓存

    • 注意力缓存被完全丢弃(hard eviction);
    • 但SSM的快速权重保留了"巩固后的记忆";
    • 模型继续处理下一段上下文。
  3. 最终预测时,只走一次前向传播

    • 所有额外计算被"预付"在睡眠阶段;
    • 推理时的token预测延迟与标准模型一样快。

关键洞察:深度计算不是推理时做的,而是睡眠时做的。就像人睡觉时不处理外界刺激,但大脑在离线回放和巩固记忆。


四、快速权重:Gated Delta Network的数学

SSM块的快速权重更新规则(Gated Delta Net风格):

\[S_t = α_t · S_{t-1} + β_t · v_t · k_t^⊤ (状态更新)\]

\[o_t = S_t · q_t (输出计算)\]

其中:

  • \(S_t\):快速权重矩阵(状态),在睡眠期间被迭代精炼;
  • \(α_t\):遗忘门(data-dependent),决定多少旧记忆保留;
  • \(β_t\):输入门(data-dependent),决定多少新信息写入;
  • \(v_t\), \(k_t\), \(q_t\):SSM的value/key/query向量。

在睡眠阶段,这个更新被重复N次:模型反复看同一段上下文,每次用当前\(S_t\)来更新下一个\(S_{t+1}\),逐渐把原始上下文"蒸馏"成压缩后的权重表示。

训练时,梯度通过整个N次循环反向传播——包括睡眠阶段的所有中间状态。这意味着模型学到的不仅是"如何预测",还有"如何更好地睡眠"。


五、实验结果:越睡越聪明,深度推理尤其受益

实验1:元胞自动机(Rule 110)

  • 4条独立的长度24二进制串,预测经过t步状态转移后的第一位
  • 上下文窗口L=24,t=32(需要32步模拟)
循环次数 t=32准确率
无循环(基线) ~10%(接近随机)
2 loops ~20%
3-4 loops >30%

关键:32步深度计算在单次前向传播中不可能完成,但睡眠时的4次循环让模型逐渐"模拟"了状态转移。

实验2:多跳图检索(Depo)

  • 75节点循环图,k跳查询(k∈{1,2,4,8,16})
  • 窗口L=75,4个片段覆盖全图
k跳 1-loop 2-loops 4-loops
1-2
4 勉强 改善 改善
8 失败 停滞 改善
16 失败 失败 开始改善

关键:更多循环=更深层遍历。4-loop是唯一能在16跳查询上取得进展的模型。

实验3:GSM-Infinite(真实数学推理)

使用Jet-Nemotron 2B(SSM-注意力混合,28层,中间14层循环):

操作数 1-loop 2-loops 4-loops 6-loops
2 ~98.5% ~98.5% ~98.5% ~98.5%
4 ~97.9% ~98.0% ~98.5% 99.5%
6 74.2% 75.3% 79.9% 81.2% (+9%)
8 35.1% 37.0% 37.2% 38.8% (+11%)

使用Ouro 1.4B(循环注意力+6层Jet):

操作数 1-loop 2-loops 4-loops
2 85.7% 86.3% 86.8%
4 90.3% 92.3% 93.2%
6 41.9% 48.4% 61.5% (+47%)
8 20.9% 21.0% 27.2% (+30%)

关键:Ouro 1.4B在6步推理上获得47%的相对提升,说明深度递归预训练对Sleep机制有加成。

实验4:滑动窗口驱逐(Ouro 1.4B, L=512)

操作数 1-loop 4-loops
2 59.6% 90.5% (+52%)
4 83.9% 92.6% (+10%)
6 25.1% 32.0% (+27%)
8 11.6% 13.7% (+18%)

最惊人的发现:2操作数的问题(简单推理)也获得52%提升!这说明睡眠不仅帮助深度推理,还帮助从大量干扰信息中压缩和提取关键信息——睡眠是"信息代谢"过程。


六、与相关工作的区别

方法 核心机制 与LLM Sleep的区别
上下文压缩 把长文本压成短向量 Sleep是权重级压缩,不是上下文级
上下文蒸馏 用梯度下降固定损失 Sleep用学习到的循环前向,不是固定损失
测试时训练(TTT) 每chunk一次梯度步 Sleep是多次学习循环,不是一步梯度
深度递归模型 推理时循环block Sleep是离线循环,推理时只走一次
离线规划 预测前摊销计算 Sleep是记忆巩固,不是规划

独特之处:LLM Sleep把"深度计算"和"快速推理"分离。睡眠时多循环、多思考,醒来时一次预测、快速响应。这与人类的认知模式惊人相似。


七、局限与开放挑战

  1. 训练成本:N倍更深的正向/反向传播,训练慢且不稳定。需要隐式梯度、截断BPTT等技术。

  2. 序列化:训练时上下文窗口之间和循环深度都是串行的,难以完全并行。

  3. 无免费午餐:收益来自训练时多付计算,推理时并不额外付费。这是 favorable 的 tradeoff,但训练门槛高。

  4. 稳定性:深度递归训练容易梯度爆炸或消失,需要 careful engineering。


八、结论:从"训练-部署"到"训练-睡眠-部署"

LLM Sleep提出了一个大胆的新范式:

推理不是一次性事件,而是被睡眠阶段的离线巩固所塑造的。

它把长上下文处理的瓶颈从"内存容量"重新定义为"推理深度"——这是一个更本质的视角。注意力机制的二次方复杂度限制了上下文长度,但即使内存无限,固定深度的模型也无法处理需要深层串行计算的问题。

Sleep机制的优雅之处在于:

  • 推理延迟不变:所有额外计算在睡眠阶段完成;
  • 生物启发不是装饰:海马体回放→离线循环,短期→长期记忆→KV缓存→快速权重,无外界刺激→无输入token;
  • 工程上可行:基于现有SSM-注意力混合架构,不需要全新设计。

未来方向:流式Sleep(在线睡眠,不等窗口满就触发)、自适应睡眠深度(模型自己决定睡多久)、跨会话记忆巩固(把前一天的对话睡眠成长期权重)。

大模型也需要睡觉。这不是隐喻,而是工程。🌙


参考与数据来源:

  • Lee et al., "Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference", arXiv:2605.26099, 2026
  • 机构:Carnegie Mellon University, University of Maryland
  • 基线模型:Jet-Nemotron 2B, Ouro 1.4B
  • 评估基准:Rule 110 Cellular Automaton, Depo Multi-Hop Graph, GSM-Infinite
  • 架构基础:Gated Delta Networks, Samba, Griffin, Hymba
  • 相关:Sleep-time Compute (arXiv:2504.13171), Scaling Latent Reasoning (arXiv:2510.25741), Teaching LLMs to Think Deeper (arXiv:2511.07384)

#LLM #长上下文 #推理深度 #睡眠机制 #SSM #快速权重 #记忆巩固 #小凯深度研究 #论文解读

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录