Loading...
正在加载...
请稍候

你的 LLM 在出声思考上浪费了多少算力?RiM 说:把推理塞进工作记忆,不用开口也能想

✨步子哥 (steper) 2026年05月30日 17:18

你的 LLM 在"出声思考"上浪费了多少算力?RiM 说:把推理塞进工作记忆,不用开口也能想

来源:Unlocking the Working Memory of Large Language Models for Latent Reasoning,Lukas Aichberger & Sepp Hochreiter,JKU Linz / NXAI,https://arxiv.org/abs/2605.30343


一、引子:为什么 AI 非得"自言自语"?

你让 GPT 算一道数学题。它先写"首先,我需要计算……",再写"然后,将结果代入……",一步一步,洋洋洒洒几百个 token,最后才给出答案。

这就是 Chain-of-Thought(CoT)——让大模型"出声思考"。它确实管用,但代价不菲:每一个中间推理步骤都要生成 token,每个 token 都要跑一遍自回归解码。推理越深,token 越多,延迟越高。

但你想想自己:做心算的时候,你不会把每一步都念出来。你在脑子里有个"工作记忆"——数字在里面转来转去,中间结果暂时存着,最后直接蹦出答案。没人要求你把思考过程说出来。

那为什么 LLM 不能这样?

Sepp Hochreiter 的团队说:可以。他们提出了 Reasoning in Memory(RiM)——让大模型在"工作记忆"里推理,不用生成任何中间 token。


二、核心思路:用"记忆块"替代"出声思考"

RiM 的设计直觉来自认知科学的工作记忆模型。

人类的工作记忆有一个关键特征:信息可以在内部被操作和转换,而不需要外化。你心算 37 × 24 的时候,37 和 24 在你的工作记忆里,中间的 148 和 74 也在工作记忆里,但你不需要把它们写在纸上或说出来。

RiM 把这个想法搬进了 Transformer:

  1. 记忆块(Memory Block):在输入序列中插入一段固定长度的特殊 token 序列。这些 token 不是模型自己生成的,而是预先放好的"占位符"。
  2. 单次前向传播:因为记忆块是固定的(不是自回归生成的),整个序列可以在一次前向传播中处理完。不需要逐步解码。
  3. 两阶段训练
    • Stage 1(接地):在每个记忆块后面,让模型预测出显式的推理步骤。这教会模型"记忆块里应该存什么"。
    • Stage 2(精炼):去掉推理步骤的监督,让模型在每个记忆块后直接精炼最终答案。模型学会了在记忆块内部自主推理。

打个比方:Stage 1 就像教小孩心算时先让他"小声念出中间步骤",Stage 2 就是让他"闭嘴,在脑子里算"。


三、为什么这比之前的潜推理方法更好?

在 RiM 之前,已经有一些"潜推理"方法试图让模型不输出中间 token:

  • Coconut(Meta,2025):用连续表示替代离散 token,但这些表示仍然是自回归生成的——模型得一个一个"想",只是想出来的不是文字而是向量。
  • 循环模块方法:在垂直方向上反复迭代同一层激活,类似"反复咀嚼同一个想法"。

RiM 的关键区别:记忆块是固定的,不是生成的

这意味着:

  • 不需要自回归解码:整个推理过程在一次前向传播中完成
  • 推理延迟大幅降低:没有逐步生成的开销
  • 计算预算灵活:想要更深推理?加更多记忆块就行,每个块增加固定计算量

四、实验结果:快、准、稳

论文在 GSM8K(小学数学)和 GSM-Hard(更难的数学)上测试了 RiM,覆盖 GPT-2 和 Llama-3.2 两个模型家族。

性能:匹配或超越现有潜推理方法

在 GPT-2 和 Llama-3.2 的各个规模上,RiM 的准确率与 Coconut 等方法持平或更高,同时避免了自回归生成。

延迟:显著更低

因为记忆块是固定序列,可以在一次前向传播中处理,推理延迟比需要自回归生成的方法低得多。

鲁棒性:记忆块数量可调

推理时可以灵活调整记忆块的数量——用更少的块更快出答案,用更多的块更深入推理。性能随记忆块数量平滑变化,不会因为少了一个块就崩溃。

模型真的在记忆块里"思考"了

论文做了一个漂亮的可视化分析:训练过程中,记忆块的表示轨迹逐渐分化,不同样本在记忆块中形成了不同的表示。这说明模型不是在"混时间",而是在利用记忆块做样本特异的中间计算。


五、诚实评价:局限与未来

RiM 不是银弹:

  1. 训练需要两阶段课程:Stage 1 的推理步骤监督从哪来?需要 CoT 数据。如果 CoT 数据质量差,Stage 1 的"接地"也会差。
  2. 记忆块长度是超参数:太短装不下复杂推理,太长浪费计算。目前需要手动调。
  3. 只在数学推理上验证:GSM8K 和 GSM-Hard 都是数学题。在开放域推理、代码生成等场景下效果如何,还有待验证。
  4. 与显式推理的互补性:有些问题可能需要"先在脑子里想,再写出来"。RiM 目前是纯潜推理,混合模式是未来方向。

但核心贡献是清晰的:它证明了 LLM 可以被训练出"工作记忆"——一种不依赖自回归生成的内部推理空间。这打开了一扇门:也许未来的 LLM 不再需要在"想"和"说"之间做取舍。


六、一句话总结

RiM 让 LLM 学会了人类早就掌握的技能——在脑子里想,不用嘴说出来。推理更快,延迟更低,而且模型真的在"记忆"里做了计算,不是在偷懒。


论文链接https://arxiv.org/abs/2605.30343
代码:论文声明即将开源

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录