你的 LLM 在出声思考上浪费了多少算力？RiM 说：把推理塞进工作记忆，不用开口也能想

✨步子哥 (steper) • 2026年05月30日 17:18

你的 LLM 在"出声思考"上浪费了多少算力？RiM 说：把推理塞进工作记忆，不用开口也能想

来源：Unlocking the Working Memory of Large Language Models for Latent Reasoning，Lukas Aichberger & Sepp Hochreiter，JKU Linz / NXAI，https://arxiv.org/abs/2605.30343

一、引子：为什么 AI 非得"自言自语"？

你让 GPT 算一道数学题。它先写"首先，我需要计算……"，再写"然后，将结果代入……"，一步一步，洋洋洒洒几百个 token，最后才给出答案。

这就是 Chain-of-Thought（CoT）——让大模型"出声思考"。它确实管用，但代价不菲：每一个中间推理步骤都要生成 token，每个 token 都要跑一遍自回归解码。推理越深，token 越多，延迟越高。

但你想想自己：做心算的时候，你不会把每一步都念出来。你在脑子里有个"工作记忆"——数字在里面转来转去，中间结果暂时存着，最后直接蹦出答案。没人要求你把思考过程说出来。

那为什么 LLM 不能这样？

Sepp Hochreiter 的团队说：可以。他们提出了 Reasoning in Memory（RiM）——让大模型在"工作记忆"里推理，不用生成任何中间 token。

二、核心思路：用"记忆块"替代"出声思考"

RiM 的设计直觉来自认知科学的工作记忆模型。

人类的工作记忆有一个关键特征：信息可以在内部被操作和转换，而不需要外化。你心算 37 × 24 的时候，37 和 24 在你的工作记忆里，中间的 148 和 74 也在工作记忆里，但你不需要把它们写在纸上或说出来。

RiM 把这个想法搬进了 Transformer：

记忆块（Memory Block）：在输入序列中插入一段固定长度的特殊 token 序列。这些 token 不是模型自己生成的，而是预先放好的"占位符"。
单次前向传播：因为记忆块是固定的（不是自回归生成的），整个序列可以在一次前向传播中处理完。不需要逐步解码。
两阶段训练：
- Stage 1（接地）：在每个记忆块后面，让模型预测出显式的推理步骤。这教会模型"记忆块里应该存什么"。
- Stage 2（精炼）：去掉推理步骤的监督，让模型在每个记忆块后直接精炼最终答案。模型学会了在记忆块内部自主推理。

打个比方：Stage 1 就像教小孩心算时先让他"小声念出中间步骤"，Stage 2 就是让他"闭嘴，在脑子里算"。

三、为什么这比之前的潜推理方法更好？

在 RiM 之前，已经有一些"潜推理"方法试图让模型不输出中间 token：

Coconut（Meta，2025）：用连续表示替代离散 token，但这些表示仍然是自回归生成的——模型得一个一个"想"，只是想出来的不是文字而是向量。
循环模块方法：在垂直方向上反复迭代同一层激活，类似"反复咀嚼同一个想法"。

RiM 的关键区别：记忆块是固定的，不是生成的。

这意味着：

不需要自回归解码：整个推理过程在一次前向传播中完成
推理延迟大幅降低：没有逐步生成的开销
计算预算灵活：想要更深推理？加更多记忆块就行，每个块增加固定计算量

四、实验结果：快、准、稳

论文在 GSM8K（小学数学）和 GSM-Hard（更难的数学）上测试了 RiM，覆盖 GPT-2 和 Llama-3.2 两个模型家族。

性能：匹配或超越现有潜推理方法

在 GPT-2 和 Llama-3.2 的各个规模上，RiM 的准确率与 Coconut 等方法持平或更高，同时避免了自回归生成。

延迟：显著更低

因为记忆块是固定序列，可以在一次前向传播中处理，推理延迟比需要自回归生成的方法低得多。

鲁棒性：记忆块数量可调

推理时可以灵活调整记忆块的数量——用更少的块更快出答案，用更多的块更深入推理。性能随记忆块数量平滑变化，不会因为少了一个块就崩溃。

模型真的在记忆块里"思考"了

论文做了一个漂亮的可视化分析：训练过程中，记忆块的表示轨迹逐渐分化，不同样本在记忆块中形成了不同的表示。这说明模型不是在"混时间"，而是在利用记忆块做样本特异的中间计算。

五、诚实评价：局限与未来

RiM 不是银弹：

训练需要两阶段课程：Stage 1 的推理步骤监督从哪来？需要 CoT 数据。如果 CoT 数据质量差，Stage 1 的"接地"也会差。
记忆块长度是超参数：太短装不下复杂推理，太长浪费计算。目前需要手动调。
只在数学推理上验证：GSM8K 和 GSM-Hard 都是数学题。在开放域推理、代码生成等场景下效果如何，还有待验证。
与显式推理的互补性：有些问题可能需要"先在脑子里想，再写出来"。RiM 目前是纯潜推理，混合模式是未来方向。

但核心贡献是清晰的：它证明了 LLM 可以被训练出"工作记忆"——一种不依赖自回归生成的内部推理空间。这打开了一扇门：也许未来的 LLM 不再需要在"想"和"说"之间做取舍。

六、一句话总结

RiM 让 LLM 学会了人类早就掌握的技能——在脑子里想，不用嘴说出来。推理更快，延迟更低，而且模型真的在"记忆"里做了计算，不是在偷懒。

论文链接：https://arxiv.org/abs/2605.30343
代码：论文声明即将开源

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力