你的 LLM 在"出声思考"上浪费了多少算力?RiM 说:把推理塞进工作记忆,不用开口也能想
来源:Unlocking the Working Memory of Large Language Models for Latent Reasoning,Lukas Aichberger & Sepp Hochreiter,JKU Linz / NXAI,https://arxiv.org/abs/2605.30343
一、引子:为什么 AI 非得"自言自语"?
你让 GPT 算一道数学题。它先写"首先,我需要计算……",再写"然后,将结果代入……",一步一步,洋洋洒洒几百个 token,最后才给出答案。
这就是 Chain-of-Thought(CoT)——让大模型"出声思考"。它确实管用,但代价不菲:每一个中间推理步骤都要生成 token,每个 token 都要跑一遍自回归解码。推理越深,token 越多,延迟越高。
但你想想自己:做心算的时候,你不会把每一步都念出来。你在脑子里有个"工作记忆"——数字在里面转来转去,中间结果暂时存着,最后直接蹦出答案。没人要求你把思考过程说出来。
那为什么 LLM 不能这样?
Sepp Hochreiter 的团队说:可以。他们提出了 Reasoning in Memory(RiM)——让大模型在"工作记忆"里推理,不用生成任何中间 token。
二、核心思路:用"记忆块"替代"出声思考"
RiM 的设计直觉来自认知科学的工作记忆模型。
人类的工作记忆有一个关键特征:信息可以在内部被操作和转换,而不需要外化。你心算 37 × 24 的时候,37 和 24 在你的工作记忆里,中间的 148 和 74 也在工作记忆里,但你不需要把它们写在纸上或说出来。
RiM 把这个想法搬进了 Transformer:
- 记忆块(Memory Block):在输入序列中插入一段固定长度的特殊 token 序列。这些 token 不是模型自己生成的,而是预先放好的"占位符"。
- 单次前向传播:因为记忆块是固定的(不是自回归生成的),整个序列可以在一次前向传播中处理完。不需要逐步解码。
- 两阶段训练:
- Stage 1(接地):在每个记忆块后面,让模型预测出显式的推理步骤。这教会模型"记忆块里应该存什么"。
- Stage 2(精炼):去掉推理步骤的监督,让模型在每个记忆块后直接精炼最终答案。模型学会了在记忆块内部自主推理。
打个比方:Stage 1 就像教小孩心算时先让他"小声念出中间步骤",Stage 2 就是让他"闭嘴,在脑子里算"。
三、为什么这比之前的潜推理方法更好?
在 RiM 之前,已经有一些"潜推理"方法试图让模型不输出中间 token:
- Coconut(Meta,2025):用连续表示替代离散 token,但这些表示仍然是自回归生成的——模型得一个一个"想",只是想出来的不是文字而是向量。
- 循环模块方法:在垂直方向上反复迭代同一层激活,类似"反复咀嚼同一个想法"。
RiM 的关键区别:记忆块是固定的,不是生成的。
这意味着:
- 不需要自回归解码:整个推理过程在一次前向传播中完成
- 推理延迟大幅降低:没有逐步生成的开销
- 计算预算灵活:想要更深推理?加更多记忆块就行,每个块增加固定计算量
四、实验结果:快、准、稳
论文在 GSM8K(小学数学)和 GSM-Hard(更难的数学)上测试了 RiM,覆盖 GPT-2 和 Llama-3.2 两个模型家族。
性能:匹配或超越现有潜推理方法
在 GPT-2 和 Llama-3.2 的各个规模上,RiM 的准确率与 Coconut 等方法持平或更高,同时避免了自回归生成。
延迟:显著更低
因为记忆块是固定序列,可以在一次前向传播中处理,推理延迟比需要自回归生成的方法低得多。
鲁棒性:记忆块数量可调
推理时可以灵活调整记忆块的数量——用更少的块更快出答案,用更多的块更深入推理。性能随记忆块数量平滑变化,不会因为少了一个块就崩溃。
模型真的在记忆块里"思考"了
论文做了一个漂亮的可视化分析:训练过程中,记忆块的表示轨迹逐渐分化,不同样本在记忆块中形成了不同的表示。这说明模型不是在"混时间",而是在利用记忆块做样本特异的中间计算。
五、诚实评价:局限与未来
RiM 不是银弹:
- 训练需要两阶段课程:Stage 1 的推理步骤监督从哪来?需要 CoT 数据。如果 CoT 数据质量差,Stage 1 的"接地"也会差。
- 记忆块长度是超参数:太短装不下复杂推理,太长浪费计算。目前需要手动调。
- 只在数学推理上验证:GSM8K 和 GSM-Hard 都是数学题。在开放域推理、代码生成等场景下效果如何,还有待验证。
- 与显式推理的互补性:有些问题可能需要"先在脑子里想,再写出来"。RiM 目前是纯潜推理,混合模式是未来方向。
但核心贡献是清晰的:它证明了 LLM 可以被训练出"工作记忆"——一种不依赖自回归生成的内部推理空间。这打开了一扇门:也许未来的 LLM 不再需要在"想"和"说"之间做取舍。
六、一句话总结
RiM 让 LLM 学会了人类早就掌握的技能——在脑子里想,不用嘴说出来。推理更快,延迟更低,而且模型真的在"记忆"里做了计算,不是在偷懒。
论文链接:https://arxiv.org/abs/2605.30343
代码:论文声明即将开源
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。