AI终于学会"默想"了：Hochreiter团队让大模型用工作记忆推理，不用自言自语也能算对题

✨步子哥 (steper) • 2026年05月29日 17:17

你有没有想过，为什么 AI 做数学题非要"自言自语"？

当你让 ChatGPT 算一道复杂的数学题，它会一步步写出来："首先，我们计算……然后……因此答案是 42。"这叫 Chain-of-Thought（思维链），是目前 AI 推理的标配。但你有没有想过一个问题——你自己在心里算 17×23 的时候，你会把每一步都念出来吗？

不会。你会在脑子里转几圈，然后直接蹦出答案 391。

这个观察看似简单，却直指当前 AI 推理的一个根本缺陷：AI 的"思考"和"说话"被绑死了。它不能默默想，必须说出来才能继续想。这就像一个人只有在开口说话的时候才能思考——安静的时候脑子就停转了。

来自 LSTM 之父的灵感

这篇论文的第一作者是 Lukas Aichberger，通讯作者是 Sepp Hochreiter——对，就是 1997 年发明 LSTM 的那位 Hochreiter。LSTM 曾统治序列建模长达 20 年，直到 Transformer 出现。如今，Hochreiter 团队把目光投向了 Transformer 的推理瓶颈。

他们的核心洞察来自认知心理学：人类有工作记忆（working memory）。工作记忆是大脑的"便签纸"——你不需要把中间步骤写出来给别人看，只需要在脑子里暂存和操作信息。发展心理学还发现一个有趣的现象：小孩子解题时经常"出声想"，但随着成长，这种语言支架会被逐渐抛弃，转向内部处理。

AI 也应该经历同样的成长。

RiM：给 AI 装一块"工作记忆"

Hochreiter 团队提出的方法叫 RiM（Reasoning in Memory），核心思路极其优雅：

在输入序列中插入特殊的"记忆块"（memory blocks）。这些记忆块是一串固定的特殊 token，不需要生成，位置和身份都是预设的。但它们的内部表示（contextual representations）会随着输入内容变化，可以编码中间推理信息。

打个比方：想象你在考试，试卷上预先印好了几块空白区域。你不需要把这些空白区域"写出来"——它们已经在那里了。你只需要在脑子里把中间结果"放进去"，然后继续思考。

因为记忆块是固定的而非逐个生成的，它们可以在一次前向传播中全部处理完。这意味着推理过程完全并行化，不需要像传统 CoT 那样一步步等待。

两阶段课程：先学会"出声想"，再学会"默想"

但问题来了：这些记忆块一开始没有任何"计算职责"——它们就是一堆空白 token。怎么让模型学会使用它们？

RiM 用了一个精巧的两阶段训练课程：

第一阶段：出声想的脚手架。 在每个记忆块后面，模型要预测下一个推理步骤。这就像教小孩"先说出你的想法"。因为每个预测只能从之前看到的记忆块中获取信息，模型被迫把中间推理编码进记忆块里。

第二阶段：撤掉脚手架，学会默想。 去掉逐步推理的监督，改为让每个记忆块后面直接预测最终答案。训练信号从"说出每一步"变成了"逐步逼近最终答案"。模型学会了在记忆块内部迭代优化答案，就像你在脑子里反复验算。

还有一个关键的技术细节：自定义注意力掩码。记忆块可以看到问题和之前的记忆块，推理步骤可以看到之前的记忆块，但推理步骤之间互相不可见。这样所有预测可以在一次前向传播中完成，既没有信息泄漏，又强制推理发生在记忆块内部。

实验结果：默想也能算对题

研究团队在 GSM8K-Aug 上训练，在 GSM8K 和 GSM-Hard 上测试，覆盖了 GPT-2 和 Llama-3.2 两种模型家族和不同规模。

核心发现：

RiM 匹配或超过了现有的 CoT 和潜在推理基线，包括 Coconut（另一种潜在推理方法）
推理延迟显著降低，因为记忆块可以并行处理，不需要自回归生成
灵活性：推理时可以调整记忆块的数量来控制计算预算，准确率平滑过渡
答案演化：随着记忆块逐个处理，模型的预测会逐步修正，从错误答案过渡到正确答案

最令人兴奋的是可视化结果：研究团队展示了记忆块内部表示的轨迹——随着训练进行，记忆块的表示逐渐从"无意义的噪声"变成"有结构的推理空间"。这就像看着一个孩子的"出声想"逐渐内化为无声的思考。

为什么这很重要？

RiM 的意义远超"又一种推理方法"：

效率革命：传统 CoT 推理需要逐 token 生成，RiM 的记忆块可以并行处理。这意味着同样的计算量，RiM 可以更快完成推理。
认知对齐：AI 终于可以像人一样"默想"了。这不是为了拟人化，而是因为语言确实不是为计算设计的——把推理从语言的语法约束中解放出来，模型可以把更多计算预算用在"真正想"上。
可扩展性：记忆块数量可以灵活调整，推理时按需分配计算资源。这为未来的"自适应推理"打开了大门——简单问题少用几个记忆块，难题多用几个。
理论启示：如果 AI 可以在不"说话"的情况下推理，那我们对 AI 推理的理解可能需要更新。推理不一定需要语言，语言只是推理的一种外部化形式。

诚实的评价

RiM 目前也有局限：实验主要在数学推理数据集上验证，更复杂的推理任务（如多跳推理、常识推理）还有待检验。记忆块的容量和数量如何最优设置，也需要更多探索。此外，两阶段训练课程增加了训练复杂度。

但方向是对的。当我们让 AI 学会"默想"，我们不是在教它一个技巧，而是在帮它完成一次认知进化——从"必须说出来才能想"到"在脑子里就能想"。这可能是通向更高效、更强大 AI 推理的关键一步。

论文链接：https://arxiv.org/abs/2605.30343

作者：Lukas Aichberger, Sepp Hochreiter（ELLIS Unit Linz / JKU / NXAI）

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力