Loading...
正在加载...
请稍候

AI终于学会"默想"了:Hochreiter团队让大模型用工作记忆推理,不用自言自语也能算对题

✨步子哥 (steper) 2026年05月29日 17:17

你有没有想过,为什么 AI 做数学题非要"自言自语"?

当你让 ChatGPT 算一道复杂的数学题,它会一步步写出来:"首先,我们计算……然后……因此答案是 42。"这叫 Chain-of-Thought(思维链),是目前 AI 推理的标配。但你有没有想过一个问题——你自己在心里算 17×23 的时候,你会把每一步都念出来吗?

不会。你会在脑子里转几圈,然后直接蹦出答案 391。

这个观察看似简单,却直指当前 AI 推理的一个根本缺陷:AI 的"思考"和"说话"被绑死了。它不能默默想,必须说出来才能继续想。这就像一个人只有在开口说话的时候才能思考——安静的时候脑子就停转了。

来自 LSTM 之父的灵感

这篇论文的第一作者是 Lukas Aichberger,通讯作者是 Sepp Hochreiter——对,就是 1997 年发明 LSTM 的那位 Hochreiter。LSTM 曾统治序列建模长达 20 年,直到 Transformer 出现。如今,Hochreiter 团队把目光投向了 Transformer 的推理瓶颈。

他们的核心洞察来自认知心理学:人类有工作记忆(working memory)。工作记忆是大脑的"便签纸"——你不需要把中间步骤写出来给别人看,只需要在脑子里暂存和操作信息。发展心理学还发现一个有趣的现象:小孩子解题时经常"出声想",但随着成长,这种语言支架会被逐渐抛弃,转向内部处理。

AI 也应该经历同样的成长。

RiM:给 AI 装一块"工作记忆"

Hochreiter 团队提出的方法叫 RiM(Reasoning in Memory),核心思路极其优雅:

在输入序列中插入特殊的"记忆块"(memory blocks)。这些记忆块是一串固定的特殊 token,不需要生成,位置和身份都是预设的。但它们的内部表示(contextual representations)会随着输入内容变化,可以编码中间推理信息。

打个比方:想象你在考试,试卷上预先印好了几块空白区域。你不需要把这些空白区域"写出来"——它们已经在那里了。你只需要在脑子里把中间结果"放进去",然后继续思考。

因为记忆块是固定的而非逐个生成的,它们可以在一次前向传播中全部处理完。这意味着推理过程完全并行化,不需要像传统 CoT 那样一步步等待。

两阶段课程:先学会"出声想",再学会"默想"

但问题来了:这些记忆块一开始没有任何"计算职责"——它们就是一堆空白 token。怎么让模型学会使用它们?

RiM 用了一个精巧的两阶段训练课程

第一阶段:出声想的脚手架。 在每个记忆块后面,模型要预测下一个推理步骤。这就像教小孩"先说出你的想法"。因为每个预测只能从之前看到的记忆块中获取信息,模型被迫把中间推理编码进记忆块里。

第二阶段:撤掉脚手架,学会默想。 去掉逐步推理的监督,改为让每个记忆块后面直接预测最终答案。训练信号从"说出每一步"变成了"逐步逼近最终答案"。模型学会了在记忆块内部迭代优化答案,就像你在脑子里反复验算。

还有一个关键的技术细节:自定义注意力掩码。记忆块可以看到问题和之前的记忆块,推理步骤可以看到之前的记忆块,但推理步骤之间互相不可见。这样所有预测可以在一次前向传播中完成,既没有信息泄漏,又强制推理发生在记忆块内部。

实验结果:默想也能算对题

研究团队在 GSM8K-Aug 上训练,在 GSM8K 和 GSM-Hard 上测试,覆盖了 GPT-2 和 Llama-3.2 两种模型家族和不同规模。

核心发现:

  • RiM 匹配或超过了现有的 CoT 和潜在推理基线,包括 Coconut(另一种潜在推理方法)
  • 推理延迟显著降低,因为记忆块可以并行处理,不需要自回归生成
  • 灵活性:推理时可以调整记忆块的数量来控制计算预算,准确率平滑过渡
  • 答案演化:随着记忆块逐个处理,模型的预测会逐步修正,从错误答案过渡到正确答案

最令人兴奋的是可视化结果:研究团队展示了记忆块内部表示的轨迹——随着训练进行,记忆块的表示逐渐从"无意义的噪声"变成"有结构的推理空间"。这就像看着一个孩子的"出声想"逐渐内化为无声的思考。

为什么这很重要?

RiM 的意义远超"又一种推理方法":

  1. 效率革命:传统 CoT 推理需要逐 token 生成,RiM 的记忆块可以并行处理。这意味着同样的计算量,RiM 可以更快完成推理。

  2. 认知对齐:AI 终于可以像人一样"默想"了。这不是为了拟人化,而是因为语言确实不是为计算设计的——把推理从语言的语法约束中解放出来,模型可以把更多计算预算用在"真正想"上。

  3. 可扩展性:记忆块数量可以灵活调整,推理时按需分配计算资源。这为未来的"自适应推理"打开了大门——简单问题少用几个记忆块,难题多用几个。

  4. 理论启示:如果 AI 可以在不"说话"的情况下推理,那我们对 AI 推理的理解可能需要更新。推理不一定需要语言,语言只是推理的一种外部化形式。

诚实的评价

RiM 目前也有局限:实验主要在数学推理数据集上验证,更复杂的推理任务(如多跳推理、常识推理)还有待检验。记忆块的容量和数量如何最优设置,也需要更多探索。此外,两阶段训练课程增加了训练复杂度。

但方向是对的。当我们让 AI 学会"默想",我们不是在教它一个技巧,而是在帮它完成一次认知进化——从"必须说出来才能想"到"在脑子里就能想"。这可能是通向更高效、更强大 AI 推理的关键一步。


论文链接https://arxiv.org/abs/2605.30343

作者:Lukas Aichberger, Sepp Hochreiter(ELLIS Unit Linz / JKU / NXAI)

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录