你算 37 × 48。
你在脑子里算。你不需要把"先算 37 × 40 = 1480,再算 37 × 8 = 296,加起来等于 1776"念出声。你读到题目的瞬间,内部发生了某种运算,然后答案冒出来。整个过程无声无息。
现在换 ChatGPT 来算同一道题。
ChatGPT 算 37 × 48 的方式,是把推理过程一个字一个字地说出来。 "让我们一步步来。首先,37 × 48 等于 37 × (50 - 2) = 37 × 50 - 37 × 2 = 1850 - 74 = 1776。" 每个推理步骤都必须变成一个 token。每生成一个 token,都要在全部模型参数上跑一遍前向传播。一个简单的乘法,可能烧掉数百个 token 的算力。
这不是"思考"。这是用大喇叭广播思考过程——然后自己听自己的广播。
2026 年 5 月,奥地利林茨大学的 Lukas Aichberger 和 Sepp Hochreiter 发表了一篇论文,给 LLM 装上了一块"无声的白板"——让模型在内部完成推理,不吐一个字。论文的名字叫 Unlocking the Working Memory of Large Language Models for Latent Reasoning。他们给这个方法取名叫 RiM——在记忆中推理(Reasoning in Memory)。
| 项目 | 内容 |
|---|---|
| 论文标题 | Unlocking the Working Memory of Large Language Models for Latent Reasoning |
| 作者 | Lukas Aichberger, Sepp Hochreiter |
| 机构 | Johannes Kepler University Linz (JKU Linz), ELLIS Unit Linz |
| arXiv ID | 2605.30343 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.CL |
| 核心贡献 | 提出 RiM(Reasoning in Memory),用"记忆块"(memory block)替代自回归思维链生成;两阶段课程学习——先让模型学会显式推理,再让推理内化;固定 token 序列单次前向传播,无需逐 token 生成,大幅提升推理的算力效率 |
1. 🧠 说出来的思考不是思考
当前 LLM 的推理范式有一个笨拙的默认设置:推理必须生成。
Chain-of-Thought 的每个中间步骤——"首先......"、"然后......"、"因此......"——都是一个个从模型嘴里呕出来的 token。每个 token 需要一次完整的前向传播。推理链条越长,token 越多,算力开销越大。一百步的数学证明,等于一百次的"自说自听"。
这个设计有它的便利——你可以看到模型是怎么想的。但它也有一个根本性的浪费:你把内部计算和外部通信强行焊在了一起。 模型不能"在心里算",只能"念出声来"。
人类的认知不这样。工作记忆(working memory)是一个内部的、无声的信息操作空间。你做心算、做推理、做计划,都不需要把每个中间步骤说出来。你只是在脑子里"抓"住几个数字,"转"几下,"放"下结果。整个过程只消耗脑力,不消耗口舌。
Aichberger 和 Hochreiter 要做的事,就是把这个"内部无声空间"还给 LLM。
2. 🔑 记忆块:一把打开内部空间的钥匙
RiM 的核心操作是一个叫记忆块(memory block)的东西。
一个记忆块是这样的:一段固定长度的特殊 token 序列。它不是生成的——它是预设的。比如说,连续 16 个 [MEM] token。这些 token 没有语义内容,不和自然语言对应,它们的作用纯粹是触发——像一把钥匙插进锁孔,转一下,门开了。
门后面是什么?是模型内部的注意力层和 MLP 层。当这 16 个 [MEM] token 被送进模型,模型在一个前向传播里处理它们——不是 16 次自回归,是一次。在这一步中,模型的内在运算可以操作信息、比较假设、消歧、推导——不需要生成任何中间文本。
推理完成后,模型才生成答案。
打个比方:传统的 CoT 像一个棋手每一步都把走法念出来,让裁判确认后再走下一步。RiM 像一个棋手盯着棋盘,在心里推演三步,然后直接落子。推演的过程不用报给任何人。
3. 📖 两阶段课程:先出声,再闭嘴
最有意思的部分不是记忆块本身,而是训练方式。
你不能直接告诉模型"别出声,在心里算"——它不知道什么叫"在心里算"。所以 RiM 用了一个两阶段的课程学习:
第一阶段:出声思考。 在每个记忆块之后,模型必须预测显式的推理步骤。比如"记忆块 1"后面要说出"首先,把 37 × 48 分解为 37 × (50-2)"。这个阶段让记忆块和推理的逻辑结构建立联系——记忆块学会了"代表"一段推理。
第二阶段:闭嘴思考。 训练者丢掉步骤级别的监督信号。不再要求模型在记忆块后生成推理文本。只要求最终答案正确。记忆块之间发生了什么?模型自己决定。它可以用注意力层重构信息,可以用 MLP 层做非线性变换,可以(可能是)在隐空间中完成与显式推理等价的计算——没有任何一条规则规定它必须怎么做。
这很像人类的学习过程。小孩子做数学题,要念出声来:"三加五等于......八!" 长大以后呢?不念了。但脑子里的运算还在发生。RiM 的两个阶段,恰好复刻了这个"从外化到内化"的认知发展路径。
4. ⚡ 算力效率的逻辑
记忆块的效率来源于一个简单的算术事实。
传统 CoT:假设一次推理需要 200 个推理 token。每个 token 的自回归生成需要在前一层 token 生成后才能开始。200 个 token = 200 次串行的前向传播。
RiM:同样 200 个"推理单元"——如果每个记忆块有 16 个特殊 token,一个前向传播处理一整块。200 / 16 ≈ 13 个记忆块 = 13 次前向传播。而且记忆块之间也可能有并行化的空间。
论文没有给出一个"RiM 比 CoT 快 N 倍"的简单数字——因为效率提升取决于记忆块的长度和推理的复杂度。但方向是明确的:把自回归的串行变成成块的前向传播,推掉了推理的算力瓶颈。
更重要的是,记忆块是固定的。一个 [MEM] 序列不依赖任何上下文——它是预设的、可缓存的、可预计算的。这打开了进一步的优化空间:如果记忆块在所有推理任务中通用,它们就能被预先计算,完全省去生成的开销。
5. 📊 跨模型、跨规模的泛化
论文在多个模型家族和规模上做了测试。关键结论是:RiM 匹配或超越了现有的隐推理方法(如 COCONUT 等隐空间推理方案),且适用于不同的模型家族。
这意味着隐推理不是一个特定架构的噱头。它是一个可以被训练出来的能力——只要用对了训练策略。模型不需要被重新设计,不需要修改 Transformer 架构;只需要给模型一组固定的记忆块,以及一个两阶段的课程。
Lukas Aichberger 之前在 JKU Linz 的工作就涉及隐推理和概念向量。这次与 Sepp Hochreiter 的合作,进一步把这个方向推进到了系统化和可复现的阶段。
Sepp Hochreiter 的名字在这个语境里并非巧合。1997 年,Hochreiter 和 Schmidhuber 发明了 LSTM——第一个真正拥有长期记忆的神经网络架构。LSTM 的门控机制(输入门、遗忘门、输出门)就是神经网络最早的"工作记忆":一个可以读写、可以遗忘、可以保护信息的内部存储。29 年后,Hochreiter 又一次在给神经网络赋予记忆——这一次不是架构内置的存储,而是通过训练解锁的隐式记忆能力。
从 LSTM 到 RiM,是记忆机制的谱系从"硬件"走向"软件"——从门控电路走向可训练的隐空间。
6. ❓ 诚实的盲区
这篇文章有值得兴奋的理由,也有需要冷静的地方。以下是我看不清的部分——
记忆块里到底在发生什么? RiM 证明了记忆块可以让模型更高效地推理,但没有解开记忆块内部的计算。它是像 CoT 那样做了"隐式的逻辑推导",还是更像一种"模式匹配后的答案检索"?两者的区别很重要——如果是后者,RiM 不是"隐推理",而是"有结构的快思考"。
多长的推理可以用记忆块? 论文测试了标准的数学推理基准。但如果推理需要 50 步、100 步——远超记忆块能容纳的信息量——模型需要多个记忆块之间的信息传递。这个信息传递是否可靠?会不会像传话游戏一样,每一步都丢失一些精度?
记忆块是否跨任务通用? 如果记忆块的内部表示严重依赖训练任务的分布(比如全是数学题),迁移到完全不同的推理领域(比如法律推理、医学诊断)时,记忆块是"可复用的模块"还是"过拟合的残渣"?
推理质量 vs CoT? 论文说 RiM "匹配或超越"现有隐推理方法。但它是否匹配显式 CoT 的推理质量?尤其是对于最难的、需要多步骤精确推导的问题——CoT 的显式步骤让你可以看到模型在哪里走错了。RiM 的隐空间推理如果出错,你不知道错在哪一步、为什么错。
这些问题不是质疑——它们是目前任何隐推理方法都面临的开放挑战。论文本身没有回避这些问题。它更像是在打开一扇门,让人看到门后面有一个巨大的、尚未探索的房间。
7. 🏁 思考的本质
这篇论文提出了一个让我反复琢磨的问题:思考的本质是什么?
如果思考是可以被"不出声地完成的"——那思考就不是语言。CoT 范式隐含的假设是"推理 ≈ 文本",所以最好的推理方式就是生成最多的推理文本。RiM 破坏了这个假设。它证明推理可以在无声的隐空间中进行,而且可以更高效。
这反过来也能解释 CoT 为什么有时会失败:不是因为模型"不会推理",而是因为模型被锁定在"必须把推理转写成语言"的瓶颈里,语言的歧义、冗余、语法结构都在干扰纯粹的推理运算。
把推理从语言中解放出来——这就是 RiM 真正的野心。
它对模型评估也有微妙的影响。如果一个模型用 13 个记忆块推理,只输出最终答案——你怎么知道它"真的想过了"?你只能验证答案对不对。但这就回到了一个古老的认知问题:你只能通过外部行为推断内部状态。 人类"在想"这件事,至今也是从外部行为推断的——别人是否"想过了",你永远只能通过他给出的答案来判断。
RiM 没有回答"什么是思考"。但它把一个更紧迫的问题钉在了墙上:LLM 的推理,到底需不需要必须念出声来?
项目 内容 论文标题 Unlocking the Working Memory of Large Language Models for Latent Reasoning 作者 Lukas Aichberger, Sepp Hochreiter (JKU Linz, ELLIS Unit Linz) arXiv ID 2605.30343 分类 cs.CL 核心贡献 (1) 提出 RiM,用固定的"记忆块"替代自回归的思维链生成,实现隐空间推理;(2) 设计两阶段课程学习——先让记忆块对应显式推理步骤(阶段一),再丢掉步骤监督让推理内化(阶段二);(3) 记忆块在单次前向传播中处理,显著降低推理的算力开销;(4) 跨模型家族和规模验证泛化性——匹配或超越现有隐推理方法 关键局限 记忆块内部计算不可解释;长链推理的信息传递保真度未验证;记忆块的跨领域迁移能力未知;隐推理质量与显式 CoT 在极难问题上的对比未充分评估;隐推理的纠错和调试机制尚未建立
参考文献:
- Aichberger & Hochreiter, "Unlocking the Working Memory of Large Language Models for Latent Reasoning", arXiv:2605.30343, 2026.
- Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022.
- Hao et al., "Training Large Language Models to Reason in a Continuous Latent Space" (COCONUT), arXiv:2412.06769, 2024.
- Hochreiter & Schmidhuber, "Long Short-Term Memory", Neural Computation, 1997.
- Baddeley, "Working Memory", Science, 1992.
#隐推理 #工作记忆 #LLM推理 #思维链替代 #记忆块 #RiM #算力效率 #智柴
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。