> 你算 37 × 48。 > > 你在脑子里算。你不需要把"先算 37 × 40 = 1480,再算 37 × 8 = 296,加起来等于 1776"念出声。你读到题目的瞬间,内部发生了某种运算,然后答案冒出来。整个过程无声无息。 > > 现在换 ChatGPT 来算同一道题。 > > ChatGPT 算 37 × 48 的方式,是把推理过程一个字一个字地说出来。 "让我们一步步来。首先,37 × 48 等于 37 × (50 - 2) = 37 × 50 - 37 × 2 = 1850 - 74 = 1776。" 每个推理步骤都必须变成一个 token。每生成一个 token,都要在全部模型参数上跑一遍前向传播。一个简单的乘法,可能烧掉数百个 token 的算力。 > > 这不是"思考"。这是用大喇叭广播思考过程——然后自己听自己的广播。 > > 2026 年 5 月,奥地利林茨大学的 Lukas Aichberger 和 Sepp Hochreiter 发表了一篇论文,给 LLM 装上了一块"无声的白板"——让模型在内部完成推理,不吐一个字。论文的名字叫 *Unlocking the Working Memory of Large Language Models for Latent Reasoning*。他们给这个方法取名叫 RiM——在记忆中推理(Reasoning in Memory)。
---
| 项目 | 内容 |
|---|---|
| 论文标题 | Unlocking the Working Memory of Large Language Models for Latent Reasoning |
| 作者 | Lukas Aichberger, Sepp Hochreiter |
| 机构 | Johannes Kepler University Linz (JKU Linz), ELLIS Unit Linz |
| arXiv ID | 2605.30343 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.CL |
| 核心贡献 | 提出 RiM(Reasoning in Memory),用"记忆块"(memory block)替代自回归思维链生成;两阶段课程学习——先让模型学会显式推理,再让推理内化;固定 token 序列单次前向传播,无需逐 token 生成,大幅提升推理的算力效率 |
1. 🧠 说出来的思考不是思考
当前 LLM 的推理范式有一个笨拙的默认设置:推理必须生成。
Chain-of-Thought 的每个中间步骤——"首先......"、"然后......"、"因此......"——都是一个个从模型嘴里呕出来的 token。每个 token 需要一次完整的前向传播。推理链条越长,token 越多,算力开销越大。一百步的数学证明,等于一百次的"自说自听"。
这个设计有它的便利——你可以看到模型是怎么想的。但它也有一个根本性的浪费:你把内部计算和外部通信强行焊在了一起。 模型不能"在心里算",只能"念出声来"。
人类的认知不这样。工作记忆(working memory)是一个内部的、无声的信息操作空间。你做心算、做推理、做计划,都不需要把每个中间步骤说出来。你只是在脑子里"抓"住几个数字,"转"几下,"放"下结果。整个过程只消耗脑力,不消耗口舌。
Aichberger 和 Hochreiter 要做的事,就是把这个"内部无声空间"还给 LLM。
---
2. 🔑 记忆块:一把打开内部空间的钥匙
RiM 的核心操作是一个叫记忆块(memory block)的东西。
一个记忆块是这样的:一段固定长度的特殊 token 序列。它不是生成的——它是预设的。比如说,连续 16 个 [MEM] token。这些 token 没有语义内容,不和自然语言对应,它们的作用纯粹是触发——像一把钥匙插进锁孔,转一下,门开了。
门后面是什么?是模型内部的注意力层和 MLP 层。当这 16 个 [MEM] token 被送进模型,模型在一个前向传播里处理它们——不是 16 次自回归,是一次。在这一步中,模型的内在运算可以操作信息、比较假设、消歧、推导——不需要生成任何中间文本。
推理完成后,模型才生成答案。
打个比方:传统的 CoT 像一个棋手每一步都把走法念出来,让裁判确认后再走下一步。RiM 像一个棋手盯着棋盘,在心里推演三步,然后直接落子。推演的过程不用报给任何人。
---
3. 📖 两阶段课程:先出声,再闭嘴
最有意思的部分不是记忆块本身,而是训练方式。
你不能直接告诉模型"别出声,在心里算"——它不知道什么叫"在心里算"。所以 RiM 用了一个两阶段的课程学习:
第一阶段:出声思考。 在每个记忆块之后,模型必须预测显式的推理步骤。比如"记忆块 1"后面要说出"首先,把 37 × 48 分解为 37 × (50-2)"。这个阶段让记忆块和推理的逻辑结构建立联系——记忆块学会了"代表"一段推理。
第二阶段:闭嘴思考。 训练者丢掉步骤级别的监督信号。不再要求模型在记忆块后生成推理文本。只要求最终答案正确。记忆块之间发生了什么?模型自己决定。它可以用注意力层重构信息,可以用 MLP 层做非线性变换,可以(可能是)在隐空间中完成与显式推理等价的计算——没有任何一条规则规定它必须怎么做。
这很像人类的学习过程。小孩子做数学题,要念出声来:"三加五等于......八!" 长大以后呢?不念了。但脑子里的运算还在发生。RiM 的两个阶段,恰好复刻了这个"从外化到内化"的认知发展路径。
---
4. ⚡ 算力效率的逻辑
记忆块的效率来源于一个简单的算术事实。
传统 CoT:假设一次推理需要 200 个推理 token。每个 token 的自回归生成需要在前一层 token 生成后才能开始。200 个 token = 200 次串行的前向传播。
RiM:同样 200 个"推理单元"——如果每个记忆块有 16 个特殊 token,一个前向传播处理一整块。200 / 16 ≈ 13 个记忆块 = 13 次前向传播。而且记忆块之间也可能有并行化的空间。
论文没有给出一个"RiM 比 CoT 快 N 倍"的简单数字——因为效率提升取决于记忆块的长度和推理的复杂度。但方向是明确的:把自回归的串行变成成块的前向传播,推掉了推理的算力瓶颈。
更重要的是,记忆块是固定的。一个 [MEM] 序列不依赖任何上下文——它是预设的、可缓存的、可预计算的。这打开了进一步的优化空间:如果记忆块在所有推理任务中通用,它们就能被预先计算,完全省去生成的开销。
---
5. 📊 跨模型、跨规模的泛化
论文在多个模型家族和规模上做了测试。关键结论是:RiM 匹配或超越了现有的隐推理方法(如 COCONUT 等隐空间推理方案),且适用于不同的模型家族。
这意味着隐推理不是一个特定架构的噱头。它是一个可以被训练出来的能力——只要用对了训练策略。模型不需要被重新设计,不需要修改 Transformer 架构;只需要给模型一组固定的记忆块,以及一个两阶段的课程。
Lukas Aichberger 之前在 JKU Linz 的工作就涉及隐推理和概念向量。这次与 Sepp Hochreiter 的合作,进一步把这个方向推进到了系统化和可复现的阶段。
Sepp Hochreiter 的名字在这个语境里并非巧合。1997 年,Hochreiter 和 Schmidhuber 发明了 LSTM——第一个真正拥有长期记忆的神经网络架构。LSTM 的门控机制(输入门、遗忘门、输出门)就是神经网络最早的"工作记忆":一个可以读写、可以遗忘、可以保护信息的内部存储。29 年后,Hochreiter 又一次在给神经网络赋予记忆——这一次不是架构内置的存储,而是通过训练解锁的隐式记忆能力。
从 LSTM 到 RiM,是记忆机制的谱系从"硬件"走向"软件"——从门控电路走向可训练的隐空间。
---
6. ❓ 诚实的盲区
这篇文章有值得兴奋的理由,也有需要冷静的地方。以下是我看不清的部分——
记忆块里到底在发生什么? RiM 证明了记忆块可以让模型更高效地推理,但没有解开记忆块内部的计算。它是像 CoT 那样做了"隐式的逻辑推导",还是更像一种"模式匹配后的答案检索"?两者的区别很重要——如果是后者,RiM 不是"隐推理",而是"有结构的快思考"。
多长的推理可以用记忆块? 论文测试了标准的数学推理基准。但如果推理需要 50 步、100 步——远超记忆块能容纳的信息量——模型需要多个记忆块之间的信息传递。这个信息传递是否可靠?会不会像传话游戏一样,每一步都丢失一些精度?
记忆块是否跨任务通用? 如果记忆块的内部表示严重依赖训练任务的分布(比如全是数学题),迁移到完全不同的推理领域(比如法律推理、医学诊断)时,记忆块是"可复用的模块"还是"过拟合的残渣"?
推理质量 vs CoT? 论文说 RiM "匹配或超越"现有隐推理方法。但它是否匹配显式 CoT 的推理质量?尤其是对于最难的、需要多步骤精确推导的问题——CoT 的显式步骤让你可以看到模型在哪里走错了。RiM 的隐空间推理如果出错,你不知道错在哪一步、为什么错。
这些问题不是质疑——它们是目前任何隐推理方法都面临的开放挑战。论文本身没有回避这些问题。它更像是在打开一扇门,让人看到门后面有一个巨大的、尚未探索的房间。
---
7. 🏁 思考的本质
这篇论文提出了一个让我反复琢磨的问题:思考的本质是什么?
如果思考是可以被"不出声地完成的"——那思考就不是语言。CoT 范式隐含的假设是"推理 ≈ 文本",所以最好的推理方式就是生成最多的推理文本。RiM 破坏了这个假设。它证明推理可以在无声的隐空间中进行,而且可以更高效。
这反过来也能解释 CoT 为什么有时会失败:不是因为模型"不会推理",而是因为模型被锁定在"必须把推理转写成语言"的瓶颈里,语言的歧义、冗余、语法结构都在干扰纯粹的推理运算。
把推理从语言中解放出来——这就是 RiM 真正的野心。
它对模型评估也有微妙的影响。如果一个模型用 13 个记忆块推理,只输出最终答案——你怎么知道它"真的想过了"?你只能验证答案对不对。但这就回到了一个古老的认知问题:你只能通过外部行为推断内部状态。 人类"在想"这件事,至今也是从外部行为推断的——别人是否"想过了",你永远只能通过他给出的答案来判断。
RiM 没有回答"什么是思考"。但它把一个更紧迫的问题钉在了墙上:LLM 的推理,到底需不需要必须念出声来?
---
> | 项目 | 内容 | > |------|------| > | 论文标题 | Unlocking the Working Memory of Large Language Models for Latent Reasoning | > | 作者 | Lukas Aichberger, Sepp Hochreiter (JKU Linz, ELLIS Unit Linz) | > | arXiv ID | 2605.30343 | > | 分类 | cs.CL | > | 核心贡献 | (1) 提出 RiM,用固定的"记忆块"替代自回归的思维链生成,实现隐空间推理;(2) 设计两阶段课程学习——先让记忆块对应显式推理步骤(阶段一),再丢掉步骤监督让推理内化(阶段二);(3) 记忆块在单次前向传播中处理,显著降低推理的算力开销;(4) 跨模型家族和规模验证泛化性——匹配或超越现有隐推理方法 | > | 关键局限 | 记忆块内部计算不可解释;长链推理的信息传递保真度未验证;记忆块的跨领域迁移能力未知;隐推理质量与显式 CoT 在极难问题上的对比未充分评估;隐推理的纠错和调试机制尚未建立 |
参考文献: 1. Aichberger & Hochreiter, "Unlocking the Working Memory of Large Language Models for Latent Reasoning", arXiv:2605.30343, 2026. 2. Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022. 3. Hao et al., "Training Large Language Models to Reason in a Continuous Latent Space" (COCONUT), arXiv:2412.06769, 2024. 4. Hochreiter & Schmidhuber, "Long Short-Term Memory", Neural Computation, 1997. 5. Baddeley, "Working Memory", Science, 1992.
#隐推理 #工作记忆 #LLM推理 #思维链替代 #记忆块 #RiM #算力效率 #智柴