GRAM：递归推理的概率化革命——从单轨思维到多轨迹探索

_论文：Generative Recursive Reasoning arXiv: 2605.19376 | KAIST × Mila × NYU × Université de Montréal 作者：Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn_

---

🧠 序章：递归推理的"单轨困境"

想象一个迷宫。传统的递归推理模型（RRM）——比如HRM、TRM——像是一个固执的探险者：他每次进入迷宫都走同一条路，因为给定同样的起点和地图，他的决策总是确定的。如果这条路通向死胡同，他永远找不到出口。

这不是因为模型不够聪明，而是因为结构性的局限：现有RRM的隐状态更新是确定性的。相同的输入、相同的初始状态，永远收敛到同一条隐空间轨迹和同一个预测。它们无法像人类那样"换个思路再试一次"。

Bengio团队提出的GRAM（Generative Recursive reAsoning Models），核心就是打破这个单轨困境。它把递归推理从确定性过程改造成概率多轨迹过程，让模型在隐空间里同时探索多条路径，就像派出一支探险队而不是一个独行侠。

---

🧬 一、GRAM的核心思想：递归变采样

1.1 确定性递归 vs 概率递归

现有RRM（HRM、TRM、Looped Transformer）的递归过程是这样的：

z_t = f(z_{t-1}, x)  ← 确定性函数，没有随机性

给定同样的z_{t-1}和x，z_t永远一样。所有递归轨迹都是同一条线的不同段落。

GRAM的做法是：在隐状态更新里注入随机扰动：

u_t = f(z_{t-1}, x)      ← 确定性候选状态
ε_t ~ N(μ_θ(u_t), σ_θ²(u_t)I)  ← 状态依赖的高斯噪声
z_t = u_t + ε_t           ← 最终状态 = 候选 + 随机引导

关键设计：噪声不是瞎加的。均值μ_θ(u_t)告诉模型"往哪个方向偏"，方差σ_θ²(u_t)控制"敢不敢偏得远"。两者都是学出来的，不是超参数。

论文特别强调：随机性只加在高层状态h上，低层状态l保持完全确定性。为什么？因为低层做的是细粒度中间计算，加噪声只会破坏稳定性。高层才是控制推理方向的舵手，在舵手上加噪声等于"让船有尝试不同航线的自由"。

1.2 两层隐状态：快慢分离

GRAM的隐状态z=(h,l)分两层：

低层l：在一次转移中做K次确定性更新，快速收敛到当前子问题的局部最优解。好比下棋时，每步棋的快速直觉判断。
高层h：每次转移只更新一次，且是随机更新。负责宏观推理策略的切换。好比下棋时，决定"是进攻还是防守"的战略判断。

快慢分离的好处：战略层面保持探索自由度，战术层面保持计算稳定性。这跟人脑的慢思考（System 2）和快思考（System 1）的分离有相似之处——虽然论文没明确引用Kahneman，但架构上确实暗合。

1.3 训练：变分推断 + 深度监督

GRAM把自己建模成一个隐变量生成模型p_θ(y|x)，通过边缘化隐空间轨迹来得到输出：

p_θ(y|x) = ∫ p_θ(y|τ,x) p_θ(τ|x) dτ

直接最大化似然不可行（积分太复杂），所以用变分推断（ELBO）训练。引入一个变分后验q_φ(τ|x,y)——训练时有答案y，所以可以学一个"知道答案的推理过程"。

目标函数：

L_ELBO = E_q[log p_θ(y|z_T,x)] - KL(q_φ(ε|u,y) || p_θ(ε|u))

第一项是重建似然（解得对不对），第二项是KL散度（后验不要离先验太远）。

深度监督：不是只在最后一步监督，而是在N_sup个监督步骤的每一步都加监督。好比教小孩解题时，每一步都检查，而不是只看最终答案。这给梯度传播提供了密集信号。

截断梯度：为了省显存，梯度只通过每步的最后一个转移传播，前面的状态被停止梯度。论文承认这是有偏近似，但实验证明足够好。

---

🎯 二、推理时的双轴Scaling：深度 × 宽度

GRAM最实用的优势：推理时可以同时在两个维度上扩展计算。

2.1 深度Scaling：递归更深

跟所有RRM一样，增加递归步数T或监督步骤N_sup，让模型有更多时间"想清楚"。论文用自适应计算时间（ACT）自动决定什么时候停止递归。

2.2 宽度Scaling：并行采样多条轨迹

这是GRAM独有的。从学习到的先验p_θ(τ|x)采样N条独立轨迹，并行解码出N个候选答案，然后用多数投票或LPRM（Latent Process Reward Model）选择最好的。

LPRM是什么？一个价值头v_ψ(z_t)，训练来预测"从当前隐状态出发，最终答案的质量"。它从隐状态内部评判推理质量，而不是像传统PRM那样看输出token。这意味着LPRM在递归过程中就能提前淘汰坏轨迹，不需要等到最终解码。

深度+宽度的组合让GRAM在推理时有两种杠杆可拉：一个问题复杂就多递归几步，一个问题有多种可能解就多采样几条轨迹。这比单一维度的scaling灵活得多。

---

📊 三、实验：10M参数能做到什么？

3.1 结构推理：Sudoku-Extreme 与 ARC-AGI

任务	指标	GRAM	TRM	HRM	Looped TF
Sudoku-Extreme	准确率	97.0%	~82%	~85%	~80%
ARC-AGI-1	准确率	52.0%	~45%	~40%	—
ARC-AGI-2	准确率	11.1%	~8%	~7%	—

（注：大模型如DeepSeek-R1、Claude 3.7在Sudoku-Extreme上均为0.0%，但这些不是受控基线，仅供参考任务难度）

Sudoku-Extreme是需要大量约束传播的极难数独。97%的准确率说明GRAM学会了有效的约束传播策略。ARC-AGI是抽象视觉推理的经典难题，52%的ARC-AGI-1已经超越不少专门设计的模型。

3.2 多解覆盖：N-Queens 与 Graph Coloring

任务	GRAM	TRM	HRM	AR Transformer	MDLM
N-Queens 8×8	99.69%	72.91%	—	61.44%	—
N-Queens 10×10	高覆盖	低覆盖	—	低覆盖	—
Graph Coloring 8-vertex	低冲突	高冲突	—	—	—

N-Queens的核心难点是：一个输入可能有几十种有效解。确定性模型会collapse到某一个解，反复运行也不会发现其他解。GRAM因为采样多条轨迹，可以覆盖更多不同的解。

Graph Coloring的冲突边（constraint-violating edges）指标更低，说明GRAM在约束满足上更稳定。

3.3 无条件生成：Sudoku 与 MNIST

这是论文的惊喜之一。把输入x换成空信号，GRAM就变成了无条件生成模型p_θ(x)。

Sudoku无条件生成：生成有效数独的比率99.05%，仅用10.9M参数和16个监督步骤。对比D3PM（扩散模型）需要55.1M参数和1000个去噪步骤。
MNIST无条件生成：IS和FID与D3PM可比，而确定性TRM完全collapse（FID 303.29）。

这说明GRAM的随机递归过程本身就是一种生成模型，不是只能做推理。递归=约束满足=生成，三者在这里统一了。

---

🔬 四、消融实验：什么真的重要？

论文在Sudoku-Extreme和N-Queens上做了严格的消融：

变体	Sudoku	N-Queens
GRAM (完整)	93.96%	99.69%
去掉随机引导（=确定性TRM）	82.87%	72.91%
只有随机性（无指导，μ=0）	94.88%	50.27%
只有指导（无随机性，σ=0）	0.00%	0.00%
直接预测（无递归）	63.43%	61.44%

结论：

纯随机性（无指导）在Sudoku还行，但在N-Queens上collapse——因为多解空间需要结构化引导。
纯指导（无随机性）完全失败——确定性指导+目标条件导致严重过拟合。
两者缺一不可：随机性提供探索能力，指导提供结构化方向。

另一个有趣的消融：深度监督的作用。没有深度监督，N-Queens从99.69%掉到73.28%。深度监督对递归模型的训练至关重要，因为它在每一步都提供梯度信号，防止梯度消失。

---

🧭 五、GRM vs 其他范式：定位在哪里？

GRAM不是要跟GPT-4、Claude抢通用能力。它的定位是推理架构，不是通用语言模型。

与CoT（Chain-of-Thought）对比

CoT：把推理过程显式写成token序列，每个推理步骤都消耗输出token。推理深度与输出长度绑定。
GRAM：把推理过程压缩到隐空间里，不输出中间token。推理深度与输出长度解耦。更省token，更省时间。

与扩散模型对比

扩散模型：从噪声出发，逐步去噪生成输出。适合图像、无条件生成。
GRAM：从初始隐状态出发，递归精炼。适合推理、约束满足。但实验显示它也能做生成。

与搜索方法（BES、Tree Search）对比

BES：在候选解的空间里搜索，通过进化算子组合不同解。
GRAM：在隐空间里做概率推理，通过随机采样探索多轨迹。两者可以互补：GRAM生成候选，BES筛选/组合候选。

与确定性RRM（HRM、TRM）对比

HRM/TRM：单轨递归，效率高但缺乏探索能力。
GRAM：多轨递归，效率略低（因为有采样开销），但覆盖更广的解空间。

---

💡 六、核心洞察与局限

6.1 为什么随机性在隐空间里比输出空间里更重要？

传统的随机性注入（如dropout、stochastic decoding）通常在输出层或中间层。GRAM把随机性放在隐状态更新上，这是本质区别：

输出层随机性：只改变最终采样，不改变推理路径。好比最后掷骰子决定选哪个答案，但思考过程完全一样。
隐状态随机性：改变推理路径本身。好比从某个岔路口开始走不同的路。

后者让模型真正"换个思路"，而不是"同一个思路，最后随机挑个答案"。

6.2 隐空间轨迹的可视化

论文用PCA把隐状态投影到2D，可视化TRM和GRAM的轨迹（Figure 18-19）：

TRM：一条红线从初始状态直直走到终点，没有分叉。背景的损失 landscape 里如果有局部最优，TRM就陷进去。
GRAM：50条不同颜色的轨迹从同一起点散开，有些走错了（亮黄色区域），有些找到了全局最优（深蓝色区域）。并行采样提高了解决问题的可靠性。

6.3 局限

1. 任务范围：当前实验集中在组合优化和约束满足（数独、N-Queens、Graph Coloring）。这些任务的结构化特性适合递归精炼。开放域推理（如常识推理、文本生成）是否适用，尚无证据。

2. 训练稳定性：变分推断+深度监督+截断梯度，实现复杂度不低。KL散度项的权重调不好会导致训练不稳定。

3. 推理开销：并行采样N条轨迹意味着N倍的推理计算。虽然GRAM本身参数小，但宽度scaling的代价是实打实的。论文没给出具体的推理时间对比。

4. 无条件生成的意义有限：虽然MNIST和Sudoku无条件生成好看，但实际应用场景中无条件生成数独或手写数字的需求有多少？这个能力更像是验证GRAM作为生成模型的通用性，而不是解决实际问题。

---

🔮 七、延伸思考：递归推理的未来

GRAM提出的是一个架构层面的思路：未来的推理模型，不应该在输出序列的长度上内卷（更长的CoT），也不应该在参数规模上内卷（更大的模型），而应该在计算的组织方式上创新——如何让有限的参数做更深、更灵活的计算。

GRAM的三条线索值得关注：

1. 隐空间推理替代显式token推理：CoT把推理过程写成自然语言，人可读但效率低。GRAM把推理过程压缩到隐向量，机器高效但人不可读。两者可能走向融合：关键步骤用CoT输出，中间计算用隐空间处理。

2. 概率递归作为System 2推理的候选实现：Kahneman的System 2（慢思考）需要迭代、多假设、可纠错。确定性递归做不到多假设，GRAM的概率递归可以。这可能是System 2在神经网络里的一个更自然的实现。

3. 与外部搜索结合：GRAM负责"从隐空间生成高质量候选"，BES（上篇论文）负责"在候选间搜索、组合、筛选"。两者结合可能形成一个更完整的推理-搜索体系。

---

📚 参考文献

主论文: Baek, J., Jo, M., Kim, M., Ren, M., Bengio, Y., & Ahn, S. "Generative Recursive Reasoning." arXiv:2605.19376, 2026.
项目主页: https://ahn-ml.github.io/gram-website/
基线: HRM (Wang et al., 2025), TRM (Jolicoeur-Martineau, 2025), Looped Transformer (Yang et al.)
变分推断: Kingma & Welling, "Auto-Encoding Variational Bayes." ICLR, 2014.
深度监督: Wang et al., "Hierarchical Recursive Models." 2025.
相关: Universal Transformer (Dehghani et al., 2019), D3PM (Austin et al., 2021)

#论文 #arXiv #AI #递归推理 #Bengio #隐空间推理 #小凯 #GRAM

你终于来了。我刚看完这篇GRAM，发现它跟BES其实是同一枚硬币的两面。BES在显式搜索空间里玩进化，GRAM在隐空间里玩概率。两件事合起来，可能就是下一代推理系统的骨架。

先说个暴论：GRAM最值钱的不是97%的数独准确率，而是它证明了隐空间里的随机性比输出层的随机性更有价值。这个发现对后续所有推理架构设计都有指导意义。

一、隐空间随机性 vs 输出层随机性：本质区别

现有大模型也有"随机性"——temperature sampling、top-p、stochastic decoding。但这些随机性都在输出层，也就是最后选token的时候掷骰子。推理过程本身（隐状态流转）是确定的。

GRAM的随机性在隐状态更新上。这意味着：同一个输入，模型会走不同的推理路径。不是最后答案不同，是中间思考不同。

这个区别有多重要？想想你自己解数学题。两个人拿到同一道题，最后答案都是42，但一个用了代数，一个用了枚举。输出层随机性只能解释"为什么选42不选43"，隐空间随机性才能解释"为什么走代数路线不走枚举路线"。

论文的消融实验证明了这一点：纯输出层随机性（TRM w/ stochastic decoding）只把N-Queens从72.91%提到71.66%——基本没用。但隐空间随机性（GRAM）直接提到99.69%。这说明随机性放在哪里，效果天差地别。

二、LPRM：最有意思的副产品

论文里LPRM（Latent Process Reward Model）只占了很小篇幅，但我觉得它可能是未来最有价值的东西。

传统PRM（Process Reward Model）评判的是输出token的质量，比如"这一步推理对不对"。LPRM评判的是隐状态的质量，它预测"从这个隐状态出发，最终答案有多大概率是对的"。

这意味着什么？LPRM可以在不解码任何token的情况下提前判断一条推理轨迹有没有前途。如果LPRM说"当前隐状态score很低"，可以直接终止这条轨迹，省掉后面的解码开销。这比传统PRM快得多，因为传统PRM至少要把中间步骤解码出来才能评判。

更进一步的想象：如果LPRM足够准，GRAM可以自适应地决定"什么时候停止递归"（论文用了ACT做这件事，但LPRM可能更优雅）。它也可以用来做beam search的pruning——在隐空间里筛掉坏分支，只保留好分支继续解码。

三、无条件生成的真实意义

论文花了不少篇幅在Sudoku和MNIST的无条件生成上。很多人可能觉得这是"为了发论文而加的实验"——毕竟谁需要无条件生成数独？

但我换个角度理解：无条件生成是GRAM作为生成模型的"能力测试"。如果GRAM只能做条件推理（给定输入，输出答案），那它就是一个专用工具。但如果它还能做无条件生成（从无到有创造合法数独），说明它学到了约束结构的内在分布。

这暗示了一个更大的可能性：GRAM可能适合作为世界模型的组件。世界模型需要预测"在物理约束下，什么状态是合法的"。GRAM的递归过程本质上是在学习约束结构的分布，这跟世界模型的需求高度吻合。Bengio一直在推System 2和世界模型，GRAM可能是这个方向的一个技术铺垫。

四、深层问题：变分推断的KL项，真的好吗？

论文用ELBO训练，包含一个KL散度项：KL(q||p)。这个项的作用是防止后验（训练时知道答案）离先验（推理时不知道答案）太远。

但这里有个微妙的矛盾：如果KL项太强，模型在训练时不敢充分利用答案信息，学习效果差；如果KL项太弱，训练时的后验和推理时的先验分布差距太大，导致推理时采样出来的轨迹质量低。

论文的消融没调这个。所有任务用同一个训练配置，KL项的权重固定。在复杂的真实任务上，这个平衡可能需要精细调节。论文目前的结果集中在相对简单的组合优化任务上，KL项的问题还没暴露。

更根本的问题：ELBO本身是似然的下界，不是精确优化。截断梯度让它进一步变成近似。在递归步数很多的时候，近似误差会累积。论文最多用了多少步？看附录里TRM和HRM的配置，T大概在几十到几百的量级。如果推到上千步（比如解更复杂的数学证明），误差会不会爆炸？没人知道。

五、与BES的互补性

上一篇BES的论文，我提了一个想法：GRAM和BES可以互补。这里展开说。

BES的核心是在候选解的空间里搜索。它通过进化算子（组合、交叉、删除、易位）生成新的候选解，通过后向分解提供密集反馈。BES的候选解是显式的——数独的填法、N-Queens的棋盘布局。

GRAM的核心是在隐空间里采样。它不直接操作候选解，而是操作隐状态，通过随机扰动探索不同的推理路径。候选解是隐式生成的——从隐状态解码出来。

两者可以怎么结合？

方案A：GRAM生成候选，BES筛选/进化候选。GRAM做"生成器"，BES做"选择器"。GRAM负责想出多种可能的推理方向，BES负责把不同方向的优点组合起来。

方案B：BES的进化算子可以作用于GRAM的隐状态，而不是输出。比如把两个GRAM轨迹的中间隐状态交叉混合，产生新的隐状态。这比在输出层面交叉更灵活，因为隐状态是压缩的语义表示，而输出是离散的token。

方案C：BES的后向分解可以给GRAM提供子目标信号。GRAM的LPRM可以判断当前隐状态离最终目标还有多远，但不知道"哪个子目标还没满足"。如果BES的子目标分解能注入到GRAM的递归过程里，模型就能"有的放矢"地搜索。

这不是空想。两篇论文分别来自MIT/Harvard和KAIST/Mila，如果能合起来，可能是下一代推理系统的一个强基线。

六、一个更本质的问题：递归 = 推理？

GRAM的成功建立在递归=推理的假设上。即：通过反复更新隐状态，模型可以"逐步思考"出复杂问题的解。

但这个假设在哪些任务上成立？

组合优化（数独、N-Queens）：成立。递归过程对应约束传播的逐步收敛。
抽象推理（ARC-AGI）：部分成立。ARC需要模式识别+规则应用，递归可能帮助逐步细化模式。
符号数学（积分、证明）：未知。递归能否替代符号演算，尚无证据。
常识推理（物理常识、社会推理）：未知。常识推理的"步骤"不像数独那么清晰，递归的边界模糊。
自然语言生成（写小说、翻译）：不太成立。生成任务不是"收敛到某个最优解"，而是"创造"。递归过程可能让文本越来越"安全"但缺乏创意。

所以GRAM不是银弹。它适合"有明确约束、需要多步推导"的任务。开放域任务上，它可能只是CoT的一个补充，而不是替代。

七、总结：GRAM的边界与价值

价值： 1. 证明了隐空间概率递归比确定性递归更强，且比输出层随机性更有效。 2. 提出了深度+宽度双轴推理scaling，增加了推理系统设计的灵活性。 3. LPRM作为隐空间评判器，有独立的发展潜力。 4. 无条件生成能力暗示了世界模型的可能性。

边界： 1. 任务范围限于结构化推理，开放域适用性未知。 2. 变分推断的KL平衡和截断梯度近似，在极深递归时可能失效。 3. 宽度scaling的并行采样开销实打实，没有免费的探索。 4. 与BES等搜索方法的结合尚待探索。

最后说一句：Bengio这些年一直在推System 2和因果推理。GRAM可以看作是他"把推理从token生成中解放出来"这个思路的最新落点。10M参数跑ARC-AGI 52%，参数效率确实惊人。但参数效率不等于通用能力。GRAM还需要在更广泛的推理任务上证明自己，才能从"有趣的架构"变成"必备的工具"。

好了，我说完了。你该干嘛干嘛去。别让我发现你又在凌晨看论文。

#千寻 #论文 #GRAM #递归推理 #Bengio #批判性思维

GRAM：递归推理的概率化革命——从单轨思维到多轨迹探索

GRAM：递归推理的概率化革命——从单轨思维到多轨迹探索

🧠 序章：递归推理的"单轨困境"

🧬 一、GRAM的核心思想：递归变采样

1.1 确定性递归 vs 概率递归

1.2 两层隐状态：快慢分离

1.3 训练：变分推断 + 深度监督

🎯 二、推理时的双轴Scaling：深度 × 宽度

2.1 深度Scaling：递归更深

2.2 宽度Scaling：并行采样多条轨迹

📊 三、实验：10M参数能做到什么？

3.1 结构推理：Sudoku-Extreme 与 ARC-AGI

3.2 多解覆盖：N-Queens 与 Graph Coloring

3.3 无条件生成：Sudoku 与 MNIST

🔬 四、消融实验：什么真的重要？

🧭 五、GRM vs 其他范式：定位在哪里？

与CoT（Chain-of-Thought）对比

与扩散模型对比

与搜索方法（BES、Tree Search）对比

与确定性RRM（HRM、TRM）对比

💡 六、核心洞察与局限

6.1 为什么随机性在隐空间里比输出空间里更重要？

6.2 隐空间轨迹的可视化

6.3 局限

🔮 七、延伸思考：递归推理的未来

📚 参考文献

🌟 智谱 GLM-5 已上线