Loading...
正在加载...
请稍候

GRAM:递归推理的概率化革命——从单轨思维到多轨迹探索

QianXun (QianXun) 2026年06月01日 16:51

GRAM:递归推理的概率化革命——从单轨思维到多轨迹探索

论文:Generative Recursive Reasoning
arXiv: 2605.19376 | KAIST × Mila × NYU × Université de Montréal
作者:Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn


🧠 序章:递归推理的"单轨困境"

想象一个迷宫。传统的递归推理模型(RRM)——比如HRM、TRM——像是一个固执的探险者:他每次进入迷宫都走同一条路,因为给定同样的起点和地图,他的决策总是确定的。如果这条路通向死胡同,他永远找不到出口。

这不是因为模型不够聪明,而是因为结构性的局限:现有RRM的隐状态更新是确定性的。相同的输入、相同的初始状态,永远收敛到同一条隐空间轨迹和同一个预测。它们无法像人类那样"换个思路再试一次"。

Bengio团队提出的GRAM(Generative Recursive reAsoning Models),核心就是打破这个单轨困境。它把递归推理从确定性过程改造成概率多轨迹过程,让模型在隐空间里同时探索多条路径,就像派出一支探险队而不是一个独行侠。


🧬 一、GRAM的核心思想:递归变采样

1.1 确定性递归 vs 概率递归

现有RRM(HRM、TRM、Looped Transformer)的递归过程是这样的:

z_t = f(z_{t-1}, x)  ← 确定性函数,没有随机性

给定同样的z_{t-1}和x,z_t永远一样。所有递归轨迹都是同一条线的不同段落。

GRAM的做法是:在隐状态更新里注入随机扰动:

u_t = f(z_{t-1}, x)      ← 确定性候选状态
ε_t ~ N(μ_θ(u_t), σ_θ²(u_t)I)  ← 状态依赖的高斯噪声
z_t = u_t + ε_t           ← 最终状态 = 候选 + 随机引导

关键设计:噪声不是瞎加的。均值μ_θ(u_t)告诉模型"往哪个方向偏",方差σ_θ²(u_t)控制"敢不敢偏得远"。两者都是学出来的,不是超参数。

论文特别强调:随机性只加在高层状态h上,低层状态l保持完全确定性。为什么?因为低层做的是细粒度中间计算,加噪声只会破坏稳定性。高层才是控制推理方向的舵手,在舵手上加噪声等于"让船有尝试不同航线的自由"。

1.2 两层隐状态:快慢分离

GRAM的隐状态z=(h,l)分两层:

  • 低层l:在一次转移中做K次确定性更新,快速收敛到当前子问题的局部最优解。好比下棋时,每步棋的快速直觉判断。
  • 高层h:每次转移只更新一次,且是随机更新。负责宏观推理策略的切换。好比下棋时,决定"是进攻还是防守"的战略判断。

快慢分离的好处:战略层面保持探索自由度,战术层面保持计算稳定性。这跟人脑的慢思考(System 2)和快思考(System 1)的分离有相似之处——虽然论文没明确引用Kahneman,但架构上确实暗合。

1.3 训练:变分推断 + 深度监督

GRAM把自己建模成一个隐变量生成模型p_θ(y|x),通过边缘化隐空间轨迹来得到输出:

p_θ(y|x) = ∫ p_θ(y|τ,x) p_θ(τ|x) dτ

直接最大化似然不可行(积分太复杂),所以用变分推断(ELBO)训练。引入一个变分后验q_φ(τ|x,y)——训练时有答案y,所以可以学一个"知道答案的推理过程"。

目标函数:

L_ELBO = E_q[log p_θ(y|z_T,x)] - KL(q_φ(ε|u,y) || p_θ(ε|u))

第一项是重建似然(解得对不对),第二项是KL散度(后验不要离先验太远)。

深度监督:不是只在最后一步监督,而是在N_sup个监督步骤的每一步都加监督。好比教小孩解题时,每一步都检查,而不是只看最终答案。这给梯度传播提供了密集信号。

截断梯度:为了省显存,梯度只通过每步的最后一个转移传播,前面的状态被停止梯度。论文承认这是有偏近似,但实验证明足够好。


🎯 二、推理时的双轴Scaling:深度 × 宽度

GRAM最实用的优势:推理时可以同时在两个维度上扩展计算。

2.1 深度Scaling:递归更深

跟所有RRM一样,增加递归步数T或监督步骤N_sup,让模型有更多时间"想清楚"。论文用自适应计算时间(ACT)自动决定什么时候停止递归。

2.2 宽度Scaling:并行采样多条轨迹

这是GRAM独有的。从学习到的先验p_θ(τ|x)采样N条独立轨迹,并行解码出N个候选答案,然后用多数投票或**LPRM(Latent Process Reward Model)**选择最好的。

LPRM是什么?一个价值头v_ψ(z_t),训练来预测"从当前隐状态出发,最终答案的质量"。它从隐状态内部评判推理质量,而不是像传统PRM那样看输出token。这意味着LPRM在递归过程中就能提前淘汰坏轨迹,不需要等到最终解码。

深度+宽度的组合让GRAM在推理时有两种杠杆可拉:一个问题复杂就多递归几步,一个问题有多种可能解就多采样几条轨迹。这比单一维度的scaling灵活得多。


📊 三、实验:10M参数能做到什么?

3.1 结构推理:Sudoku-Extreme 与 ARC-AGI

任务 指标 GRAM TRM HRM Looped TF
Sudoku-Extreme 准确率 97.0% ~82% ~85% ~80%
ARC-AGI-1 准确率 52.0% ~45% ~40%
ARC-AGI-2 准确率 11.1% ~8% ~7%

(注:大模型如DeepSeek-R1、Claude 3.7在Sudoku-Extreme上均为0.0%,但这些不是受控基线,仅供参考任务难度)

Sudoku-Extreme是需要大量约束传播的极难数独。97%的准确率说明GRAM学会了有效的约束传播策略。ARC-AGI是抽象视觉推理的经典难题,52%的ARC-AGI-1已经超越不少专门设计的模型。

3.2 多解覆盖:N-Queens 与 Graph Coloring

任务 GRAM TRM HRM AR Transformer MDLM
N-Queens 8×8 99.69% 72.91% 61.44%
N-Queens 10×10 高覆盖 低覆盖 低覆盖
Graph Coloring 8-vertex 低冲突 高冲突

N-Queens的核心难点是:一个输入可能有几十种有效解。确定性模型会collapse到某一个解,反复运行也不会发现其他解。GRAM因为采样多条轨迹,可以覆盖更多不同的解。

Graph Coloring的冲突边(constraint-violating edges)指标更低,说明GRAM在约束满足上更稳定。

3.3 无条件生成:Sudoku 与 MNIST

这是论文的惊喜之一。把输入x换成空信号,GRAM就变成了无条件生成模型p_θ(x)。

  • Sudoku无条件生成:生成有效数独的比率99.05%,仅用10.9M参数和16个监督步骤。对比D3PM(扩散模型)需要55.1M参数和1000个去噪步骤。
  • MNIST无条件生成:IS和FID与D3PM可比,而确定性TRM完全collapse(FID 303.29)。

这说明GRAM的随机递归过程本身就是一种生成模型,不是只能做推理。递归=约束满足=生成,三者在这里统一了。


🔬 四、消融实验:什么真的重要?

论文在Sudoku-Extreme和N-Queens上做了严格的消融:

变体 Sudoku N-Queens
GRAM (完整) 93.96% 99.69%
去掉随机引导(=确定性TRM) 82.87% 72.91%
只有随机性(无指导,μ=0) 94.88% 50.27%
只有指导(无随机性,σ=0) 0.00% 0.00%
直接预测(无递归) 63.43% 61.44%

结论

  • 纯随机性(无指导)在Sudoku还行,但在N-Queens上collapse——因为多解空间需要结构化引导。
  • 纯指导(无随机性)完全失败——确定性指导+目标条件导致严重过拟合。
  • 两者缺一不可:随机性提供探索能力,指导提供结构化方向。

另一个有趣的消融:深度监督的作用。没有深度监督,N-Queens从99.69%掉到73.28%。深度监督对递归模型的训练至关重要,因为它在每一步都提供梯度信号,防止梯度消失。


🧭 五、GRM vs 其他范式:定位在哪里?

GRAM不是要跟GPT-4、Claude抢通用能力。它的定位是推理架构,不是通用语言模型

与CoT(Chain-of-Thought)对比

  • CoT:把推理过程显式写成token序列,每个推理步骤都消耗输出token。推理深度与输出长度绑定。
  • GRAM:把推理过程压缩到隐空间里,不输出中间token。推理深度与输出长度解耦。更省token,更省时间。

与扩散模型对比

  • 扩散模型:从噪声出发,逐步去噪生成输出。适合图像、无条件生成。
  • GRAM:从初始隐状态出发,递归精炼。适合推理、约束满足。但实验显示它也能做生成。

与搜索方法(BES、Tree Search)对比

  • BES:在候选解的空间里搜索,通过进化算子组合不同解。
  • GRAM:在隐空间里做概率推理,通过随机采样探索多轨迹。两者可以互补:GRAM生成候选,BES筛选/组合候选。

与确定性RRM(HRM、TRM)对比

  • HRM/TRM:单轨递归,效率高但缺乏探索能力。
  • GRAM:多轨递归,效率略低(因为有采样开销),但覆盖更广的解空间。

💡 六、核心洞察与局限

6.1 为什么随机性在隐空间里比输出空间里更重要?

传统的随机性注入(如dropout、stochastic decoding)通常在输出层或中间层。GRAM把随机性放在隐状态更新上,这是本质区别:

  • 输出层随机性:只改变最终采样,不改变推理路径。好比最后掷骰子决定选哪个答案,但思考过程完全一样。
  • 隐状态随机性:改变推理路径本身。好比从某个岔路口开始走不同的路。

后者让模型真正"换个思路",而不是"同一个思路,最后随机挑个答案"。

6.2 隐空间轨迹的可视化

论文用PCA把隐状态投影到2D,可视化TRM和GRAM的轨迹(Figure 18-19):

  • TRM:一条红线从初始状态直直走到终点,没有分叉。背景的损失 landscape 里如果有局部最优,TRM就陷进去。
  • GRAM:50条不同颜色的轨迹从同一起点散开,有些走错了(亮黄色区域),有些找到了全局最优(深蓝色区域)。并行采样提高了解决问题的可靠性。

6.3 局限

  1. 任务范围:当前实验集中在组合优化和约束满足(数独、N-Queens、Graph Coloring)。这些任务的结构化特性适合递归精炼。开放域推理(如常识推理、文本生成)是否适用,尚无证据。

  2. 训练稳定性:变分推断+深度监督+截断梯度,实现复杂度不低。KL散度项的权重调不好会导致训练不稳定。

  3. 推理开销:并行采样N条轨迹意味着N倍的推理计算。虽然GRAM本身参数小,但宽度scaling的代价是实打实的。论文没给出具体的推理时间对比。

  4. 无条件生成的意义有限:虽然MNIST和Sudoku无条件生成好看,但实际应用场景中无条件生成数独或手写数字的需求有多少?这个能力更像是验证GRAM作为生成模型的通用性,而不是解决实际问题。


🔮 七、延伸思考:递归推理的未来

GRAM提出的是一个架构层面的思路:未来的推理模型,不应该在输出序列的长度上内卷(更长的CoT),也不应该在参数规模上内卷(更大的模型),而应该在计算的组织方式上创新——如何让有限的参数做更深、更灵活的计算。

GRAM的三条线索值得关注:

  1. 隐空间推理替代显式token推理:CoT把推理过程写成自然语言,人可读但效率低。GRAM把推理过程压缩到隐向量,机器高效但人不可读。两者可能走向融合:关键步骤用CoT输出,中间计算用隐空间处理。

  2. 概率递归作为System 2推理的候选实现:Kahneman的System 2(慢思考)需要迭代、多假设、可纠错。确定性递归做不到多假设,GRAM的概率递归可以。这可能是System 2在神经网络里的一个更自然的实现。

  3. 与外部搜索结合:GRAM负责"从隐空间生成高质量候选",BES(上篇论文)负责"在候选间搜索、组合、筛选"。两者结合可能形成一个更完整的推理-搜索体系。


📚 参考文献

  • 主论文: Baek, J., Jo, M., Kim, M., Ren, M., Bengio, Y., & Ahn, S. "Generative Recursive Reasoning." arXiv:2605.19376, 2026.
  • 项目主页: https://ahn-ml.github.io/gram-website/
  • 基线: HRM (Wang et al., 2025), TRM (Jolicoeur-Martineau, 2025), Looped Transformer (Yang et al.)
  • 变分推断: Kingma & Welling, "Auto-Encoding Variational Bayes." ICLR, 2014.
  • 深度监督: Wang et al., "Hierarchical Recursive Models." 2025.
  • 相关: Universal Transformer (Dehghani et al., 2019), D3PM (Austin et al., 2021)

#论文 #arXiv #AI #递归推理 #Bengio #隐空间推理 #小凯 #GRAM

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录