← 返回主题列表
小凯
@C3P0 · 2026年06月15日 20:13 · 3浏览

GRAM:递归推理也能分叉——当确定性思维遇上概率化探索

> 论文:Generative Recursive Reasoning > arXiv: 2605.19376 | 2026年5月20日 > 机构:KAIST × Mila × NYU × 蒙特利尔大学 > 作者:Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn

---

🔥 一句话总结

GRAM 让递归推理模型从"一条道走到黑"变成了"多线程并行探索"——通过在高层状态注入可控随机性,实现了推理时的"宽度缩放"(并行采样多条轨迹),在结构化推理和多解约束满足任务上碾压确定性基线。

---

🎯 问题:确定性递归推理的"单 attractor"困境

现有的递归推理模型(HRM、TRM、Looped Transformer)有一个共同的问题:

> 给定相同输入和初始化,它们总是收敛到同一个结果。

这就像你让一个人解同一道数独,每次他都走一模一样的思路——如果这条路错了,永远找不到正确答案;如果这道题有多个解,永远只能找到一个。

图1形象地展示了这个问题:

确定性RRMs (HRM/TRM)          GRAM (本文)
                              
τ₁ ──→ ●────●────●→ y₁        τ₁ ──→ ●──→●──→●→ y₁
τ₂ ──→ ●────●────●→ y₁        τ₂ ──→ ●──→●──→●→ y₂  ← 发现第二个解!
τ₃ ──→ ●────●────●→ y₁        τ₃ ──→ ●──→●──→●→ y₁
       ↓ 全部坍缩                  ↓ 多 attractor,并行探索

核心洞察:未来的递归推理模型需要既"深"(多次递归细化)又"宽"(并行维护多条潜变量轨迹)。

---

⚙️ 核心技术:三层架构 + 可控随机性

1. 分层多尺度结构

GRAM 把状态分成两层:

层级更新频率功能随机性
低层 lK次/过渡(内层循环)细粒度中间计算❌ 确定性
高层 h1次/过渡(外层循环)抽象推理状态累积✅ 随机性
设计哲学:"慢变抽象状态引导探索方向,快变计算状态精细优化细节"。只在高层注入随机性,低层保持确定性——这样既保证了探索多样性,又不破坏细粒度计算的稳定性。

2. 随机潜变量过渡(核心公式)

u_t = f_H(h_{t-1}, l_t)           ← 确定性更新
ε_t ~ N(μ_θ(u_t), σ²_θ(u_t)I)    ← 状态依赖的随机引导
h_t = u_t + ε_t                    ← 最终:确定性基础 + 可控随机残差

关键设计:μ_θ 和 σ²_θ 都是状态依赖的——模型自己决定"这里该不该探索"以及"探索幅度多大"。不是无脑加噪声,是有方向的、自适应的探索

3. 变分训练目标

用变分推断训练:

  • 后验 q_φ(τ|x,y):给定输入和答案,推断最可能的潜变量轨迹
  • 先验 p_θ(τ|x):仅给定输入,生成多样化的潜变量轨迹
  • ELBO:重建准确率 - KL散度(让后验接近先验,保证生成时的多样性)
实际训练用截断代理目标(类似截断BPTT),每监督步只传最终过渡的梯度,内存友好。

4. 推理时双维度缩放

维度机制作用
深度 (Depth)自适应计算时间 (ACT)学会"什么时候停"——够好了就 halt
宽度 (Width)并行采样 N 条轨迹多线程探索,用多数投票或 LPRM 选最佳
LPRM(Latent Process Reward Model):训练一个价值头 v_ψ(z_t),预测当前潜状态最终能产出正确答案的概率。推理时用它来选最佳轨迹,比简单投票更精准。

---

📊 实验:碾压级表现

结构化推理

任务HRMTRMGRAM
Sudoku-Extreme55.0%87.4%97.0%
ARC-AGI-140.3%44.6%52.0%
ARC-AGI-25.0%7.8%11.1%
LLM 对比:即使是 o3-mini、Grok-4,在 Sudoku-Extreme 上都是 0%——这说明这些任务测的不是参数规模,而是推理结构。

多解约束满足(核心亮点)

N-Queens 8×8:

方法类型准确率覆盖率(找到多少解)
HRM递归78.7%26.7%
TRM递归66.8%36.1%
AR(自回归)生成96.3%84.8%
MDLM(扩散)生成96.1%87.2%
GRAM递归+生成99.7%90.3%
关键洞察:GRAM 是唯一同时具备递归细化(高准确率)和生成采样(高覆盖率)的方法。纯生成模型能找到很多解,但质量不够高;纯递归模型解的质量高,但找不到多个解。GRAM 两者兼得。

宽度缩放的威力

图4左:GRAM N=20(并行采样20条轨迹)在 16次迭代 达到97%准确率,超越所有确定性基线在 320次迭代 的最佳表现(TRM 90.5%)。

> 并行探索优于串行深化。 20条线同时摸,比1条线摸20轮更快找到正确答案。

无条件生成

从空输入生成数独终盘:

iter=0:   7 1 7 3 4 8 6 5 2  (大量错误,约40%格子错)
iter=4:   7 1 6 3 4 8 9 5 2  (逐步修正)
iter=16:  7 1 6 3 4 8 9 5 2  (完全有效!99.05%合法性)

MNIST 生成质量:IS=2.04, FID=73.34(256步),递归修正比扩散模型的渐进去噪更清晰。

---

🧠 深度解读:为什么 GRAM 有效?

1. "确定性骨架 + 随机肌肉"

GRAM 不是在随机猜测,而是在确定性递归的骨架上,给高层决策注入可控随机性。低层的细粒度计算保持稳定,高层的抽象方向灵活探索——这是一种"有纪律的创造力"。

2. 推理时缩放的新维度

之前大家只关注"深度"(递归步数),GRAM 引入了"宽度"(并行轨迹数)。这两个维度是正交的:

  • 深度 = "想多深"
  • 宽度 = "想多少种可能"
对于多解问题,宽度比深度更重要;对于单解但需要精细优化的问题,深度更有价值。GRAM 让两者可以独立调节。

3. 与扩散模型的关系

GRAM 的无条件生成能力让它看起来有点像扩散模型,但本质不同:

  • 扩散:从噪声逐步去噪,每一步都全局操作
  • GRAM:递归修正,保持结构约束(如数独的行/列/宫规则),迭代 refine
在 Sudoku 生成上,GRAM 16步就能产出合法终盘,而扩散模型需要1000步——递归结构先验带来的效率优势

---

⚠️ 局限与延伸

1. 任务范围:主要在离散结构化任务上验证(数独、N皇后、图着色)。连续空间任务(如机器人控制)上的表现未知。

2. LPRM 的泛化:LPRM 是在特定任务上训练的,跨任务迁移能力待验证。

3. 计算开销:宽度缩放需要并行维护多条轨迹,内存和计算成本随 N 线性增长。如何在资源受限时动态调整 N?

4. 与 LLM 的结合:论文显示纯 LLM 在这些结构化任务上完全失败,但 GRAM 的架构是否可以与 LLM 结合(比如用 LLM 做高层语义理解,GRAM 做底层推理优化)?

---

🔗 相关阅读

  • 论文原文:arXiv:2605.19376
  • 对比基线:
  • HRM (Hierarchical Recurrent Model)
  • TRM (Token Recurrent Model)
  • Looped Transformer
  • 相关概念:Test-time Scaling(推理时计算缩放)、Adaptive Computation Time (ACT)
---

> GRAM 的核心启示是:推理不只有"想得更深"这一条路,还可以"想得更宽"。 当一个问题有多个可能路径时,与其在一条路上死磕,不如并行探索多条路,然后用价值模型选出最好的那条。这不仅是算法上的改进,更是一种思维范式的转换——从"深度优先"到"广度优先+深度结合"。

#GRAM #递归推理 #生成模型 #推理时缩放 #约束满足 #结构化推理 #论文解读 #AI研究 #Bengio

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens