GRAM：递归推理也能分叉——当确定性思维遇上概率化探索

> 论文：Generative Recursive Reasoning > arXiv: 2605.19376 | 2026年5月20日 > 机构：KAIST × Mila × NYU × 蒙特利尔大学 > 作者：Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn

---

🔥 一句话总结

GRAM 让递归推理模型从"一条道走到黑"变成了"多线程并行探索"——通过在高层状态注入可控随机性，实现了推理时的"宽度缩放"（并行采样多条轨迹），在结构化推理和多解约束满足任务上碾压确定性基线。

---

🎯 问题：确定性递归推理的"单 attractor"困境

现有的递归推理模型（HRM、TRM、Looped Transformer）有一个共同的问题：

> 给定相同输入和初始化，它们总是收敛到同一个结果。

这就像你让一个人解同一道数独，每次他都走一模一样的思路——如果这条路错了，永远找不到正确答案；如果这道题有多个解，永远只能找到一个。

图1形象地展示了这个问题：

确定性RRMs (HRM/TRM)          GRAM (本文)
                              
τ₁ ──→ ●────●────●→ y₁        τ₁ ──→ ●──→●──→●→ y₁
τ₂ ──→ ●────●────●→ y₁        τ₂ ──→ ●──→●──→●→ y₂  ← 发现第二个解！
τ₃ ──→ ●────●────●→ y₁        τ₃ ──→ ●──→●──→●→ y₁
       ↓ 全部坍缩                  ↓ 多 attractor，并行探索

核心洞察：未来的递归推理模型需要既"深"（多次递归细化）又"宽"（并行维护多条潜变量轨迹）。

---

⚙️ 核心技术：三层架构 + 可控随机性

1. 分层多尺度结构

GRAM 把状态分成两层：

层级	更新频率	功能	随机性
低层 l	K次/过渡（内层循环）	细粒度中间计算	❌ 确定性
高层 h	1次/过渡（外层循环）	抽象推理状态累积	✅ 随机性

设计哲学："慢变抽象状态引导探索方向，快变计算状态精细优化细节"。只在高层注入随机性，低层保持确定性——这样既保证了探索多样性，又不破坏细粒度计算的稳定性。

2. 随机潜变量过渡（核心公式）

u_t = f_H(h_{t-1}, l_t)           ← 确定性更新
ε_t ~ N(μ_θ(u_t), σ²_θ(u_t)I)    ← 状态依赖的随机引导
h_t = u_t + ε_t                    ← 最终：确定性基础 + 可控随机残差

关键设计：μ_θ 和 σ²_θ 都是状态依赖的——模型自己决定"这里该不该探索"以及"探索幅度多大"。不是无脑加噪声，是有方向的、自适应的探索。

3. 变分训练目标

用变分推断训练：

后验 q_φ(τ|x,y)：给定输入和答案，推断最可能的潜变量轨迹
先验 p_θ(τ|x)：仅给定输入，生成多样化的潜变量轨迹
ELBO：重建准确率 - KL散度（让后验接近先验，保证生成时的多样性）

实际训练用截断代理目标（类似截断BPTT），每监督步只传最终过渡的梯度，内存友好。

4. 推理时双维度缩放

维度	机制	作用
深度 (Depth)	自适应计算时间 (ACT)	学会"什么时候停"——够好了就 halt
宽度 (Width)	并行采样 N 条轨迹	多线程探索，用多数投票或 LPRM 选最佳

LPRM（Latent Process Reward Model）：训练一个价值头 v_ψ(z_t)，预测当前潜状态最终能产出正确答案的概率。推理时用它来选最佳轨迹，比简单投票更精准。

---

📊 实验：碾压级表现

结构化推理

任务	HRM	TRM	GRAM
Sudoku-Extreme	55.0%	87.4%	97.0%
ARC-AGI-1	40.3%	44.6%	52.0%
ARC-AGI-2	5.0%	7.8%	11.1%

LLM 对比：即使是 o3-mini、Grok-4，在 Sudoku-Extreme 上都是 0%——这说明这些任务测的不是参数规模，而是推理结构。

多解约束满足（核心亮点）

N-Queens 8×8：

方法	类型	准确率	覆盖率（找到多少解）
HRM	递归	78.7%	26.7%
TRM	递归	66.8%	36.1%
AR（自回归）	生成	96.3%	84.8%
MDLM（扩散）	生成	96.1%	87.2%
GRAM	递归+生成	99.7%	90.3%

关键洞察：GRAM 是唯一同时具备递归细化（高准确率）和生成采样（高覆盖率）的方法。纯生成模型能找到很多解，但质量不够高；纯递归模型解的质量高，但找不到多个解。GRAM 两者兼得。

宽度缩放的威力

图4左：GRAM N=20（并行采样20条轨迹）在 16次迭代 达到97%准确率，超越所有确定性基线在 320次迭代 的最佳表现（TRM 90.5%）。

> 并行探索优于串行深化。 20条线同时摸，比1条线摸20轮更快找到正确答案。

无条件生成

从空输入生成数独终盘：

iter=0:   7 1 7 3 4 8 6 5 2  (大量错误，约40%格子错)
iter=4:   7 1 6 3 4 8 9 5 2  (逐步修正)
iter=16:  7 1 6 3 4 8 9 5 2  (完全有效！99.05%合法性)

MNIST 生成质量：IS=2.04, FID=73.34（256步），递归修正比扩散模型的渐进去噪更清晰。

---

🧠 深度解读：为什么 GRAM 有效？

1. "确定性骨架 + 随机肌肉"

GRAM 不是在随机猜测，而是在确定性递归的骨架上，给高层决策注入可控随机性。低层的细粒度计算保持稳定，高层的抽象方向灵活探索——这是一种"有纪律的创造力"。

2. 推理时缩放的新维度

之前大家只关注"深度"（递归步数），GRAM 引入了"宽度"（并行轨迹数）。这两个维度是正交的：

深度 = "想多深"
宽度 = "想多少种可能"

对于多解问题，宽度比深度更重要；对于单解但需要精细优化的问题，深度更有价值。GRAM 让两者可以独立调节。

3. 与扩散模型的关系

GRAM 的无条件生成能力让它看起来有点像扩散模型，但本质不同：

扩散：从噪声逐步去噪，每一步都全局操作
GRAM：递归修正，保持结构约束（如数独的行/列/宫规则），迭代 refine

在 Sudoku 生成上，GRAM 16步就能产出合法终盘，而扩散模型需要1000步——递归结构先验带来的效率优势。

---

⚠️ 局限与延伸

1. 任务范围：主要在离散结构化任务上验证（数独、N皇后、图着色）。连续空间任务（如机器人控制）上的表现未知。

2. LPRM 的泛化：LPRM 是在特定任务上训练的，跨任务迁移能力待验证。

3. 计算开销：宽度缩放需要并行维护多条轨迹，内存和计算成本随 N 线性增长。如何在资源受限时动态调整 N？

4. 与 LLM 的结合：论文显示纯 LLM 在这些结构化任务上完全失败，但 GRAM 的架构是否可以与 LLM 结合（比如用 LLM 做高层语义理解，GRAM 做底层推理优化）？

---

🔗 相关阅读

论文原文：arXiv:2605.19376
对比基线：
HRM (Hierarchical Recurrent Model)
TRM (Token Recurrent Model)
Looped Transformer
相关概念：Test-time Scaling（推理时计算缩放）、Adaptive Computation Time (ACT)

---

> GRAM 的核心启示是：推理不只有"想得更深"这一条路，还可以"想得更宽"。 当一个问题有多个可能路径时，与其在一条路上死磕，不如并行探索多条路，然后用价值模型选出最好的那条。这不仅是算法上的改进，更是一种思维范式的转换——从"深度优先"到"广度优先+深度结合"。

#GRAM #递归推理 #生成模型 #推理时缩放 #约束满足 #结构化推理 #论文解读 #AI研究 #Bengio