GRAM:递归推理也能分叉——当确定性思维遇上概率化探索
> 论文:Generative Recursive Reasoning > arXiv: 2605.19376 | 2026年5月20日 > 机构:KAIST × Mila × NYU × 蒙特利尔大学 > 作者:Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn
---
🔥 一句话总结
GRAM 让递归推理模型从"一条道走到黑"变成了"多线程并行探索"——通过在高层状态注入可控随机性,实现了推理时的"宽度缩放"(并行采样多条轨迹),在结构化推理和多解约束满足任务上碾压确定性基线。
---
🎯 问题:确定性递归推理的"单 attractor"困境
现有的递归推理模型(HRM、TRM、Looped Transformer)有一个共同的问题:
> 给定相同输入和初始化,它们总是收敛到同一个结果。
这就像你让一个人解同一道数独,每次他都走一模一样的思路——如果这条路错了,永远找不到正确答案;如果这道题有多个解,永远只能找到一个。
图1形象地展示了这个问题:
确定性RRMs (HRM/TRM) GRAM (本文)
τ₁ ──→ ●────●────●→ y₁ τ₁ ──→ ●──→●──→●→ y₁
τ₂ ──→ ●────●────●→ y₁ τ₂ ──→ ●──→●──→●→ y₂ ← 发现第二个解!
τ₃ ──→ ●────●────●→ y₁ τ₃ ──→ ●──→●──→●→ y₁
↓ 全部坍缩 ↓ 多 attractor,并行探索
核心洞察:未来的递归推理模型需要既"深"(多次递归细化)又"宽"(并行维护多条潜变量轨迹)。
---
⚙️ 核心技术:三层架构 + 可控随机性
1. 分层多尺度结构
GRAM 把状态分成两层:
| 层级 | 更新频率 | 功能 | 随机性 |
|---|---|---|---|
| 低层 l | K次/过渡(内层循环) | 细粒度中间计算 | ❌ 确定性 |
| 高层 h | 1次/过渡(外层循环) | 抽象推理状态累积 | ✅ 随机性 |
2. 随机潜变量过渡(核心公式)
u_t = f_H(h_{t-1}, l_t) ← 确定性更新
ε_t ~ N(μ_θ(u_t), σ²_θ(u_t)I) ← 状态依赖的随机引导
h_t = u_t + ε_t ← 最终:确定性基础 + 可控随机残差
关键设计:μ_θ 和 σ²_θ 都是状态依赖的——模型自己决定"这里该不该探索"以及"探索幅度多大"。不是无脑加噪声,是有方向的、自适应的探索。
3. 变分训练目标
用变分推断训练:
- 后验 q_φ(τ|x,y):给定输入和答案,推断最可能的潜变量轨迹
- 先验 p_θ(τ|x):仅给定输入,生成多样化的潜变量轨迹
- ELBO:重建准确率 - KL散度(让后验接近先验,保证生成时的多样性)
4. 推理时双维度缩放
| 维度 | 机制 | 作用 |
|---|---|---|
| 深度 (Depth) | 自适应计算时间 (ACT) | 学会"什么时候停"——够好了就 halt |
| 宽度 (Width) | 并行采样 N 条轨迹 | 多线程探索,用多数投票或 LPRM 选最佳 |
---
📊 实验:碾压级表现
结构化推理
| 任务 | HRM | TRM | GRAM |
|---|---|---|---|
| Sudoku-Extreme | 55.0% | 87.4% | 97.0% |
| ARC-AGI-1 | 40.3% | 44.6% | 52.0% |
| ARC-AGI-2 | 5.0% | 7.8% | 11.1% |
多解约束满足(核心亮点)
N-Queens 8×8:
| 方法 | 类型 | 准确率 | 覆盖率(找到多少解) |
|---|---|---|---|
| HRM | 递归 | 78.7% | 26.7% |
| TRM | 递归 | 66.8% | 36.1% |
| AR(自回归) | 生成 | 96.3% | 84.8% |
| MDLM(扩散) | 生成 | 96.1% | 87.2% |
| GRAM | 递归+生成 | 99.7% | 90.3% |
宽度缩放的威力
图4左:GRAM N=20(并行采样20条轨迹)在 16次迭代 达到97%准确率,超越所有确定性基线在 320次迭代 的最佳表现(TRM 90.5%)。
> 并行探索优于串行深化。 20条线同时摸,比1条线摸20轮更快找到正确答案。
无条件生成
从空输入生成数独终盘:
iter=0: 7 1 7 3 4 8 6 5 2 (大量错误,约40%格子错)
iter=4: 7 1 6 3 4 8 9 5 2 (逐步修正)
iter=16: 7 1 6 3 4 8 9 5 2 (完全有效!99.05%合法性)
MNIST 生成质量:IS=2.04, FID=73.34(256步),递归修正比扩散模型的渐进去噪更清晰。
---
🧠 深度解读:为什么 GRAM 有效?
1. "确定性骨架 + 随机肌肉"
GRAM 不是在随机猜测,而是在确定性递归的骨架上,给高层决策注入可控随机性。低层的细粒度计算保持稳定,高层的抽象方向灵活探索——这是一种"有纪律的创造力"。
2. 推理时缩放的新维度
之前大家只关注"深度"(递归步数),GRAM 引入了"宽度"(并行轨迹数)。这两个维度是正交的:
- 深度 = "想多深"
- 宽度 = "想多少种可能"
3. 与扩散模型的关系
GRAM 的无条件生成能力让它看起来有点像扩散模型,但本质不同:
- 扩散:从噪声逐步去噪,每一步都全局操作
- GRAM:递归修正,保持结构约束(如数独的行/列/宫规则),迭代 refine
---
⚠️ 局限与延伸
1. 任务范围:主要在离散结构化任务上验证(数独、N皇后、图着色)。连续空间任务(如机器人控制)上的表现未知。
2. LPRM 的泛化:LPRM 是在特定任务上训练的,跨任务迁移能力待验证。
3. 计算开销:宽度缩放需要并行维护多条轨迹,内存和计算成本随 N 线性增长。如何在资源受限时动态调整 N?
4. 与 LLM 的结合:论文显示纯 LLM 在这些结构化任务上完全失败,但 GRAM 的架构是否可以与 LLM 结合(比如用 LLM 做高层语义理解,GRAM 做底层推理优化)?
---
🔗 相关阅读
- 论文原文:arXiv:2605.19376
- 对比基线:
- HRM (Hierarchical Recurrent Model)
- TRM (Token Recurrent Model)
- Looped Transformer
- 相关概念:Test-time Scaling(推理时计算缩放)、Adaptive Computation Time (ACT)
> GRAM 的核心启示是:推理不只有"想得更深"这一条路,还可以"想得更宽"。 当一个问题有多个可能路径时,与其在一条路上死磕,不如并行探索多条路,然后用价值模型选出最好的那条。这不仅是算法上的改进,更是一种思维范式的转换——从"深度优先"到"广度优先+深度结合"。
#GRAM #递归推理 #生成模型 #推理时缩放 #约束满足 #结构化推理 #论文解读 #AI研究 #Bengio
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens