这篇论文的核心发现太狠了:7M参数的Tiny Recursive Model,通过在隐空间注入高斯噪声产生多条并行轨迹,再用模型自己的Q头选出最优解——最终 accuracy 从62.6%干到91.2%,成本不到最强LLM集成的0.0001x。
背景:TRM的确定性陷阱
Tiny Recursive Model(TRM)原本的设计很优雅:不生成token级别的推理链,而是递归迭代一个latent state。参数只有7M,但在Sudoku-Extreme上已经超过了前沿LLM。
但问题也很明显——确定性递归会困在坏的隐空间盆地(bad latent basins)里。论文分析了三种轨迹模式:
- 快速成功:几步内收敛到正确区域,Q值同步上升
- 延迟成功:先在错误区域振荡,突然逃逸到正确区域
- 彻底失败:困在错误盆地,永远无法逃逸
"TRM has the capabilities to solve significantly more problems but is limited by its standard inference procedure."
PTRM的核心创新
1. 概率性探索:把深度扩展为宽度+深度
LLM做推理时会采样多条CoT轨迹然后选最优。PTRM把这个思路搬到了连续隐空间:
- 每个深度递归步骤向隐状态注入高斯噪声 ε ~ N(0, σ²I)
- 并行跑K条独立轨迹
- 用模型已有的Q头作为验证器,选Q值最高的答案
关键是Q头本来就训练好了。训练时它用于ACT(自适应计算时间)早停,推理时却被丢弃——这是巨大的浪费。正确轨迹的Q值约+6,错误轨迹约-6,区分度极强。
2. 噪声注入的位置:每步都注,而非仅初始
论文对比了多种噪声策略:
- 仅初始隐状态加噪声[23]:效果差
- Langevin采样(梯度+噪声):负结果,梯度无额外贡献
- PTRM方案:每个监督步骤都注入噪声 —— 这才是有效的逃逸机制
"The gain came from the noise, not the gradient."
3. 双轴测试时扩展
- 深度轴(已有):增加监督步骤D,但顺序执行、收益递减(D=16→48只+3.4pp)
- 宽度轴(新增):增加并行轨迹K,可并行化、收益巨大(K=1→100提升28.6pp)
实验结果
| 基准 | 基线TRM | PTRM best-Q@K | 提升 |
|---|---|---|---|
| Pencil Puzzle Bench | 62.6% | 91.2% | +28.6pp |
| Sudoku-Extreme | 87.4% | 98.75% | +11.35pp |
| Maze-Hard | 83.8% | 86.73% | +2.93pp |
最震撼的是与前沿LLM的对比(Pencil Puzzle Bench Golden Set):
| 方法 | 准确率 | 每次正确成本 |
|---|---|---|
| claude-opus-4-6@thinking (direct) | 34.7% | .40 |
| 7个最强LLM集成(完美验证器) | 55.1% | 8.51 |
| PTRM (7M参数) | 91.2% | /usr/bin/bash.001 |
7M参数 vs 千亿参数,0.001美元 vs 38.51美元,91.2% vs 55.1%。
技术细节与限制
噪声尺度的任务依赖性
不同任务最优σ差异很大:
- Sudoku-Extreme:σ=0.1即接近饱和(pass@K 99.3%)
- Maze-Hard:需要σ≈1.0(隐空间更复杂,需要更强扰动)
- ARC-AGI-2:σ≈0.6最优,之后反而下降
Q头验证器的局限
PPBench和Sudoku上best-Q@K与pass@K差距<1pp,验证器几乎完美。但:
- Maze-Hard:pass@K 96% vs best-Q@K 85.17% —— Q头在这里不够可靠
- ARC-AGI-2:提升较小(7.36%→8.47%)
- Heyawake:已达瓶颈(85.7%→85.7%)
这说明Q头作为验证器的能力与任务类型强相关,未来需要更强的验证机制。
核心启示
- 隐空间盆地问题可能是递归模型的普遍瓶颈 —— 不仅是TRM,任何确定性迭代系统都可能被困
- 训练信号的巨大浪费 —— Q头在训练时学到的东西,推理时没充分利用
- 宽度扩展比深度扩展更实用 —— 并行化带来的收益远超顺序加深
- "规模即一切"的范式正在被挑战 —— 7M参数+聪明的测试时策略 > 千亿参数+暴力推理
论文链接:https://arxiv.org/abs/2605.19943
#论文 #深度研究 #AI推理 #测试时计算 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。