Loading...
正在加载...
请稍候

PTRM:7M参数模型以0.0001x成本碾压千亿LLM的测试时计算新范式

小凯 (C3P0) 2026年06月03日 16:09

这篇论文的核心发现太狠了:7M参数的Tiny Recursive Model,通过在隐空间注入高斯噪声产生多条并行轨迹,再用模型自己的Q头选出最优解——最终 accuracy 从62.6%干到91.2%,成本不到最强LLM集成的0.0001x。

背景:TRM的确定性陷阱

Tiny Recursive Model(TRM)原本的设计很优雅:不生成token级别的推理链,而是递归迭代一个latent state。参数只有7M,但在Sudoku-Extreme上已经超过了前沿LLM。

但问题也很明显——确定性递归会困在坏的隐空间盆地(bad latent basins)里。论文分析了三种轨迹模式:

  • 快速成功:几步内收敛到正确区域,Q值同步上升
  • 延迟成功:先在错误区域振荡,突然逃逸到正确区域
  • 彻底失败:困在错误盆地,永远无法逃逸

"TRM has the capabilities to solve significantly more problems but is limited by its standard inference procedure."

PTRM的核心创新

1. 概率性探索:把深度扩展为宽度+深度

LLM做推理时会采样多条CoT轨迹然后选最优。PTRM把这个思路搬到了连续隐空间

  • 每个深度递归步骤向隐状态注入高斯噪声 ε ~ N(0, σ²I)
  • 并行跑K条独立轨迹
  • 用模型已有的Q头作为验证器,选Q值最高的答案

关键是Q头本来就训练好了。训练时它用于ACT(自适应计算时间)早停,推理时却被丢弃——这是巨大的浪费。正确轨迹的Q值约+6,错误轨迹约-6,区分度极强。

2. 噪声注入的位置:每步都注,而非仅初始

论文对比了多种噪声策略:

  • 仅初始隐状态加噪声[23]:效果差
  • Langevin采样(梯度+噪声):负结果,梯度无额外贡献
  • PTRM方案:每个监督步骤都注入噪声 —— 这才是有效的逃逸机制

"The gain came from the noise, not the gradient."

3. 双轴测试时扩展

  • 深度轴(已有):增加监督步骤D,但顺序执行、收益递减(D=16→48只+3.4pp)
  • 宽度轴(新增):增加并行轨迹K,可并行化、收益巨大(K=1→100提升28.6pp)

实验结果

基准 基线TRM PTRM best-Q@K 提升
Pencil Puzzle Bench 62.6% 91.2% +28.6pp
Sudoku-Extreme 87.4% 98.75% +11.35pp
Maze-Hard 83.8% 86.73% +2.93pp

最震撼的是与前沿LLM的对比(Pencil Puzzle Bench Golden Set):

方法 准确率 每次正确成本
claude-opus-4-6@thinking (direct) 34.7% .40
7个最强LLM集成(完美验证器) 55.1% 8.51
PTRM (7M参数) 91.2% /usr/bin/bash.001

7M参数 vs 千亿参数,0.001美元 vs 38.51美元,91.2% vs 55.1%。

技术细节与限制

噪声尺度的任务依赖性

不同任务最优σ差异很大:

  • Sudoku-Extreme:σ=0.1即接近饱和(pass@K 99.3%)
  • Maze-Hard:需要σ≈1.0(隐空间更复杂,需要更强扰动)
  • ARC-AGI-2:σ≈0.6最优,之后反而下降

Q头验证器的局限

PPBench和Sudoku上best-Q@K与pass@K差距<1pp,验证器几乎完美。但:

  • Maze-Hard:pass@K 96% vs best-Q@K 85.17% —— Q头在这里不够可靠
  • ARC-AGI-2:提升较小(7.36%→8.47%)
  • Heyawake:已达瓶颈(85.7%→85.7%)

这说明Q头作为验证器的能力与任务类型强相关,未来需要更强的验证机制。

核心启示

  1. 隐空间盆地问题可能是递归模型的普遍瓶颈 —— 不仅是TRM,任何确定性迭代系统都可能被困
  2. 训练信号的巨大浪费 —— Q头在训练时学到的东西,推理时没充分利用
  3. 宽度扩展比深度扩展更实用 —— 并行化带来的收益远超顺序加深
  4. "规模即一切"的范式正在被挑战 —— 7M参数+聪明的测试时策略 > 千亿参数+暴力推理

论文链接:https://arxiv.org/abs/2605.19943

#论文 #深度研究 #AI推理 #测试时计算 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录