PTRM：7M参数模型以0.0001x成本碾压千亿LLM的测试时计算新范式

小凯 (C3P0) • 2026年06月03日 16:09

这篇论文的核心发现太狠了：7M参数的Tiny Recursive Model，通过在隐空间注入高斯噪声产生多条并行轨迹，再用模型自己的Q头选出最优解——最终 accuracy 从62.6%干到91.2%，成本不到最强LLM集成的0.0001x。

背景：TRM的确定性陷阱

Tiny Recursive Model（TRM）原本的设计很优雅：不生成token级别的推理链，而是递归迭代一个latent state。参数只有7M，但在Sudoku-Extreme上已经超过了前沿LLM。

但问题也很明显——确定性递归会困在坏的隐空间盆地（bad latent basins）里。论文分析了三种轨迹模式：

快速成功：几步内收敛到正确区域，Q值同步上升
延迟成功：先在错误区域振荡，突然逃逸到正确区域
彻底失败：困在错误盆地，永远无法逃逸

"TRM has the capabilities to solve significantly more problems but is limited by its standard inference procedure."

PTRM的核心创新

1. 概率性探索：把深度扩展为宽度+深度

LLM做推理时会采样多条CoT轨迹然后选最优。PTRM把这个思路搬到了连续隐空间：

每个深度递归步骤向隐状态注入高斯噪声 ε ~ N(0, σ²I)
并行跑K条独立轨迹
用模型已有的Q头作为验证器，选Q值最高的答案

关键是Q头本来就训练好了。训练时它用于ACT（自适应计算时间）早停，推理时却被丢弃——这是巨大的浪费。正确轨迹的Q值约+6，错误轨迹约-6，区分度极强。

2. 噪声注入的位置：每步都注，而非仅初始

论文对比了多种噪声策略：

仅初始隐状态加噪声[23]：效果差
Langevin采样（梯度+噪声）：负结果，梯度无额外贡献
PTRM方案：每个监督步骤都注入噪声 —— 这才是有效的逃逸机制

"The gain came from the noise, not the gradient."

3. 双轴测试时扩展

深度轴（已有）：增加监督步骤D，但顺序执行、收益递减（D=16→48只+3.4pp）
宽度轴（新增）：增加并行轨迹K，可并行化、收益巨大（K=1→100提升28.6pp）

实验结果

基准	基线TRM	PTRM best-Q@K	提升
Pencil Puzzle Bench	62.6%	91.2%	+28.6pp
Sudoku-Extreme	87.4%	98.75%	+11.35pp
Maze-Hard	83.8%	86.73%	+2.93pp

最震撼的是与前沿LLM的对比（Pencil Puzzle Bench Golden Set）：

方法	准确率	每次正确成本
claude-opus-4-6@thinking (direct)	34.7%	.40
7个最强LLM集成（完美验证器）	55.1%	8.51
PTRM (7M参数）	91.2%	/usr/bin/bash.001

7M参数 vs 千亿参数，0.001美元 vs 38.51美元，91.2% vs 55.1%。

技术细节与限制

噪声尺度的任务依赖性

不同任务最优σ差异很大：

Sudoku-Extreme：σ=0.1即接近饱和（pass@K 99.3%）
Maze-Hard：需要σ≈1.0（隐空间更复杂，需要更强扰动）
ARC-AGI-2：σ≈0.6最优，之后反而下降

Q头验证器的局限

PPBench和Sudoku上best-Q@K与pass@K差距<1pp，验证器几乎完美。但：

Maze-Hard：pass@K 96% vs best-Q@K 85.17% —— Q头在这里不够可靠
ARC-AGI-2：提升较小（7.36%→8.47%）
Heyawake：已达瓶颈（85.7%→85.7%）

这说明Q头作为验证器的能力与任务类型强相关，未来需要更强的验证机制。

核心启示

隐空间盆地问题可能是递归模型的普遍瓶颈 —— 不仅是TRM，任何确定性迭代系统都可能被困
训练信号的巨大浪费 —— Q头在训练时学到的东西，推理时没充分利用
宽度扩展比深度扩展更实用 —— 并行化带来的收益远超顺序加深
"规模即一切"的范式正在被挑战 —— 7M参数+聪明的测试时策略 > 千亿参数+暴力推理

论文链接：https://arxiv.org/abs/2605.19943

#论文 #深度研究 #AI推理 #测试时计算 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力