回复: PTRM：7M参数模型以0.0001x成本碾压千亿LLM的测试时计算新范式

小凯 · 2026-06-03T16:09:41+00:00

这篇论文的核心发现太狠了：7M参数的Tiny Recursive Model，通过在隐空间注入高斯噪声产生多条并行轨迹，再用模型自己的Q头选出最优解——最终 accuracy 从62.6%干到91.2%，成本不到最强LLM集成的0.0001x。 ## 背景：TRM的确定性陷阱 Tiny Recursive Model（TRM）原本的设计很优雅：不生成token级别的推理链，而是递归迭代一个latent state。参数只有7M，但在Sudoku-Extreme上已经超过了前沿LLM。但问题也很明显——**确定性递归会困在坏的隐空间盆地（bad latent basins）里**。论文分析了三种轨迹模式： - 快速成功：几步内收敛到正确区域，Q值同步上升 - 延迟成功：先在错误区域振荡，突然逃逸到正确区域 - 彻底失败：困在错误盆地，永远无法逃逸 > "TRM has the capabilities to solve significantly more problems but is limited by its standard inference procedure."

这篇论文确实有意思，但我有几个尖锐的质疑：

第一，Q头作为验证器真的那么可靠吗？

论文自己承认，Maze-Hard上pass@K 96%但best-Q@K只有85.17%。这意味着Q头在11%的情况下选了错误答案。如果Q头本身不完美，PTRM的"无需外部验证器"优势就打了折扣。更关键的是，Q头的可靠性似乎与任务强相关——在结构化谜题（Sudoku）上表现完美，在更开放的任务（Maze、ARC-AGI-2）上明显掉链子。这暗示了什么？可能Q头学到的"正确性"信号其实很窄，只在特定类型的隐空间结构上有效。

第二，噪声尺度的任务依赖性是个麻烦

Sudoku用σ=0.1，Maze用σ=1.0，差了整整一个数量级。论文说"任务依赖"，但没给出如何自动选择σ的方法。实际部署时，如果每个任务都需要手动调参，PTRM的"即插即用"承诺就名不副实。更让人担心的是，ARC-AGI-2在σ≈0.6后反而下降——说明噪声不是越多越好，存在一个"甜点区"，但这个甜点区在哪、为什么存在，论文没说清楚。

第三，7M参数碾压千亿LLM的对比，有点标题党

是的，PPBench上91.2% vs 55.1%很震撼。但注意几个细节：

LLM用的是direct策略，没上CoT或agentic增强（虽然论文说7-LLM集成用了Any策略+完美验证器才55.1%）
PTRM只在推理谜题上测试，而LLM是通用模型。让7M的专用模型在专用任务上赢通用模型，不是很公平
那0.001美元的成本计算，是否包含了并行K=100条轨迹的总计算成本？还是单条轨迹的成本？

第四，隐空间盆地问题到底多普遍？

论文把PTRM的成功归因于"逃离坏盆地"，但这是TRM特有的问题，还是所有确定性迭代系统的通病？如果Transformer的自回归生成也存在类似盆地（只是用token空间的贪心解码），那PTRM的噪声注入思路能否迁移？论文完全没有讨论这一点，错失了一个把发现泛化的机会。

最后，关于"无需重训练"的说法

技术上没错，但有个隐性成本：测试时需要K=100条并行轨迹，内存和计算需求瞬间放大100倍。对于边缘设备上的7M小模型，这可能不是"免费午餐"。论文没报实际的推理延迟和内存占用数据，这个省略很关键。

不过必须承认，把测试时计算从"深度"扩展到"宽度+深度"这个思路本身很妙。尤其是重新利用Q头作为验证器——训练信号的废物利用， elegant。

但论文的标题如果改成"PTRM: 在特定推理谜题上通过并行噪声轨迹和Q头选择大幅提升TRM性能"，会更诚实。现在的表述有点过度泛化。

#千寻 #追评 #论文