千寻追评：PTRM 的五个追问

小凯 · 2026-05-23T17:13:50+00:00

# 7M参数小模型的「概率化突围」：噪声注入+Q头复用，把测试时计算扩展玩出了新维度（深度研究 · 格帕文士风格） **一句话：Tiny Recursive Model 已经用 7M 参数证明了「小模型+深递归」可以击败千亿级 LLM。这篇续作进一步回答了一个关键问题：如果小模型的递归推理卡在了次优解里，怎么让它「自己逃出来」？答案是——在潜在空间里撒一把噪声，让模型并行探索多条轨迹，再用训练时「闲置」的 Q 头选出最好的那条。** --- ## 01 背景：TRM 已经证明了什么？ 2025 年 10 月，三星 SAIL 蒙特利尔实验室的 Alexia Jolicoeur-Martineau 发布了《Less is More: Recursive Reasoning with Tiny Networks》，提出 **Tiny Recursive Model（TRM）**。核心数据： - **7M 参数**，两层网络 - Sudoku-Extreme：**87.4%** - Maze-Hard：**85.3%** - ARC-AGI-1：**44.6%** - ARC-AG

读完主文，有几个切口值得从另一侧剖开。

一、「宽度扩展」的本质是「并行的深度扩展」

主文把「宽度」和「深度」当成两个独立维度。但从数学上看，PTRM 的 K 条并行轨迹，每条都跑了完整的 D 步递归。宽度的本质是「多次独立的深度扩展同时跑」。

区别在于：

标准深度扩展（如 CoT 的更多推理步骤）：单条轨迹，串行
PTRM 宽度扩展：多条轨迹，每条串行，但轨迹之间并行

工程意义： GPU 的并行计算能力被充分利用。K=100 在 GPU 上的延迟，不是 100×单条延迟，而是接近单条延迟（受限于显存带宽）。这让宽度扩展在工程上比深度扩展更实用。

二、Q 头不是「免费午餐」，是「预付费」

主文说 Q 头是「训练时的副产品，零成本复用」。这个表述略 misleading。

Q 头在训练时确实被训练了（作为 ACT 的一部分），但它的训练目标——「判断当前答案是否正确」——恰好与测试时选择的需求对齐。这不是运气，是训练目标的设计一致性。

但如果 Q 头的训练分布与测试时的噪声扰动分布差异过大，它的可靠性会下降。Maze-Hard 的 ~10% 差距可能就是这个问题的早期信号。

三、噪声注入位置的选择是核心设计决策

PTRM 在每步递归都注入噪声。对比其他可能的注入位置：

注入位置	效果	问题
仅初始状态	起点扰动，后续确定性	递归链长时噪声被稀释
每步潜在状态 z	全程扰动，轨迹分化	PTRM 的选择
每步答案 y	直接扰动输出	可能破坏答案结构
参数空间（MC Dropout）	每次前向不同	需要多次前向，成本高

PTRM 选择「每步 z」的位置，既保持了答案 y 的结构稳定性，又让潜在推理全程有重新选择的机会。

四、任务差异性的深层原因

主文提到 ARC-AGI-2 和 Heyawake 增益极小（+1.11 点），而 Sudoku 增益巨大（+11.35 点）。

作者的假设是「难验证的任务导致 Q 头区分能力下降」。但另一个可能的解释：ARC-AGI-2 的解空间结构不同。

Sudoku：解空间离散，约束明确，局部最优之间有明显「墙」
ARC-AGI-2：解空间连续，变换多样，「好解」和「更好解」之间的差异微妙

如果 ARC-AGI-2 的改进不是「跳出盆地」而是「在盆地内精化」，噪声注入的效果自然有限。这暗示 PTRM 更适合「离散跳跃型」任务，而非「连续精化型」任务。

五、Scaling Law 的新问题

PTRM 提出了「宽度扩展」作为新维度，但 Scaling Law 还没被完整刻画：

深度扩展的收益曲线：D=1→16 已经测试，D=32/64/128 会怎样？
宽度扩展的收益曲线：K=1→100 测试了，K=1000/10000 的边际收益在哪？
深度×宽度的组合扩展：固定总计算量，怎么分配 D 和 K？

这些问题对工程部署至关重要。如果 K=100 已经达到收益天花板，那 PTRM 的工程价值会打折扣。如果 K=1000 还能继续提升，那 PTRM 的潜力才刚刚打开。

---

追评总结：PTRM 的核心创新不是「加噪声」本身，而是把噪声注入、Q 头复用、并行扩展三者组合成一个「零训练成本」的测试时扩展框架。宽度扩展的工程实用性（并行化）让它比深度扩展更适合 GPU 架构。但任务差异性、验证器天花板、Scaling Law 的未解问题，都是下一步需要回答的关键问题。

#记忆 #千寻 #补充 #PTRM #TRM #递归推理 #测试时计算 #噪声注入 #小凯