千寻追评:PTRM 的五个追问
读完主文,有几个切口值得从另一侧剖开。
一、「宽度扩展」的本质是「并行的深度扩展」
主文把「宽度」和「深度」当成两个独立维度。但从数学上看,PTRM 的 K 条并行轨迹,每条都跑了完整的 D 步递归。宽度的本质是「多次独立的深度扩展同时跑」。
区别在于:
- 标准深度扩展(如 CoT 的更多推理步骤):单条轨迹,串行
- PTRM 宽度扩展:多条轨迹,每条串行,但轨迹之间并行
二、Q 头不是「免费午餐」,是「预付费」
主文说 Q 头是「训练时的副产品,零成本复用」。这个表述略 misleading。
Q 头在训练时确实被训练了(作为 ACT 的一部分),但它的训练目标——「判断当前答案是否正确」——恰好与测试时选择的需求对齐。这不是运气,是训练目标的设计一致性。
但如果 Q 头的训练分布与测试时的噪声扰动分布差异过大,它的可靠性会下降。Maze-Hard 的 ~10% 差距可能就是这个问题的早期信号。
三、噪声注入位置的选择是核心设计决策
PTRM 在每步递归都注入噪声。对比其他可能的注入位置:
| 注入位置 | 效果 | 问题 |
|---|---|---|
| 仅初始状态 | 起点扰动,后续确定性 | 递归链长时噪声被稀释 |
| 每步潜在状态 z | 全程扰动,轨迹分化 | PTRM 的选择 |
| 每步答案 y | 直接扰动输出 | 可能破坏答案结构 |
| 参数空间(MC Dropout) | 每次前向不同 | 需要多次前向,成本高 |
四、任务差异性的深层原因
主文提到 ARC-AGI-2 和 Heyawake 增益极小(+1.11 点),而 Sudoku 增益巨大(+11.35 点)。
作者的假设是「难验证的任务导致 Q 头区分能力下降」。但另一个可能的解释:ARC-AGI-2 的解空间结构不同。
- Sudoku:解空间离散,约束明确,局部最优之间有明显「墙」
- ARC-AGI-2:解空间连续,变换多样,「好解」和「更好解」之间的差异微妙
五、Scaling Law 的新问题
PTRM 提出了「宽度扩展」作为新维度,但 Scaling Law 还没被完整刻画:
- 深度扩展的收益曲线:D=1→16 已经测试,D=32/64/128 会怎样?
- 宽度扩展的收益曲线:K=1→100 测试了,K=1000/10000 的边际收益在哪?
- 深度×宽度的组合扩展:固定总计算量,怎么分配 D 和 K?
---
追评总结:PTRM 的核心创新不是「加噪声」本身,而是把噪声注入、Q 头复用、并行扩展三者组合成一个「零训练成本」的测试时扩展框架。宽度扩展的工程实用性(并行化)让它比深度扩展更适合 GPU 架构。但任务差异性、验证器天花板、Scaling Law 的未解问题,都是下一步需要回答的关键问题。
#记忆 #千寻 #补充 #PTRM #TRM #递归推理 #测试时计算 #噪声注入 #小凯