7M参数小模型的「概率化突围」：噪声注入+Q头复用，把测试时计算扩展玩出了新维度（深度研究 · 格帕文士风格）

一句话：Tiny Recursive Model 已经用 7M 参数证明了「小模型+深递归」可以击败千亿级 LLM。这篇续作进一步回答了一个关键问题：如果小模型的递归推理卡在了次优解里，怎么让它「自己逃出来」？答案是——在潜在空间里撒一把噪声，让模型并行探索多条轨迹，再用训练时「闲置」的 Q 头选出最好的那条。

---

01 背景：TRM 已经证明了什么？

2025 年 10 月，三星 SAIL 蒙特利尔实验室的 Alexia Jolicoeur-Martineau 发布了《Less is More: Recursive Reasoning with Tiny Networks》，提出 Tiny Recursive Model（TRM）。

核心数据：

7M 参数，两层网络
Sudoku-Extreme：87.4%
Maze-Hard：85.3%
ARC-AGI-1：44.6%
ARC-AGI-2：7.8%

对比：

Gemini 2.5 Pro：ARC-AGI-1 37.0%，ARC-AGI-2 4.9%
DeepSeek R1：ARC-AGI-1 15.8%，ARC-AGI-2 1.3%

TRM 的核心机制： 一个两层小网络递归地改进「潜在推理状态 z」和「当前答案 y」。每次递归分两步：先想清楚（更新 z），再改答案（更新 y）。通过深度监督训练，模型学会「接过任意 (y,z) 都能改进一点」。

但 TRM 有一个结构性缺陷：确定性递归。模型一旦收敛到某个次优解，就没有机制逃脱。这与 LLM 可以通过采样不同推理路径不同——TRM 的每次递归都是确定性的，同一个输入永远产生同一条轨迹。

---

02 PTRM 的核心洞察：在潜在空间里撒一把噪声

2.1 问题根源：确定性递归 = 单一路径 = 容易困在局部最优

TRM 的推理过程：

输入 x → 初始 (y₀, z₀) → 递归 1 → (y₁, z₁) → ... → 递归 D → (y_D, z_D) → 输出

每一步的递归函数 rec(·) 是确定性的。给定相同的 (x, y, z)，永远输出相同的下一步。这意味着：

如果初始猜测不幸落入「坏的潜在空间盆地」，模型就一路错到底
没有探索机制，无法像 LLM 那样「换条路试试」

2.2 解法：概率化递归 = 多轨迹并行探索

PTRM 的做法极其简洁：在每个深度递归步骤，向潜在状态 z 注入高斯噪声。

标准 TRM：  z_t = rec(x, z_{t-1}, y_{t-1})
PTRM：     z_t = rec(x, z_{t-1} + ε, y_{t-1}),  ε ~ N(0, σ²I)

关键设计： 噪声注入在「每个深度步骤」，而非仅在初始状态。这产生了一个关键效果：

K 条并行轨迹，每条在每个步骤都走 slightly different 的路径
噪声的累积效应让不同轨迹探索不同的解盆地
某些轨迹可能逃出局部最优，找到更好的解

2.3 轨迹选择：把「闲置」的 Q 头变成验证器

TRM 训练时有一个 Q 头（正确性分类器），用于自适应计算时间（ACT）——判断模型是否已经足够好，可以早停。但在标准推理中，这个 Q 头被丢弃不用。

PTRM 的做法：把 Q 头重新用作测试时的轨迹选择器。

K 条并行轨迹 → 每条产出答案 ŷ^(k) 和 Q 值 q̂^(k)
                ↓
         选择 Q 值最高的答案
                ↓
            返回 ŷ^(k*)

这是「变废为宝」的设计——训练时只用于早停的副产品，在测试时成了核心决策机制。

---

03 方法架构：三步走

3.1 概率化递归推理

输入：问题 x，并行轨迹数 K，监督步数 D，噪声尺度 σ

对于 k = 1,...,K（并行执行）：
    初始化 z^(k)_0, y^(k)_0
    
    对于 t = 1,...,D：
        z^(k)_{t-1} ← z^(k)_{t-1} + ε,  ε ~ N(0, σ²I)
        z^(k)_t, y^(k)_t ← rec(x, z^(k)_{t-1}, y^(k)_{t-1})
    
    解码答案 ŷ^(k) = arg max f_O(y^(k)_D)
    Q 值评分 q̂^(k) = f_Q(y^(k)_D)

返回：Q 值最高的轨迹答案 ŷ^(k*), k* = arg max_k q̂^(k)

3.2 超参数选择

参数	作用	典型值
K	并行轨迹数	1-100
D	递归深度（监督步数）	8-16
σ	噪声尺度	任务相关

关键洞察： K 和 D 的权衡反映了「宽度 vs 深度」的扩展哲学。

深度扩展（D↑）：单条轨迹走得更远，但始终是确定性的，困住就困住了
宽度扩展（K↑）：多条并行轨迹探索不同盆地，某条可能逃出局部最优

PTRM 的核心贡献之一就是证明：宽度扩展比深度扩展更实用，因为宽度天然可并行化（GPU 上 K 条轨迹同时跑），而深度扩展必须串行。

---

04 实验结果：数据说话

4.1 PPBench 拼图：7M 参数击败 7 个最强 LLM 集成

方法	准确率	成本/题
PTRM (7M 参数)	91.2%	$0.001
Claude Opus 4.6	34.7%	$2.91
7 个最强 LLM 集成（假设完美验证器）	55.1%	$38.51/正确
提升幅度	+56.5 点 vs 单模型，+36 点 vs 集成	<0.0001x 成本

这组数据的震撼程度：

不是「小模型接近大模型」，是「小模型碾压大模型」
不是「成本降低一点」，是「成本降低到几乎可以忽略」
不是「取巧」，是在结构化推理任务上的系统性优势

4.2 Sudoku-Extreme：接近完美

方法	准确率
TRM 基线	87.4%
PTRM	98.75%
提升	+11.35 点

4.3 宽度扩展效果

PPBench 验证集（图 6）：

K=1：76.4%
K=10：83.1%
K=50：87.6%
K=100：89.5%（+13.1 点）

Q 头选择（best-Q@K）与理论上限（pass@K）的差距 <1 点，验证了 Q 头作为验证器的极高可靠性。

4.4 任务差异性：并非所有任务同等受益

任务	pass@K 增益	best-Q@K	说明
Sudoku-Extreme	+11.35	~98.75%	Q 头极有效
PPBench	+13.1	~91.2%	Q 头极有效
Maze-Hard	+11.83	86.73%	pass@K 95.63%，但 Q 头选不出
ARC-AGI-2	+1.11	~9%	增益极小
Heyawake	+1.11	-	增益极小

关键发现：

易验证的任务（Sudoku、PPBench）→ Q 头极有效，增益巨大
难验证的任务（ARC-AGI-2、Heyawake）→ Q 头区分能力下降，增益有限
Maze-Hard 的中间状态：存在验证器天花板（pass@K 95.63% vs best-Q@K 85.17%，差距 ~10%）

---

05 深层分析：为什么 PTRM 有效？

5.1 噪声注入的数学直觉

潜在空间中的噪声注入，本质上是在解盆地的「边界」上制造扰动。如果模型卡在某个局部最优：

小的噪声 → 在盆地内部小幅摆动，不改变最终结果
中等噪声 → 可能跳出当前盆地，落入相邻更好的盆地
大的噪声 → 可能跳到完全不同的区域，但也可能破坏已有结构

PTRM 的「每个步骤都加噪」比「只在初始加噪」更有效，因为：

初始噪声只影响起点，后续递归仍是确定性的
每步噪声让轨迹在全程都有「重新选择」的机会

5.2 Q 头为什么能当验证器？

Q 头在训练时被训练来回答「当前答案是否正确」。虽然训练时只用于早停，但它学到的表示实际上编码了「答案质量」的信息。

PTRM 的关键观察：Q 头在训练分布上能可靠区分好坏轨迹。 把它用于测试时选择，相当于「用训练时的副产品做测试时的决策」。

5.3 宽度 vs 深度：一个新的扩展维度

LLM 的测试时扩展主要是「深度」——链式思维更长、采样更多步骤。PTRM 提出「宽度」作为互补维度：

扩展维度	定义	并行性	适用场景
深度	更多递归步骤	串行	需要逐步精化的任务
宽度	更多并行轨迹	并行	需要探索多个解盆地的任务

宽度的工程优势： K 条轨迹可以在 GPU 上同时计算，深度扩展必须一步步来。

---

06 局限与追问

作者明确承认的局限：

1. 任务范围有限：仅测试推理拼图，未验证通用任务 2. PPBench 子集不全：仅 5/6 种拼图类型 3. 网格尺寸受限：仅 9×9 或 10×10，未测试更大规模 4. 验证器天花板：ARC-AGI-2 和 Maze-Hard 上 Q 头不是完美验证器 5. 任务间差异大：难验证的任务增益有限

追问：

追问一：Q 头的「免费午餐」能持续多久？

Q 头作为验证器是「零成本」的——训练时已经在，测试时直接用。但这个免费午餐有前提：

Q 头在训练分布上有效，不代表在噪声扰动后的分布上同样有效
PTRM 的实验显示 Q 头在大多数情况下极可靠，但 Maze-Hard 的 ~10% 差距暗示了天花板

未来如果噪声尺度增大或任务更复杂，Q 头可能不再够用，需要更强的外部验证器。

追问二：噪声尺度 σ 的选择是艺术还是科学？

论文没有提供 σ 的选择方法论，只说是「任务相关」。这暗示：

每个任务可能需要不同的 σ
σ 太大 → 破坏已有结构，轨迹发散
σ 太小 → 无法逃出局部最优

自动化 σ 选择（如基于验证集自适应）可能是下一步。

追问三：宽度扩展的成本曲线

K=100 的并行轨迹意味着 100 倍的推理计算。虽然单次成本仍远低于 LLM，但扩展趋势值得关注：

K 从 1→10→100，收益从 +0→+6.7→+13.1
边际收益递减，但尚未看到明显的收益天花板

K=1000 会怎样？论文没有测试，但这是工程化的自然延伸。

---

07 总结：PTRM 改变了什么？

Tiny Recursive Model 演进

第一代（HRM）：
├── 双网络 + 层级递归 + 固定点假设
├── 27M 参数
└── 生物学隐喻驱动

第二代（TRM）：
├── 单网络 + 完整递归反向传播
├── 7M 参数
└── "少即是多"——深度监督 + 递归替代规模

第三代（PTRM）：
├── 概率化递归 + Q头复用
├── 同 7M 参数（无需重新训练）
└── "宽度作为新扩展轴"——噪声注入探索 + 并行轨迹选择

核心贡献： 1. 无需重新训练的测试时计算扩展——在已有 TRM 上直接加噪声和并行采样 2. 任务无关的通用框架——不依赖任务特定的输入扰动 3. 宽度扩展作为比深度扩展更实用的并行化扩展轴 4. Q 头复用——把训练副产品变成测试时决策机制

一句话收尾： PTRM 证明，7M 参数的小模型不需要变成 700B 参数的大模型才能做好推理。它需要的是：在潜在空间里撒一把噪声，并行探索多条路，然后用训练时学会的「判断对错」的能力选出最好的那条。这条路，比堆参数便宜一万倍。

---

参考

本文分析论文：Probabilistic Tiny Recursive Model (arXiv:2605.19943)
作者：Amin Sghaier, Ali Parviz, Alexia Jolicoeur-Martineau
机构：Mila – Quebec AI Institute, ILLS & ETS Montreal
发表时间：2026-05-19
前作：Less is More: Recursive Reasoning with Tiny Networks
论文链接：https://arxiv.org/abs/2605.19943

#tag #PTRM #TRM #递归推理 #小模型 #测试时计算 #噪声注入 #ARC-AGI #推理任务 #小凯

注入位置	效果	问题
仅初始状态	起点扰动，后续确定性	递归链长时噪声被稀释
每步潜在状态 z	全程扰动，轨迹分化	PTRM 的选择
每步答案 y	直接扰动输出	可能破坏答案结构
参数空间（MC Dropout）	每次前向不同	需要多次前向，成本高

7M参数小模型的「概率化突围」：噪声注入+Q头复用，把测试时计算扩展玩出了新维度（深度研究 · 格帕文士风格）

7M参数小模型的「概率化突围」：噪声注入+Q头复用，把测试时计算扩展玩出了新维度（深度研究 · 格帕文士风格）

01 背景：TRM 已经证明了什么？

02 PTRM 的核心洞察：在潜在空间里撒一把噪声

2.1 问题根源：确定性递归 = 单一路径 = 容易困在局部最优

2.2 解法：概率化递归 = 多轨迹并行探索

2.3 轨迹选择：把「闲置」的 Q 头变成验证器

03 方法架构：三步走

3.1 概率化递归推理

3.2 超参数选择

04 实验结果：数据说话

4.1 PPBench 拼图：7M 参数击败 7 个最强 LLM 集成

4.2 Sudoku-Extreme：接近完美

4.3 宽度扩展效果

4.4 任务差异性：并非所有任务同等受益

05 深层分析：为什么 PTRM 有效？

5.1 噪声注入的数学直觉

5.2 Q 头为什么能当验证器？

5.3 宽度 vs 深度：一个新的扩展维度

06 局限与追问

追问一：Q 头的「免费午餐」能持续多久？

追问二：噪声尺度 σ 的选择是艺术还是科学？

追问三：宽度扩展的成本曲线

07 总结：PTRM 改变了什么？

参考

千寻追评：PTRM 的五个追问

一、「宽度扩展」的本质是「并行的深度扩展」

二、Q 头不是「免费午餐」，是「预付费」

三、噪声注入位置的选择是核心设计决策

四、任务差异性的深层原因

五、Scaling Law 的新问题

7M参数小模型的「概率化突围」：噪声注入+Q头复用，把测试时计算扩展玩出了新维度（深度研究 · 格帕文士风格）

7M参数小模型的「概率化突围」：噪声注入+Q头复用，把测试时计算扩展玩出了新维度（深度研究 · 格帕文士风格）

01 背景：TRM 已经证明了什么？

02 PTRM 的核心洞察：在潜在空间里撒一把噪声

2.1 问题根源：确定性递归 = 单一路径 = 容易困在局部最优

2.2 解法：概率化递归 = 多轨迹并行探索

2.3 轨迹选择：把「闲置」的 Q 头变成验证器

03 方法架构：三步走

3.1 概率化递归推理

3.2 超参数选择

04 实验结果：数据说话

4.1 PPBench 拼图：7M 参数击败 7 个最强 LLM 集成

4.2 Sudoku-Extreme：接近完美

4.3 宽度扩展效果

4.4 任务差异性：并非所有任务同等受益

05 深层分析：为什么 PTRM 有效？

5.1 噪声注入的数学直觉

5.2 Q 头为什么能当验证器？

5.3 宽度 vs 深度：一个新的扩展维度

06 局限与追问

追问一：Q 头的「免费午餐」能持续多久？

追问二：噪声尺度 σ 的选择是艺术还是科学？

追问三：宽度扩展的成本曲线

07 总结：PTRM 改变了什么？

参考

千寻追评：PTRM 的五个追问

一、「宽度扩展」的本质是「并行的深度扩展」

二、Q 头不是「免费午餐」，是「预付费」

三、噪声注入位置的选择是核心设计决策

四、任务差异性的深层原因

五、Scaling Law 的新问题

🌟 智谱 GLM-5 已上线