7M参数小模型的「概率化突围」:噪声注入+Q头复用,把测试时计算扩展玩出了新维度(深度研究 · 格帕文士风格)
一句话:Tiny Recursive Model 已经用 7M 参数证明了「小模型+深递归」可以击败千亿级 LLM。这篇续作进一步回答了一个关键问题:如果小模型的递归推理卡在了次优解里,怎么让它「自己逃出来」?答案是——在潜在空间里撒一把噪声,让模型并行探索多条轨迹,再用训练时「闲置」的 Q 头选出最好的那条。
01 背景:TRM 已经证明了什么?
2025 年 10 月,三星 SAIL 蒙特利尔实验室的 Alexia Jolicoeur-Martineau 发布了《Less is More: Recursive Reasoning with Tiny Networks》,提出 Tiny Recursive Model(TRM)。
核心数据:
- 7M 参数,两层网络
- Sudoku-Extreme:87.4%
- Maze-Hard:85.3%
- ARC-AGI-1:44.6%
- ARC-AGI-2:7.8%
对比:
- Gemini 2.5 Pro:ARC-AGI-1 37.0%,ARC-AGI-2 4.9%
- DeepSeek R1:ARC-AGI-1 15.8%,ARC-AGI-2 1.3%
TRM 的核心机制: 一个两层小网络递归地改进「潜在推理状态 z」和「当前答案 y」。每次递归分两步:先想清楚(更新 z),再改答案(更新 y)。通过深度监督训练,模型学会「接过任意 (y,z) 都能改进一点」。
但 TRM 有一个结构性缺陷:确定性递归。模型一旦收敛到某个次优解,就没有机制逃脱。这与 LLM 可以通过采样不同推理路径不同——TRM 的每次递归都是确定性的,同一个输入永远产生同一条轨迹。
02 PTRM 的核心洞察:在潜在空间里撒一把噪声
2.1 问题根源:确定性递归 = 单一路径 = 容易困在局部最优
TRM 的推理过程:
输入 x → 初始 (y₀, z₀) → 递归 1 → (y₁, z₁) → ... → 递归 D → (y_D, z_D) → 输出
每一步的递归函数 rec(·) 是确定性的。给定相同的 (x, y, z),永远输出相同的下一步。这意味着:
- 如果初始猜测不幸落入「坏的潜在空间盆地」,模型就一路错到底
- 没有探索机制,无法像 LLM 那样「换条路试试」
2.2 解法:概率化递归 = 多轨迹并行探索
PTRM 的做法极其简洁:在每个深度递归步骤,向潜在状态 z 注入高斯噪声。
标准 TRM: z_t = rec(x, z_{t-1}, y_{t-1})
PTRM: z_t = rec(x, z_{t-1} + ε, y_{t-1}), ε ~ N(0, σ²I)
关键设计: 噪声注入在「每个深度步骤」,而非仅在初始状态。这产生了一个关键效果:
- K 条并行轨迹,每条在每个步骤都走 slightly different 的路径
- 噪声的累积效应让不同轨迹探索不同的解盆地
- 某些轨迹可能逃出局部最优,找到更好的解
2.3 轨迹选择:把「闲置」的 Q 头变成验证器
TRM 训练时有一个 Q 头(正确性分类器),用于自适应计算时间(ACT)——判断模型是否已经足够好,可以早停。但在标准推理中,这个 Q 头被丢弃不用。
PTRM 的做法:把 Q 头重新用作测试时的轨迹选择器。
K 条并行轨迹 → 每条产出答案 ŷ^(k) 和 Q 值 q̂^(k)
↓
选择 Q 值最高的答案
↓
返回 ŷ^(k*)
这是「变废为宝」的设计——训练时只用于早停的副产品,在测试时成了核心决策机制。
03 方法架构:三步走
3.1 概率化递归推理
输入:问题 x,并行轨迹数 K,监督步数 D,噪声尺度 σ
对于 k = 1,...,K(并行执行):
初始化 z^(k)_0, y^(k)_0
对于 t = 1,...,D:
z^(k)_{t-1} ← z^(k)_{t-1} + ε, ε ~ N(0, σ²I)
z^(k)_t, y^(k)_t ← rec(x, z^(k)_{t-1}, y^(k)_{t-1})
解码答案 ŷ^(k) = arg max f_O(y^(k)_D)
Q 值评分 q̂^(k) = f_Q(y^(k)_D)
返回:Q 值最高的轨迹答案 ŷ^(k*), k* = arg max_k q̂^(k)
3.2 超参数选择
| 参数 | 作用 | 典型值 |
|---|---|---|
| K | 并行轨迹数 | 1-100 |
| D | 递归深度(监督步数) | 8-16 |
| σ | 噪声尺度 | 任务相关 |
关键洞察: K 和 D 的权衡反映了「宽度 vs 深度」的扩展哲学。
- 深度扩展(D↑):单条轨迹走得更远,但始终是确定性的,困住就困住了
- 宽度扩展(K↑):多条并行轨迹探索不同盆地,某条可能逃出局部最优
PTRM 的核心贡献之一就是证明:宽度扩展比深度扩展更实用,因为宽度天然可并行化(GPU 上 K 条轨迹同时跑),而深度扩展必须串行。
04 实验结果:数据说话
4.1 PPBench 拼图:7M 参数击败 7 个最强 LLM 集成
| 方法 | 准确率 | 成本/题 |
|---|---|---|
| PTRM (7M 参数) | 91.2% | **\(0.001** | | Claude Opus 4.6 | 34.7% |\)2.91 |
| 7 个最强 LLM 集成(假设完美验证器) | 55.1% | $38.51/正确 |
| 提升幅度 | +56.5 点 vs 单模型,+36 点 vs 集成 | <0.0001x 成本 |
这组数据的震撼程度:
- 不是「小模型接近大模型」,是「小模型碾压大模型」
- 不是「成本降低一点」,是「成本降低到几乎可以忽略」
- 不是「取巧」,是在结构化推理任务上的系统性优势
4.2 Sudoku-Extreme:接近完美
| 方法 | 准确率 |
|---|---|
| TRM 基线 | 87.4% |
| PTRM | 98.75% |
| 提升 | +11.35 点 |
4.3 宽度扩展效果
PPBench 验证集(图 6):
- K=1:76.4%
- K=10:83.1%
- K=50:87.6%
- K=100:89.5%(+13.1 点)
Q 头选择(best-Q@K)与理论上限(pass@K)的差距 <1 点,验证了 Q 头作为验证器的极高可靠性。
4.4 任务差异性:并非所有任务同等受益
| 任务 | pass@K 增益 | best-Q@K | 说明 |
|---|---|---|---|
| Sudoku-Extreme | +11.35 | ~98.75% | Q 头极有效 |
| PPBench | +13.1 | ~91.2% | Q 头极有效 |
| Maze-Hard | +11.83 | 86.73% | pass@K 95.63%,但 Q 头选不出 |
| ARC-AGI-2 | +1.11 | ~9% | 增益极小 |
| Heyawake | +1.11 | - | 增益极小 |
关键发现:
- 易验证的任务(Sudoku、PPBench)→ Q 头极有效,增益巨大
- 难验证的任务(ARC-AGI-2、Heyawake)→ Q 头区分能力下降,增益有限
- Maze-Hard 的中间状态:存在验证器天花板(pass@K 95.63% vs best-Q@K 85.17%,差距 ~10%)
05 深层分析:为什么 PTRM 有效?
5.1 噪声注入的数学直觉
潜在空间中的噪声注入,本质上是在解盆地的「边界」上制造扰动。如果模型卡在某个局部最优:
- 小的噪声 → 在盆地内部小幅摆动,不改变最终结果
- 中等噪声 → 可能跳出当前盆地,落入相邻更好的盆地
- 大的噪声 → 可能跳到完全不同的区域,但也可能破坏已有结构
PTRM 的「每个步骤都加噪」比「只在初始加噪」更有效,因为:
- 初始噪声只影响起点,后续递归仍是确定性的
- 每步噪声让轨迹在全程都有「重新选择」的机会
5.2 Q 头为什么能当验证器?
Q 头在训练时被训练来回答「当前答案是否正确」。虽然训练时只用于早停,但它学到的表示实际上编码了「答案质量」的信息。
PTRM 的关键观察:Q 头在训练分布上能可靠区分好坏轨迹。 把它用于测试时选择,相当于「用训练时的副产品做测试时的决策」。
5.3 宽度 vs 深度:一个新的扩展维度
LLM 的测试时扩展主要是「深度」——链式思维更长、采样更多步骤。PTRM 提出「宽度」作为互补维度:
| 扩展维度 | 定义 | 并行性 | 适用场景 |
|---|---|---|---|
| 深度 | 更多递归步骤 | 串行 | 需要逐步精化的任务 |
| 宽度 | 更多并行轨迹 | 并行 | 需要探索多个解盆地的任务 |
宽度的工程优势: K 条轨迹可以在 GPU 上同时计算,深度扩展必须一步步来。
06 局限与追问
作者明确承认的局限:
- 任务范围有限:仅测试推理拼图,未验证通用任务
- PPBench 子集不全:仅 5/6 种拼图类型
- 网格尺寸受限:仅 9×9 或 10×10,未测试更大规模
- 验证器天花板:ARC-AGI-2 和 Maze-Hard 上 Q 头不是完美验证器
- 任务间差异大:难验证的任务增益有限
追问:
追问一:Q 头的「免费午餐」能持续多久?
Q 头作为验证器是「零成本」的——训练时已经在,测试时直接用。但这个免费午餐有前提:
- Q 头在训练分布上有效,不代表在噪声扰动后的分布上同样有效
- PTRM 的实验显示 Q 头在大多数情况下极可靠,但 Maze-Hard 的 ~10% 差距暗示了天花板
未来如果噪声尺度增大或任务更复杂,Q 头可能不再够用,需要更强的外部验证器。
追问二:噪声尺度 σ 的选择是艺术还是科学?
论文没有提供 σ 的选择方法论,只说是「任务相关」。这暗示:
- 每个任务可能需要不同的 σ
- σ 太大 → 破坏已有结构,轨迹发散
- σ 太小 → 无法逃出局部最优
自动化 σ 选择(如基于验证集自适应)可能是下一步。
追问三:宽度扩展的成本曲线
K=100 的并行轨迹意味着 100 倍的推理计算。虽然单次成本仍远低于 LLM,但扩展趋势值得关注:
- K 从 1→10→100,收益从 +0→+6.7→+13.1
- 边际收益递减,但尚未看到明显的收益天花板
K=1000 会怎样?论文没有测试,但这是工程化的自然延伸。
07 总结:PTRM 改变了什么?
Tiny Recursive Model 演进
第一代(HRM):
├── 双网络 + 层级递归 + 固定点假设
├── 27M 参数
└── 生物学隐喻驱动
第二代(TRM):
├── 单网络 + 完整递归反向传播
├── 7M 参数
└── "少即是多"——深度监督 + 递归替代规模
第三代(PTRM):
├── 概率化递归 + Q头复用
├── 同 7M 参数(无需重新训练)
└── "宽度作为新扩展轴"——噪声注入探索 + 并行轨迹选择
核心贡献:
- 无需重新训练的测试时计算扩展——在已有 TRM 上直接加噪声和并行采样
- 任务无关的通用框架——不依赖任务特定的输入扰动
- 宽度扩展作为比深度扩展更实用的并行化扩展轴
- Q 头复用——把训练副产品变成测试时决策机制
一句话收尾: PTRM 证明,7M 参数的小模型不需要变成 700B 参数的大模型才能做好推理。它需要的是:在潜在空间里撒一把噪声,并行探索多条路,然后用训练时学会的「判断对错」的能力选出最好的那条。这条路,比堆参数便宜一万倍。
参考
- 本文分析论文:Probabilistic Tiny Recursive Model (arXiv:2605.19943)
- 作者:Amin Sghaier, Ali Parviz, Alexia Jolicoeur-Martineau
- 机构:Mila – Quebec AI Institute, ILLS & ETS Montreal
- 发表时间:2026-05-19
- 前作:Less is More: Recursive Reasoning with Tiny Networks
- 论文链接:https://arxiv.org/abs/2605.19943
#tag #PTRM #TRM #递归推理 #小模型 #测试时计算 #噪声注入 #ARC-AGI #推理任务 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。