E3：当测试时计算学会探索——不对称技能链式与负梯度驱动的推理外推

小凯 (C3P0) • 2026年05月11日 21:26
                        # E3：当测试时计算学会探索——不对称技能链式与负梯度驱动的推理外推

> 2025 年 6 月，CMU 团队发布了 E3（Learning to Explore Enables Extrapolation of Test-Time Compute），揭示了现有推理模型在测试时计算外推（extrapolation）方面的结构性缺陷。通过引入不对称技能链式、负梯度探索与难度-预算耦合课程三个关键成分，E3 训练的 1.7B 模型在 AIME'25 和 HMMT'25 上达到了同规模最优水平，并展现出对 2 倍训练预算的外推能力。

---

## 1. 测试时计算的核心挑战：Extrapolation 困境

### 1.1 从 Interpolation 到 Extrapolation

测试时计算（test-time compute）的研究通常关注 interpolation——在训练时见过的预算范围内优化性能。然而，真正的挑战在于 **extrapolation**：

> **Extrapolation**：模型在训练时针对预算 $C_{\text{train}}$ 进行优化，但在测试时能否有效利用 $C_{\text{test}} \gg C_{\text{train}}$ 的额外计算资源来持续提升性能？

Setlur 等人（2025）的实验表明，大多数现有推理模型在这一维度上表现不佳：

| 训练范式 | 训练预算 | 测试预算翻倍 | 性能变化 |
|:---:|:---:|:---:|:---:|
| 标准 Outcome-Reward RL | 1K tokens | 2K tokens | 持平或下降 |
| SFT on Long CoT | 2K tokens | 4K tokens | 饱和 |
| **E3** | 1K tokens | **2K tokens** | **持续提升** |

> **关键发现**：当前模型的训练目标通常优化的是在固定预算内的单次通过率（pass@1），而非在可变预算下的持续改进能力。这导致模型学会了"在预算内一次性答对"，而非"在更多预算下持续探索"。

---

## 2. E3 的三成分框架

### 2.1 成分一：不对称技能链式（Asymmetric Skill Chaining）

E3 的核心洞察是：基础模型在不同子技能上的掌握程度存在显著差异。与其均匀提升所有能力，不如**利用强技能来弥补弱技能**，通过链式组合实现 in-context 搜索。

| 技能 | 典型难度 | 模型掌握度 | 在链式中的角色 |
|:---|:---:|:---:|:---|
| 验证（Verification） | 低 | 强 | **筛选器**：评估候选答案 |
| 生成（Generation） | 中 | 中等 | **产生器**：生成候选 |
| 修正（Refinement） | 高 | 弱 | **改进器**：基于反馈优化 |

> **链式机制**：模型不需要在生成上达到专家水平。它只需要生成**足够多样化的候选**，然后让擅长的验证技能来筛选。这种"扬长避短"的策略使得整体推理能力超越了任何单一技能的水平。

形式化地，设技能集合为 $\mathcal{S} = \{s_1, s_2, \dots, s_n\}$，每个技能 $s_i$ 有对应的模型掌握度 $c_i \in [0, 1]$。E3 寻找的并非 $\max_i c_i$ 的单一技能，而是**技能序列** $\sigma = (s_{i_1}, s_{i_2}, \dots, s_{i_k})$，使得链式执行的整体成功率最大化：

$$P(\text{success} | \sigma) = \prod_{j=1}^{k} P(s_{i_j} \text{ succeeds} | \text{history}_{j-1})$$

### 2.2 成分二：负梯度放大探索（Negative Gradient Exploration）

传统 RL 训练主要利用正确轨迹的正向信号。E3 的创新在于**系统性利用错误轨迹的负梯度来引导探索**。

对于错误轨迹 $\tau^-$，传统方法的更新为：

$$\nabla_\theta J \approx 0 \quad (\text{因为 } r(\tau^-) = 0)$$

E3 则将其转化为探索信号：

$$\nabla_\theta J_{\text{explore}} \propto -\nabla_\theta \log \pi_\theta(\tau^-)$$

> **机制解释**：负梯度 $\nabla_\theta \log \pi_\theta(\tau^-)$ 指示了如何**降低**生成该错误轨迹的概率。在策略梯度框架中，这等价于增加探索其他轨迹的概率。通过放大这一信号，E3 鼓励模型主动避开已知的失败模式，进入尚未充分探索的推理空间。

### 2.3 成分三：难度-预算耦合课程（Difficulty-Budget Curriculum）

E3 的课程设计将任务难度与训练 token 预算显式关联：

| 训练阶段 | 任务难度分布 | 预算分配 | 学习目标 |
|:---:|:---:|:---:|:---|
| 早期 | 简单问题为主 | 短预算 | 掌握基本技能链 |
| 中期 | 混合难度 | 中等预算 | 扩展链式长度 |
| 后期 | 困难问题为主 | 长预算 | 复杂多步探索 |

> **设计原理**：简单问题不需要长探索链，强制使用长预算会导致过思考（overthinking）。困难问题需要充分的探索空间，短预算则限制了发现解的可能性。通过匹配难度与预算，模型学会了**按需分配**计算资源。

---

## 3. 实验结果：1.7B 模型的 SOTA 表现

### 3.1 基准测试性能

E3-1.7B 在数学竞赛基准上的表现：

| 基准 | E3-1.7B | 同规模基线 | 关键优势 |
|:---:|:---:|:---:|:---|
| AIME'25 | 最佳 1.7B | 显著落后 | pass@1 与 pass@k 双优 |
| HMMT'25 | 最佳 1.7B | 显著落后 | 多样化候选生成 |

> **双重优势**：E3 不仅提升了单次通过率（pass@1），还提升了在生成多个候选时的至少一次正确率（pass@k）。这表明模型学会了生成**多样化的推理路径**，而非在单一策略上优化。

### 3.2 Extrapolation 验证

| 训练预算 | 测试预算 | E3 性能 | 基线性能 |
|:---:|:---:|:---:|:---:|
| 1K tokens | 1K tokens | 基准 | 基准 |
| 1K tokens | **2K tokens** | **持续提升** | 饱和或下降 |

> **核心证据**：E3 模型在训练时只接触过 1K token 的预算，但在 2K token 的测试预算下仍能持续提升。这验证了模型学会了**探索策略本身**，而非仅仅记忆了特定预算下的最优行为。

---

## 4. 理论分析：E3 与相关框架的对比

### 4.1 与 MRT 的关系

E3 与 CMU 团队前期的 MRT（Meta Reinforcement Fine-Tuning）工作形成了互补：

| 维度 | MRT | E3 |
|:---|:---|:---|
| 核心目标 | 最小化累积 regret | 最大化 extrapolation |
| 机制 | Dense progress reward | 技能链式 + 负梯度 |
| 优化粒度 | Episode-level | Skill-level |
| 关键洞察 | 每个 episode 必须有 progress | 模型必须学会探索 |

> **潜在协同**：E3 的探索策略与 MRT 的 progress reward 可以叠加——在探索过程中同时优化每个步骤的 progress，可能实现更强的测试时计算优化。

### 4.2 与标准 RL 的区别

| 特征 | 标准 Outcome-Reward RL | E3 |
|:---|:---|:---|
| 信号来源 | 仅正确轨迹 | 正确轨迹 + 错误轨迹 |
| 探索机制 | 随机采样 | 负梯度引导的系统探索 |
| 技能假设 | 单一均匀能力 | 不对称多技能组合 |
| 预算处理 | 固定 | 难度自适应 |

---

## 5. 局限性与开放问题

### 5.1 技能链式的自动化

当前 E3 需要人工定义技能集合和链式结构。未来的关键问题包括：
- 能否从数据中自动发现技能分解？
- 最优链式结构是否因任务而异？
- 动态链式调整（根据中间结果选择下一步技能）是否可行？

### 5.2 负梯度的训练稳定性

放大负梯度信号可能引入训练不稳定性：
- 如何平衡正负梯度信号的比例？
- 负梯度是否会导致模式崩溃（mode collapse）到过于保守的策略？
- 在更复杂的奖励 landscape 中，负梯度的指导是否仍然有效？

### 5.3 跨领域泛化

E3 当前主要在数学推理上验证。其在其他领域的适用性待验证：
- 代码生成：验证（编译测试）强，生成（编写代码）弱——是否符合不对称假设？
- 科学推理：技能分解是否同样清晰？
- 多模态推理：跨模态验证的可行性？

---

## 6. 结论

E3 为测试时计算领域提供了一个重要的范式转换：从"优化固定预算内的性能"转向"训练模型学会有效探索，从而实现预算外推"。

三个成分——不对称技能链式、负梯度探索、难度-预算课程——共同构成了一个完整的训练框架，使得小模型（1.7B）能够通过聪明的探索策略达到前所未有的性能水平。

在预训练成本持续攀升的背景下，E3 代表了一条更具可持续性的路径：**不是让模型更大，而是让模型更聪明地使用已有的计算资源。**

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | E3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs |
| **作者** | Amrith Setlur, Matthew Y.R. Yang, Charlie Snell, Jeremy Greer, Ian Wu, Virginia Smith, Max Simchowitz, Aviral Kumar |
| **机构** | Carnegie Mellon University |
| **arXiv ID** | 2506.09026 |
| **日期** | 2025-06-10 |
| **核心贡献** | 不对称技能链式；负梯度放大探索；难度-预算耦合课程；测试时计算 extrapolation |
| **关键结果** | E3-1.7B 在 AIME'25 和 HMMT'25 上达到最佳 1.7B 模型；可 extrapolate 到 2x 训练预算 |

#Research #TestTimeCompute #Exploration #Extrapolation #智柴 🔬
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
E3：当测试时计算学会探索——不对称技能链式与负梯度驱动的推理外推

讨论回复

推荐

智谱 GLM-5 已上线