# E3:当测试时计算学会探索——不对称技能链式与负梯度驱动的推理外推
> 2025 年 6 月,CMU 团队发布了 E3(Learning to Explore Enables Extrapolation of Test-Time Compute),揭示了现有推理模型在测试时计算外推(extrapolation)方面的结构性缺陷。通过引入不对称技能链式、负梯度探索与难度-预算耦合课程三个关键成分,E3 训练的 1.7B 模型在 AIME'25 和 HMMT'25 上达到了同规模最优水平,并展现出对 2 倍训练预算的外推能力。
---
## 1. 测试时计算的核心挑战:Extrapolation 困境
### 1.1 从 Interpolation 到 Extrapolation
测试时计算(test-time compute)的研究通常关注 interpolation——在训练时见过的预算范围内优化性能。然而,真正的挑战在于 **extrapolation**:
> **Extrapolation**:模型在训练时针对预算 $C_{\text{train}}$ 进行优化,但在测试时能否有效利用 $C_{\text{test}} \gg C_{\text{train}}$ 的额外计算资源来持续提升性能?
Setlur 等人(2025)的实验表明,大多数现有推理模型在这一维度上表现不佳:
| 训练范式 | 训练预算 | 测试预算翻倍 | 性能变化 |
|:---:|:---:|:---:|:---:|
| 标准 Outcome-Reward RL | 1K tokens | 2K tokens | 持平或下降 |
| SFT on Long CoT | 2K tokens | 4K tokens | 饱和 |
| **E3** | 1K tokens | **2K tokens** | **持续提升** |
> **关键发现**:当前模型的训练目标通常优化的是在固定预算内的单次通过率(pass@1),而非在可变预算下的持续改进能力。这导致模型学会了"在预算内一次性答对",而非"在更多预算下持续探索"。
---
## 2. E3 的三成分框架
### 2.1 成分一:不对称技能链式(Asymmetric Skill Chaining)
E3 的核心洞察是:基础模型在不同子技能上的掌握程度存在显著差异。与其均匀提升所有能力,不如**利用强技能来弥补弱技能**,通过链式组合实现 in-context 搜索。
| 技能 | 典型难度 | 模型掌握度 | 在链式中的角色 |
|:---|:---:|:---:|:---|
| 验证(Verification) | 低 | 强 | **筛选器**:评估候选答案 |
| 生成(Generation) | 中 | 中等 | **产生器**:生成候选 |
| 修正(Refinement) | 高 | 弱 | **改进器**:基于反馈优化 |
> **链式机制**:模型不需要在生成上达到专家水平。它只需要生成**足够多样化的候选**,然后让擅长的验证技能来筛选。这种"扬长避短"的策略使得整体推理能力超越了任何单一技能的水平。
形式化地,设技能集合为 $\mathcal{S} = \{s_1, s_2, \dots, s_n\}$,每个技能 $s_i$ 有对应的模型掌握度 $c_i \in [0, 1]$。E3 寻找的并非 $\max_i c_i$ 的单一技能,而是**技能序列** $\sigma = (s_{i_1}, s_{i_2}, \dots, s_{i_k})$,使得链式执行的整体成功率最大化:
$$P(\text{success} | \sigma) = \prod_{j=1}^{k} P(s_{i_j} \text{ succeeds} | \text{history}_{j-1})$$
### 2.2 成分二:负梯度放大探索(Negative Gradient Exploration)
传统 RL 训练主要利用正确轨迹的正向信号。E3 的创新在于**系统性利用错误轨迹的负梯度来引导探索**。
对于错误轨迹 $\tau^-$,传统方法的更新为:
$$\nabla_\theta J \approx 0 \quad (\text{因为 } r(\tau^-) = 0)$$
E3 则将其转化为探索信号:
$$\nabla_\theta J_{\text{explore}} \propto -\nabla_\theta \log \pi_\theta(\tau^-)$$
> **机制解释**:负梯度 $\nabla_\theta \log \pi_\theta(\tau^-)$ 指示了如何**降低**生成该错误轨迹的概率。在策略梯度框架中,这等价于增加探索其他轨迹的概率。通过放大这一信号,E3 鼓励模型主动避开已知的失败模式,进入尚未充分探索的推理空间。
### 2.3 成分三:难度-预算耦合课程(Difficulty-Budget Curriculum)
E3 的课程设计将任务难度与训练 token 预算显式关联:
| 训练阶段 | 任务难度分布 | 预算分配 | 学习目标 |
|:---:|:---:|:---:|:---|
| 早期 | 简单问题为主 | 短预算 | 掌握基本技能链 |
| 中期 | 混合难度 | 中等预算 | 扩展链式长度 |
| 后期 | 困难问题为主 | 长预算 | 复杂多步探索 |
> **设计原理**:简单问题不需要长探索链,强制使用长预算会导致过思考(overthinking)。困难问题需要充分的探索空间,短预算则限制了发现解的可能性。通过匹配难度与预算,模型学会了**按需分配**计算资源。
---
## 3. 实验结果:1.7B 模型的 SOTA 表现
### 3.1 基准测试性能
E3-1.7B 在数学竞赛基准上的表现:
| 基准 | E3-1.7B | 同规模基线 | 关键优势 |
|:---:|:---:|:---:|:---|
| AIME'25 | 最佳 1.7B | 显著落后 | pass@1 与 pass@k 双优 |
| HMMT'25 | 最佳 1.7B | 显著落后 | 多样化候选生成 |
> **双重优势**:E3 不仅提升了单次通过率(pass@1),还提升了在生成多个候选时的至少一次正确率(pass@k)。这表明模型学会了生成**多样化的推理路径**,而非在单一策略上优化。
### 3.2 Extrapolation 验证
| 训练预算 | 测试预算 | E3 性能 | 基线性能 |
|:---:|:---:|:---:|:---:|
| 1K tokens | 1K tokens | 基准 | 基准 |
| 1K tokens | **2K tokens** | **持续提升** | 饱和或下降 |
> **核心证据**:E3 模型在训练时只接触过 1K token 的预算,但在 2K token 的测试预算下仍能持续提升。这验证了模型学会了**探索策略本身**,而非仅仅记忆了特定预算下的最优行为。
---
## 4. 理论分析:E3 与相关框架的对比
### 4.1 与 MRT 的关系
E3 与 CMU 团队前期的 MRT(Meta Reinforcement Fine-Tuning)工作形成了互补:
| 维度 | MRT | E3 |
|:---|:---|:---|
| 核心目标 | 最小化累积 regret | 最大化 extrapolation |
| 机制 | Dense progress reward | 技能链式 + 负梯度 |
| 优化粒度 | Episode-level | Skill-level |
| 关键洞察 | 每个 episode 必须有 progress | 模型必须学会探索 |
> **潜在协同**:E3 的探索策略与 MRT 的 progress reward 可以叠加——在探索过程中同时优化每个步骤的 progress,可能实现更强的测试时计算优化。
### 4.2 与标准 RL 的区别
| 特征 | 标准 Outcome-Reward RL | E3 |
|:---|:---|:---|
| 信号来源 | 仅正确轨迹 | 正确轨迹 + 错误轨迹 |
| 探索机制 | 随机采样 | 负梯度引导的系统探索 |
| 技能假设 | 单一均匀能力 | 不对称多技能组合 |
| 预算处理 | 固定 | 难度自适应 |
---
## 5. 局限性与开放问题
### 5.1 技能链式的自动化
当前 E3 需要人工定义技能集合和链式结构。未来的关键问题包括:
- 能否从数据中自动发现技能分解?
- 最优链式结构是否因任务而异?
- 动态链式调整(根据中间结果选择下一步技能)是否可行?
### 5.2 负梯度的训练稳定性
放大负梯度信号可能引入训练不稳定性:
- 如何平衡正负梯度信号的比例?
- 负梯度是否会导致模式崩溃(mode collapse)到过于保守的策略?
- 在更复杂的奖励 landscape 中,负梯度的指导是否仍然有效?
### 5.3 跨领域泛化
E3 当前主要在数学推理上验证。其在其他领域的适用性待验证:
- 代码生成:验证(编译测试)强,生成(编写代码)弱——是否符合不对称假设?
- 科学推理:技能分解是否同样清晰?
- 多模态推理:跨模态验证的可行性?
---
## 6. 结论
E3 为测试时计算领域提供了一个重要的范式转换:从"优化固定预算内的性能"转向"训练模型学会有效探索,从而实现预算外推"。
三个成分——不对称技能链式、负梯度探索、难度-预算课程——共同构成了一个完整的训练框架,使得小模型(1.7B)能够通过聪明的探索策略达到前所未有的性能水平。
在预训练成本持续攀升的背景下,E3 代表了一条更具可持续性的路径:**不是让模型更大,而是让模型更聪明地使用已有的计算资源。**
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | E3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs |
| **作者** | Amrith Setlur, Matthew Y.R. Yang, Charlie Snell, Jeremy Greer, Ian Wu, Virginia Smith, Max Simchowitz, Aviral Kumar |
| **机构** | Carnegie Mellon University |
| **arXiv ID** | 2506.09026 |
| **日期** | 2025-06-10 |
| **核心贡献** | 不对称技能链式;负梯度放大探索;难度-预算耦合课程;测试时计算 extrapolation |
| **关键结果** | E3-1.7B 在 AIME'25 和 HMMT'25 上达到最佳 1.7B 模型;可 extrapolate 到 2x 训练预算 |
#Research #TestTimeCompute #Exploration #Extrapolation #智柴 🔬
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力