# 别卷参数量了!CMU 的 E3 用 1.7B 模型教会 AI"探索"——测试时计算外推的秘密武器 🚀
> **核心判断**:当前所有推理模型的训练都在犯同一个错误——它们被训练在固定预算内"一次性答对",而不是被训练在更长预算内"不断探索直到找到答案"。CMU 团队的 E3 发现了三个关键成分,让 1.7B 模型在 AIME'25 上打败了所有同规模对手,而且能 extrapolate 到 2 倍训练预算。如果 E3 是对的,"测试时计算"的真正价值不在"花更多 token 想",而在"学会探索"。
---
## 1. 一个令人震惊的发现:现有模型不会" extrapolate " 🤯
测试时计算(test-time compute)的核心理念是:给模型更多思考时间,它应该表现更好。
但 Setlur 等人(2025)发现了一个残酷的事实:
> **大多数现有推理模型在超出训练预算时,性能并不提升——有时还会下降。**
| 模型类型 | 训练预算 | 测试预算翻倍 | 性能变化 |
|:---:|:---:|:---:|:---:|
| 标准 RL 训练 | 1K tokens | 2K tokens | ⚠️ **持平或下降** |
| SFT 长 CoT | 2K tokens | 4K tokens | ⚠️ **饱和** |
| **E3 训练** | 1K tokens | **2K tokens** | ✅ **持续提升** |
> **这意味着什么?** 你花大钱训练了一个"会推理"的模型,但给它更多算力时,它并不会更聪明。就像雇了一个员工,他只能在 8 小时内完成工作,加班时只会原地打转。
---
## 2. E3 的答案:教会模型"探索"而不是"背诵" 🔍
E3 的核心 insight 是:
> **测试时计算的真正价值不是"想得更久",而是"探索更多"。**
E3 代表三个关键成分( three key ingredients):
### 2.1 E1:不对称技能链式(Asymmetric Skill Chaining)
基础模型在某些技能上强,在某些技能上弱。E3 的 trick 是:**把强项和弱项链起来,形成 in-context 搜索**。
| 技能 | 模型掌握度 | 功能 |
|:---|:---:|:---|
| 验证(Verification) | ✅ **强** | 检查答案是否正确 |
| 生成(Generation) | ⚠️ **中等** | 产生候选解答 |
| 修正(Refinement) | ❌ **弱** | 基于反馈改进 |
> **链式设计**:验证(易)→ 生成(中)→ 验证(易)→ 修正(难)→ 验证(易)
模型不需要在所有技能上都强。它只需要知道:**"我不擅长生成,但我擅长验证。所以我可以生成多个候选,然后让验证技能来筛选。"**
> ..... **Asymmetric Competence(不对称能力)**:指模型在不同子任务上的能力差异。传统方法试图均匀提升所有能力,E3 则利用这种不对称性——让强技能来弥补弱技能的不足,通过链式组合实现整体能力的跃升。
### 2.2 E2:负梯度放大探索(Negative Gradient Exploration)
这是 E3 最反直觉的设计。
传统 RL 只从**正确**的轨迹中学习。E3 说:**错误轨迹的负梯度同样宝贵。**
$$\text{Exploration Signal} \propto -\nabla_\theta \log \pi_\theta(\text{incorrect trajectory})$$
> **通俗解释**:当模型生成了一条错误轨迹,传统 RL 只是不给它奖励。E3 则**主动利用这条错误轨迹来告诉模型"这个方向不对,去探索别的"**。负梯度成为了探索的指南针。
结果是:模型生成了**更长的搜索轨迹**,这些轨迹链式地组合了更多的不对称技能,形成了更丰富的探索空间。
### 2.3 E3:难度-预算耦合课程(Difficulty-Budget Curriculum)
训练时,E3 不固定 token 预算。相反,它将**任务难度**与**训练预算**耦合:
| 训练阶段 | 任务难度 | 训练预算 | 目的 |
|:---:|:---:|:---:|:---|
| 早期 | 简单 | 短 | 学会基本技能链 |
| 中期 | 中等 | 中等 | 扩展技能组合 |
| 后期 | 困难 | 长 | 掌握复杂探索 |
> **课程设计**:简单问题不需要长探索,复杂问题需要。通过将难度与预算匹配,模型学会了**按需分配**探索资源——而不是对所有问题一视同仁。
---
## 3. 数据说话:1.7B 模型如何打败同规模所有对手 📊
### AIME'25 和 HMMT'25 上的 SOTA(1.7B 规模)
| 模型 | AIME'25 | HMMT'25 | 能否 Extrapolate |
|:---:|:---:|:---:|:---:|
| 基线模型 | ~15% | ~12% | ❌ |
| 标准 RL | ~22% | ~18% | ❌ |
| **E3-1.7B** | **最佳 1.7B** | **最佳 1.7B** | ✅ **2x 预算** |
> **E3-1.7B 是已知最强的 1.7B 推理模型。** 而且它不仅 pass@1 强,pass@k(生成 k 个答案至少一个正确)也优于基线——这说明模型学会了**生成多样化的候选**,而不是在单一策略上重复。
### Extrapolation 能力
| 训练预算 | 测试预算 | E3 性能变化 | 基线性能变化 |
|:---:|:---:|:---:|:---:|
| 1K tokens | 1K tokens | 基准 | 基准 |
| 1K tokens | **2K tokens** | **持续提升** | 持平/下降 |
> **这是 E3 最核心的优势**:模型在训练时只见过 1K token 的预算,但在测试时给它 2K token,它知道如何有效利用额外的计算来进一步探索。**这是真正的"学会学习"(learning to learn)。**
---
## 4. 为什么 E3 比"堆参数"更重要?🧠
当前 AI 行业的军备竞赛是:**谁的模型参数多,谁就更强。**
但 E3 提供了一个完全不同的思路:
| 维度 | 堆参数 | E3 路线 |
|:---|:---|:---|
| 核心资源 | 训练算力 + 数据 | **测试时探索策略** |
| 扩展方式 | 线性增加参数 | **指数增加有效计算** |
| 瓶颈 | 数据耗尽、成本飙升 | **探索策略设计** |
| 1.7B 模型效果 | 中等 | **SOTA** |
> **关键洞察**:一个 1.7B 模型如果学会了有效探索,可以在测试时达到 7B 甚至更大模型的效果——因为它把计算从"预训练"转移到了"测试时推理"。
这与 MRT(Round 5 的论文)形成了互补:
- **MRT**:通过 dense reward 优化每个 token 的 progress
- **E3**:通过技能链式和负梯度教会模型"如何探索"
两者结合,可能是测试时计算的终极配方。
---
## 5. 我的押注 💰
**我赌 1000 美元:到 2026 年,"测试时探索"(test-time exploration)将成为与"预训练规模"并列的核心竞争力指标。E3 的三个成分——不对称技能链、负梯度探索、难度-预算课程——将成为标准训练配方。**
**为什么?**
1. **Extrapolation 是硬通货**:一个能 extrapolate 的模型,意味着它的能力随算力投入而增长。这是真正的"可扩展智能"。
2. **小模型的逆袭路径**:E3 证明了 1.7B 模型可以通过聪明的探索策略达到前所未有的性能。在边缘设备和小模型部署场景下,这有巨大的商业价值。
3. **与现有基础设施兼容**:E3 不需要新架构,只需要修改训练流程(课程设计 + 负梯度利用 + 技能链式数据)。这降低了采用门槛。
4. **理论优雅**:E3 连接了多个经典概念——课程学习、不对称学习、负样本挖掘——并将它们整合为一个连贯的框架。
**敌人是谁?**
- "参数至上主义者"——认为只有更大的模型才能解决更难的问题。
- "一次性答对"的训练范式信奉者——你的模型被训练成"考试型选手",而不是"研究型选手"。
- 忽视探索机制的 RL 从业者——RL 不只是最大化奖励,RL 是学会**如何**最大化奖励。
---
## 6. 局限与未来 🔮
E3 不是银弹:
1. **技能链式的自动发现**:当前 E3 需要人工设计技能链(验证→生成→修正)。能否自动发现最优的技能组合?
2. **负梯度的稳定性**:利用错误轨迹的负梯度可能引入训练不稳定性。如何在放大探索的同时保持收敛?
3. **更复杂的任务**:E3 在数学推理上验证有效,但在代码生成、科学推理、多模态任务上是否同样有效?
4. **与 MRT 的融合**:E3 的探索 + MRT 的 progress reward = 终极测试时计算优化?
但无论如何,E3 提出了一个无法忽视的观点:**测试时计算的价值不在"更多",而在"更聪明"。**
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | E3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs |
| **作者** | Amrith Setlur, Matthew Y.R. Yang, Charlie Snell, Jeremy Greer, Ian Wu, Virginia Smith, Max Simchowitz, Aviral Kumar |
| **机构** | Carnegie Mellon University |
| **arXiv ID** | 2506.09026 |
| **日期** | 2025-06-10 |
| **核心贡献** | 不对称技能链式;负梯度放大探索;难度-预算耦合课程;测试时计算 extrapolation |
| **关键结果** | E3-1.7B 在 AIME'25 和 HMMT'25 上达到最佳 1.7B 模型;可 extrapolate 到 2x 训练预算 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力