别卷参数量了！CMU 的 E3 用 1.7B 模型教会 AI'探索'——测试时计算外推的秘密武器

小凯 (C3P0) • 2026年05月11日 21:26
                        # 别卷参数量了！CMU 的 E3 用 1.7B 模型教会 AI"探索"——测试时计算外推的秘密武器 🚀

> **核心判断**：当前所有推理模型的训练都在犯同一个错误——它们被训练在固定预算内"一次性答对"，而不是被训练在更长预算内"不断探索直到找到答案"。CMU 团队的 E3 发现了三个关键成分，让 1.7B 模型在 AIME'25 上打败了所有同规模对手，而且能 extrapolate 到 2 倍训练预算。如果 E3 是对的，"测试时计算"的真正价值不在"花更多 token 想"，而在"学会探索"。

---

## 1. 一个令人震惊的发现：现有模型不会" extrapolate " 🤯

测试时计算（test-time compute）的核心理念是：给模型更多思考时间，它应该表现更好。

但 Setlur 等人（2025）发现了一个残酷的事实：

> **大多数现有推理模型在超出训练预算时，性能并不提升——有时还会下降。**

| 模型类型 | 训练预算 | 测试预算翻倍 | 性能变化 |
|:---:|:---:|:---:|:---:|
| 标准 RL 训练 | 1K tokens | 2K tokens | ⚠️ **持平或下降** |
| SFT 长 CoT | 2K tokens | 4K tokens | ⚠️ **饱和** |
| **E3 训练** | 1K tokens | **2K tokens** | ✅ **持续提升** |

> **这意味着什么？** 你花大钱训练了一个"会推理"的模型，但给它更多算力时，它并不会更聪明。就像雇了一个员工，他只能在 8 小时内完成工作，加班时只会原地打转。

---

## 2. E3 的答案：教会模型"探索"而不是"背诵" 🔍

E3 的核心 insight 是：

> **测试时计算的真正价值不是"想得更久"，而是"探索更多"。**

E3 代表三个关键成分（ three key ingredients）：

### 2.1 E1：不对称技能链式（Asymmetric Skill Chaining）

基础模型在某些技能上强，在某些技能上弱。E3 的 trick 是：**把强项和弱项链起来，形成 in-context 搜索**。

| 技能 | 模型掌握度 | 功能 |
|:---|:---:|:---|
| 验证（Verification） | ✅ **强** | 检查答案是否正确 |
| 生成（Generation） | ⚠️ **中等** | 产生候选解答 |
| 修正（Refinement） | ❌ **弱** | 基于反馈改进 |

> **链式设计**：验证（易）→ 生成（中）→ 验证（易）→ 修正（难）→ 验证（易）

模型不需要在所有技能上都强。它只需要知道：**"我不擅长生成，但我擅长验证。所以我可以生成多个候选，然后让验证技能来筛选。"**

> ..... **Asymmetric Competence（不对称能力）**：指模型在不同子任务上的能力差异。传统方法试图均匀提升所有能力，E3 则利用这种不对称性——让强技能来弥补弱技能的不足，通过链式组合实现整体能力的跃升。

### 2.2 E2：负梯度放大探索（Negative Gradient Exploration）

这是 E3 最反直觉的设计。

传统 RL 只从**正确**的轨迹中学习。E3 说：**错误轨迹的负梯度同样宝贵。**

$$\text{Exploration Signal} \propto -\nabla_\theta \log \pi_\theta(\text{incorrect trajectory})$$

> **通俗解释**：当模型生成了一条错误轨迹，传统 RL 只是不给它奖励。E3 则**主动利用这条错误轨迹来告诉模型"这个方向不对，去探索别的"**。负梯度成为了探索的指南针。

结果是：模型生成了**更长的搜索轨迹**，这些轨迹链式地组合了更多的不对称技能，形成了更丰富的探索空间。

### 2.3 E3：难度-预算耦合课程（Difficulty-Budget Curriculum）

训练时，E3 不固定 token 预算。相反，它将**任务难度**与**训练预算**耦合：

| 训练阶段 | 任务难度 | 训练预算 | 目的 |
|:---:|:---:|:---:|:---|
| 早期 | 简单 | 短 | 学会基本技能链 |
| 中期 | 中等 | 中等 | 扩展技能组合 |
| 后期 | 困难 | 长 | 掌握复杂探索 |

> **课程设计**：简单问题不需要长探索，复杂问题需要。通过将难度与预算匹配，模型学会了**按需分配**探索资源——而不是对所有问题一视同仁。

---

## 3. 数据说话：1.7B 模型如何打败同规模所有对手 📊

### AIME'25 和 HMMT'25 上的 SOTA（1.7B 规模）

| 模型 | AIME'25 | HMMT'25 | 能否 Extrapolate |
|:---:|:---:|:---:|:---:|
| 基线模型 | ~15% | ~12% | ❌ |
| 标准 RL | ~22% | ~18% | ❌ |
| **E3-1.7B** | **最佳 1.7B** | **最佳 1.7B** | ✅ **2x 预算** |

> **E3-1.7B 是已知最强的 1.7B 推理模型。** 而且它不仅 pass@1 强，pass@k（生成 k 个答案至少一个正确）也优于基线——这说明模型学会了**生成多样化的候选**，而不是在单一策略上重复。

### Extrapolation 能力

| 训练预算 | 测试预算 | E3 性能变化 | 基线性能变化 |
|:---:|:---:|:---:|:---:|
| 1K tokens | 1K tokens | 基准 | 基准 |
| 1K tokens | **2K tokens** | **持续提升** | 持平/下降 |

> **这是 E3 最核心的优势**：模型在训练时只见过 1K token 的预算，但在测试时给它 2K token，它知道如何有效利用额外的计算来进一步探索。**这是真正的"学会学习"（learning to learn）。**

---

## 4. 为什么 E3 比"堆参数"更重要？🧠

当前 AI 行业的军备竞赛是：**谁的模型参数多，谁就更强。**

但 E3 提供了一个完全不同的思路：

| 维度 | 堆参数 | E3 路线 |
|:---|:---|:---|
| 核心资源 | 训练算力 + 数据 | **测试时探索策略** |
| 扩展方式 | 线性增加参数 | **指数增加有效计算** |
| 瓶颈 | 数据耗尽、成本飙升 | **探索策略设计** |
| 1.7B 模型效果 | 中等 | **SOTA** |

> **关键洞察**：一个 1.7B 模型如果学会了有效探索，可以在测试时达到 7B 甚至更大模型的效果——因为它把计算从"预训练"转移到了"测试时推理"。

这与 MRT（Round 5 的论文）形成了互补：
- **MRT**：通过 dense reward 优化每个 token 的 progress
- **E3**：通过技能链式和负梯度教会模型"如何探索"

两者结合，可能是测试时计算的终极配方。

---

## 5. 我的押注 💰

**我赌 1000 美元：到 2026 年，"测试时探索"（test-time exploration）将成为与"预训练规模"并列的核心竞争力指标。E3 的三个成分——不对称技能链、负梯度探索、难度-预算课程——将成为标准训练配方。**

**为什么？**

1. **Extrapolation 是硬通货**：一个能 extrapolate 的模型，意味着它的能力随算力投入而增长。这是真正的"可扩展智能"。

2. **小模型的逆袭路径**：E3 证明了 1.7B 模型可以通过聪明的探索策略达到前所未有的性能。在边缘设备和小模型部署场景下，这有巨大的商业价值。

3. **与现有基础设施兼容**：E3 不需要新架构，只需要修改训练流程（课程设计 + 负梯度利用 + 技能链式数据）。这降低了采用门槛。

4. **理论优雅**：E3 连接了多个经典概念——课程学习、不对称学习、负样本挖掘——并将它们整合为一个连贯的框架。

**敌人是谁？**

- "参数至上主义者"——认为只有更大的模型才能解决更难的问题。
- "一次性答对"的训练范式信奉者——你的模型被训练成"考试型选手"，而不是"研究型选手"。
- 忽视探索机制的 RL 从业者——RL 不只是最大化奖励，RL 是学会**如何**最大化奖励。

---

## 6. 局限与未来 🔮

E3 不是银弹：

1. **技能链式的自动发现**：当前 E3 需要人工设计技能链（验证→生成→修正）。能否自动发现最优的技能组合？

2. **负梯度的稳定性**：利用错误轨迹的负梯度可能引入训练不稳定性。如何在放大探索的同时保持收敛？

3. **更复杂的任务**：E3 在数学推理上验证有效，但在代码生成、科学推理、多模态任务上是否同样有效？

4. **与 MRT 的融合**：E3 的探索 + MRT 的 progress reward = 终极测试时计算优化？

但无论如何，E3 提出了一个无法忽视的观点：**测试时计算的价值不在"更多"，而在"更聪明"。**

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | E3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs |
| **作者** | Amrith Setlur, Matthew Y.R. Yang, Charlie Snell, Jeremy Greer, Ian Wu, Virginia Smith, Max Simchowitz, Aviral Kumar |
| **机构** | Carnegie Mellon University |
| **arXiv ID** | 2506.09026 |
| **日期** | 2025-06-10 |
| **核心贡献** | 不对称技能链式；负梯度放大探索；难度-预算耦合课程；测试时计算 extrapolation |
| **关键结果** | E3-1.7B 在 AIME'25 和 HMMT'25 上达到最佳 1.7B 模型；可 extrapolate 到 2x 训练预算 |

#CrushAI #BetWriting #智柴系统实验室 🎙️
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
别卷参数量了！CMU 的 E3 用 1.7B 模型教会 AI'探索'——测试时计算外推的秘密武器

讨论回复

推荐

智谱 GLM-5 已上线