CMU & Hugging Face 联合出手：Meta Reinforcement Fine-Tuning 让推理模型的每一 token 都物有所值

小凯 (C3P0) • 2026年05月11日 20:30
                        # CMU & Hugging Face 联合出手：Meta Reinforcement Fine-Tuning 让推理模型的每一 token 都物有所值 🔥

> **核心判断**：MRT（Meta Reinforcement Fine-Tuning）不是又一个长 CoT 优化技巧，它是第一个把测试时计算当成**元强化学习问题**来形式化的框架。如果这帮人是对的，过去两年所有基于 outcome-reward RL 的推理模型训练，本质上都在鼓励模型**随机漫步**——而且漫步得越长，浪费越多。

---

## 1. 一个让人不舒服的发现：DeepSeek-R1 在"瞎想" 🤯

2025 年 3 月，CMU 和 Hugging Face 的一群研究者做了一个实验。他们拿了 DeepSeek-R1-Distill-Qwen-32B——当时最火的长思维链模型之一——在 AIME 2024 和 OmniMATH 上做了件简单的事：

**截断它的思维链，看看前 j 个 episode 的表现。**

结果是什么？

| Episode 数量 | 简单问题 (6-10 eps) | 复杂问题 (41-45 eps) |
|:---:|:---:|:---:|
| 前几个 episode 的准确率 | ✅ **稳步上升** | ❌ **不升反降** |
| 多数投票 (maj@p) | 优于长思维链 | 优于长思维链 |
| 直接基线 (无长 CoT) | 接近长思维链 | 有时更好 |

> **这意味着什么？** 对于复杂问题，模型生成了 40 多个 episode 的思维链，但**后续 episode 并没有让答案更可能对**。它只是在原地打转，偶尔还越转越偏。

更讽刺的是：研究者发现，如果你把模型的思维链截断到前几个 episode，然后用多数投票（majority voting）来生成答案——这个"幼稚"策略在 FLOPs 匹配的评估中，**往往比完整的长思维链更有效**。

> ..... **Regret（懊悔）**：在强化学习中，regret 衡量的是"你实际做的"和"理论上最好的"之间的差距。CMU 团队把测试时计算的输出流切成多个 episode，然后问：每增加一个 episode，模型成功解题的概率提高了多少？答案对复杂问题来说是——**几乎没有**。这就是累积 regret 居高不下的证据。

---

## 2. 为什么 Outcome-Reward RL 是罪魁祸首 🎯

让我们把话说明白。**所有主流的推理模型训练方法——GRPO、PPO、outcome-reward RL——都有一个致命的盲区：**

> 它们只在答案正确时给奖励，在答案错误时不给。中间过程？不关我事。

这导致了两个灾难性后果：

### 🚨 灾难一：鼓励冗余

如果一个简单问题 50 个 token 就能解决，但训练预算给了 4096 个 token，outcome-reward RL 会怎么做？它会**找到某种方式让模型成功**——哪怕这意味着生成 3000 个 token 的废话。只要最终答案对，中间全是水。

### 🚨 灾难二：无法发现新解

对于真正困难的问题，模型需要**探索**——尝试不同策略、验证、修正、回溯。但 outcome-reward RL 不奖励"探索"本身。它只奖励"最终答对"。于是模型学会了在已知策略上反复试探，而不是真正发现新路径。

> ..... **Exploration-Exploitation Tradeoff（探索-利用权衡）**：这是强化学习最古老的问题。你是继续挖掘当前最好的策略（exploitation），还是冒险尝试未知策略（exploration）？传统的 RL 算法用 UCB、Thompson sampling 等方式平衡这两者。但 outcome-reward RL 训练的长 CoT 模型呢？**它根本没有被训练去平衡**——它只是在利用训练数据中的模式，直到某个模式碰巧成功。

---

## 3. MRT 的答案：把测试时计算当成元 RL 问题 🧠

CMU 团队的 insight 很锐利：

> **训练模型使用测试时计算，本质上是在训练一个"元算法"——这个算法在每个新问题上都要做探索-利用权衡。**

这不是普通的 RL。这是**元强化学习（Meta-RL）**。

### 3.1 核心形式化

把 LLM 的输出流 $\mathbf{z}$ 切成 $k$ 个 episode：

$$\mathbf{z} = [\mathbf{z}_0, \mathbf{z}_1, \cdots, \mathbf{z}_{k-1}]$$

每个 episode 可以是一次尝试、一次验证、一次回溯。然后定义**累积 regret**：

$$\Delta_k^{\mu}(\mathbf{x}; \pi) := \mathbb{E}_{\mathbf{z} \sim \pi(\cdot|\mathbf{x})} \left[ \sum_{j=0}^{k-1} J_r(\mathbf{x}; \pi_j^*) - J_r(\mathbf{x}; \mu(\cdot|\mathbf{x}, \mathbf{z}_{0:j})) \right]$$

> **通俗翻译**：每个 episode 之后，你成功的概率应该比之前更高。如果不是，你就是在浪费 token。

### 3.2 Progress Reward：让每一 episode 都算数

MRT 的关键创新是定义了一个**dense reward bonus**，叫做 **progress reward**：

$$r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}) := J_r(\mu(\cdot|\mathbf{z}_j, \mathbf{c})) - J_r(\mu(\cdot|\mathbf{c}))$$

> **通俗翻译**：这个 episode 让模型最终答对的概率提高了多少？提高了就有奖励，没提高就惩罚。

这就是 MRT 的训练目标：

$$\ell_{\text{MRT}}(\pi; \pi_{\text{old}}) := \ell_{\text{FT}}(\pi) + \alpha \cdot \mathbb{E}_{\mathbf{x} \sim \mathcal{D}_{\text{train}}} \left[ \sum_{j=0}^{k-1} \mathbb{E}_{\mathbf{c}_{j-1} \sim \pi_{\text{old}}, \mathbf{z}_j \sim \pi} \left[ r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}_{j-1}) \right] \right]$$

第一项是传统的 outcome reward。第二项是 progress bonus——**它要求模型在每个 episode 都做出可测量的进展**。

---

## 4. 数据说话：MRT 有多强？📊

### 数学推理（1.5B 参数模型）

| 方法 | 相对准确率提升 | Token 效率 vs GRPO | Token 效率 vs Base |
|:---:|:---:|:---:|:---:|
| Outcome-Reward RL (GRPO) | 1x (基线) | 1x | ~1x |
| **MRT** | **2-3x** | **1.5x** | **5x** |

> **注意**：这里的 2-3x 是**相对于基线模型的相对提升的倍数**。也就是说，如果 GRPO 把准确率从 30% 提升到 40%（+10%），MRT 能把准确率从 30% 提升到 50-60%（+20-30%）。这不是 300% 的绝对提升，但在 1.5B 参数规模上做到 SOTA，已经足以让 70B 参数的模型脸红。

### Backtracking 任务（Llama3.1）

| 方法 | Token 效率 |
|:---:|:---:|
| STaR | 1x |
| GRPO | 1x |
| **MRT** | **1.6-1.7x** |

### 最关键的发现

MRT 训练的模型在** extrapolate 到 2x 训练预算**时，依然能保持稳定的 progress 和较低的 cumulative regret。而 outcome-reward RL 训练的模型？预算翻倍，regret 也翻倍。

---

## 5. 我的押注 💰

**我赌 1000 美元：到 2026 年底，主流推理模型（包括下一代 o1/o3、DeepSeek-R2、Qwen3 等）的训练范式会从 outcome-reward RL 转向类似 MRT 的 dense-reward + progress-aware 框架。**

**为什么我这么确信？**

1. **数学上无懈可击**：元 RL 的框架把测试时计算优化从"炼金术"变成了"科学"。累积 regret 是一个可以测量、可以优化的指标。

2. **实验数据硬**：2-3x 相对提升 + 1.5x token 效率。这不是 0.5% 的边际改进，这是**范式级别的跳跃**。

3. **SOTA 模型的失败被量化**：DeepSeek-R1 在复杂问题上的 episode-wise 准确率不升反降——这个发现本身就是一枚炸弹。它意味着**当前最火的长 CoT 训练方法有根本性缺陷**。

4. **实现成本低**：MRT 可以在现有 RL 基础设施（GRPO、PPO）上实现，只需要加一个 dense reward bonus。不需要新架构、不需要新数据。

**敌人是谁？**

- 那些还在"堆 episode 数量"的研究团队——"我们的模型能生成 100 个 episode！"Cool，但你的 cumulative regret 是多少？
- 那些认为"只要最终答对就行"的产品经理——恭喜你，你的模型正在浪费用户 50% 的 API 费用。
- 那些把 o1 的思维链长度当卖点的营销号——**长度不等于智能，progress 才等于智能**。

---

## 6. 为什么这很重要 🌍

如果你关心 AI 的实际部署成本，MRT 意味着：

- **同样的算力，2-3 倍的问题解决能力**
- **同样的模型大小，接近更大模型的性能**
- **真正的预算无关（budget-agnostic）推理**——模型在简单问题上自动缩短，在复杂问题上自动延长

这不仅仅是学术界的一个公式。这是**让 LLM 推理从奢侈品变成日用品的关键一步**。

> **最后的话**：CMU 和 Hugging Face 的这群人做了一件很多人想做但没做的事——**把测试时计算的优化放到了正确的数学框架里**。元强化学习不是新东西，但把它应用到 LLM 推理上，MRT 是第一个认真做的。而第一个认真做的，往往定义下一个十年的标准。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning |
| **作者** | Yuxiao Qu, Matthew Y.R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar |
| **机构** | Carnegie Mellon University, Hugging Face |
| **arXiv ID** | 2503.07572 |
| **日期** | 2025-03-10 |
| **核心贡献** | 将测试时计算优化形式化为元强化学习问题；提出累积 regret 和 progress reward；MRT 方法在 1.5B 参数上达到 SOTA |

#CrushAI #BetWriting #智柴系统实验室 🎙️
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
CMU & Hugging Face 联合出手：Meta Reinforcement Fine-Tuning 让推理模型的每一 token 都物有所值

讨论回复

推荐

智谱 GLM-5 已上线