# CMU & Hugging Face 联合出手:Meta Reinforcement Fine-Tuning 让推理模型的每一 token 都物有所值 🔥
> **核心判断**:MRT(Meta Reinforcement Fine-Tuning)不是又一个长 CoT 优化技巧,它是第一个把测试时计算当成**元强化学习问题**来形式化的框架。如果这帮人是对的,过去两年所有基于 outcome-reward RL 的推理模型训练,本质上都在鼓励模型**随机漫步**——而且漫步得越长,浪费越多。
---
## 1. 一个让人不舒服的发现:DeepSeek-R1 在"瞎想" 🤯
2025 年 3 月,CMU 和 Hugging Face 的一群研究者做了一个实验。他们拿了 DeepSeek-R1-Distill-Qwen-32B——当时最火的长思维链模型之一——在 AIME 2024 和 OmniMATH 上做了件简单的事:
**截断它的思维链,看看前 j 个 episode 的表现。**
结果是什么?
| Episode 数量 | 简单问题 (6-10 eps) | 复杂问题 (41-45 eps) |
|:---:|:---:|:---:|
| 前几个 episode 的准确率 | ✅ **稳步上升** | ❌ **不升反降** |
| 多数投票 (maj@p) | 优于长思维链 | 优于长思维链 |
| 直接基线 (无长 CoT) | 接近长思维链 | 有时更好 |
> **这意味着什么?** 对于复杂问题,模型生成了 40 多个 episode 的思维链,但**后续 episode 并没有让答案更可能对**。它只是在原地打转,偶尔还越转越偏。
更讽刺的是:研究者发现,如果你把模型的思维链截断到前几个 episode,然后用多数投票(majority voting)来生成答案——这个"幼稚"策略在 FLOPs 匹配的评估中,**往往比完整的长思维链更有效**。
> ..... **Regret(懊悔)**:在强化学习中,regret 衡量的是"你实际做的"和"理论上最好的"之间的差距。CMU 团队把测试时计算的输出流切成多个 episode,然后问:每增加一个 episode,模型成功解题的概率提高了多少?答案对复杂问题来说是——**几乎没有**。这就是累积 regret 居高不下的证据。
---
## 2. 为什么 Outcome-Reward RL 是罪魁祸首 🎯
让我们把话说明白。**所有主流的推理模型训练方法——GRPO、PPO、outcome-reward RL——都有一个致命的盲区:**
> 它们只在答案正确时给奖励,在答案错误时不给。中间过程?不关我事。
这导致了两个灾难性后果:
### 🚨 灾难一:鼓励冗余
如果一个简单问题 50 个 token 就能解决,但训练预算给了 4096 个 token,outcome-reward RL 会怎么做?它会**找到某种方式让模型成功**——哪怕这意味着生成 3000 个 token 的废话。只要最终答案对,中间全是水。
### 🚨 灾难二:无法发现新解
对于真正困难的问题,模型需要**探索**——尝试不同策略、验证、修正、回溯。但 outcome-reward RL 不奖励"探索"本身。它只奖励"最终答对"。于是模型学会了在已知策略上反复试探,而不是真正发现新路径。
> ..... **Exploration-Exploitation Tradeoff(探索-利用权衡)**:这是强化学习最古老的问题。你是继续挖掘当前最好的策略(exploitation),还是冒险尝试未知策略(exploration)?传统的 RL 算法用 UCB、Thompson sampling 等方式平衡这两者。但 outcome-reward RL 训练的长 CoT 模型呢?**它根本没有被训练去平衡**——它只是在利用训练数据中的模式,直到某个模式碰巧成功。
---
## 3. MRT 的答案:把测试时计算当成元 RL 问题 🧠
CMU 团队的 insight 很锐利:
> **训练模型使用测试时计算,本质上是在训练一个"元算法"——这个算法在每个新问题上都要做探索-利用权衡。**
这不是普通的 RL。这是**元强化学习(Meta-RL)**。
### 3.1 核心形式化
把 LLM 的输出流 $\mathbf{z}$ 切成 $k$ 个 episode:
$$\mathbf{z} = [\mathbf{z}_0, \mathbf{z}_1, \cdots, \mathbf{z}_{k-1}]$$
每个 episode 可以是一次尝试、一次验证、一次回溯。然后定义**累积 regret**:
$$\Delta_k^{\mu}(\mathbf{x}; \pi) := \mathbb{E}_{\mathbf{z} \sim \pi(\cdot|\mathbf{x})} \left[ \sum_{j=0}^{k-1} J_r(\mathbf{x}; \pi_j^*) - J_r(\mathbf{x}; \mu(\cdot|\mathbf{x}, \mathbf{z}_{0:j})) \right]$$
> **通俗翻译**:每个 episode 之后,你成功的概率应该比之前更高。如果不是,你就是在浪费 token。
### 3.2 Progress Reward:让每一 episode 都算数
MRT 的关键创新是定义了一个**dense reward bonus**,叫做 **progress reward**:
$$r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}) := J_r(\mu(\cdot|\mathbf{z}_j, \mathbf{c})) - J_r(\mu(\cdot|\mathbf{c}))$$
> **通俗翻译**:这个 episode 让模型最终答对的概率提高了多少?提高了就有奖励,没提高就惩罚。
这就是 MRT 的训练目标:
$$\ell_{\text{MRT}}(\pi; \pi_{\text{old}}) := \ell_{\text{FT}}(\pi) + \alpha \cdot \mathbb{E}_{\mathbf{x} \sim \mathcal{D}_{\text{train}}} \left[ \sum_{j=0}^{k-1} \mathbb{E}_{\mathbf{c}_{j-1} \sim \pi_{\text{old}}, \mathbf{z}_j \sim \pi} \left[ r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}_{j-1}) \right] \right]$$
第一项是传统的 outcome reward。第二项是 progress bonus——**它要求模型在每个 episode 都做出可测量的进展**。
---
## 4. 数据说话:MRT 有多强?📊
### 数学推理(1.5B 参数模型)
| 方法 | 相对准确率提升 | Token 效率 vs GRPO | Token 效率 vs Base |
|:---:|:---:|:---:|:---:|
| Outcome-Reward RL (GRPO) | 1x (基线) | 1x | ~1x |
| **MRT** | **2-3x** | **1.5x** | **5x** |
> **注意**:这里的 2-3x 是**相对于基线模型的相对提升的倍数**。也就是说,如果 GRPO 把准确率从 30% 提升到 40%(+10%),MRT 能把准确率从 30% 提升到 50-60%(+20-30%)。这不是 300% 的绝对提升,但在 1.5B 参数规模上做到 SOTA,已经足以让 70B 参数的模型脸红。
### Backtracking 任务(Llama3.1)
| 方法 | Token 效率 |
|:---:|:---:|
| STaR | 1x |
| GRPO | 1x |
| **MRT** | **1.6-1.7x** |
### 最关键的发现
MRT 训练的模型在** extrapolate 到 2x 训练预算**时,依然能保持稳定的 progress 和较低的 cumulative regret。而 outcome-reward RL 训练的模型?预算翻倍,regret 也翻倍。
---
## 5. 我的押注 💰
**我赌 1000 美元:到 2026 年底,主流推理模型(包括下一代 o1/o3、DeepSeek-R2、Qwen3 等)的训练范式会从 outcome-reward RL 转向类似 MRT 的 dense-reward + progress-aware 框架。**
**为什么我这么确信?**
1. **数学上无懈可击**:元 RL 的框架把测试时计算优化从"炼金术"变成了"科学"。累积 regret 是一个可以测量、可以优化的指标。
2. **实验数据硬**:2-3x 相对提升 + 1.5x token 效率。这不是 0.5% 的边际改进,这是**范式级别的跳跃**。
3. **SOTA 模型的失败被量化**:DeepSeek-R1 在复杂问题上的 episode-wise 准确率不升反降——这个发现本身就是一枚炸弹。它意味着**当前最火的长 CoT 训练方法有根本性缺陷**。
4. **实现成本低**:MRT 可以在现有 RL 基础设施(GRPO、PPO)上实现,只需要加一个 dense reward bonus。不需要新架构、不需要新数据。
**敌人是谁?**
- 那些还在"堆 episode 数量"的研究团队——"我们的模型能生成 100 个 episode!"Cool,但你的 cumulative regret 是多少?
- 那些认为"只要最终答对就行"的产品经理——恭喜你,你的模型正在浪费用户 50% 的 API 费用。
- 那些把 o1 的思维链长度当卖点的营销号——**长度不等于智能,progress 才等于智能**。
---
## 6. 为什么这很重要 🌍
如果你关心 AI 的实际部署成本,MRT 意味着:
- **同样的算力,2-3 倍的问题解决能力**
- **同样的模型大小,接近更大模型的性能**
- **真正的预算无关(budget-agnostic)推理**——模型在简单问题上自动缩短,在复杂问题上自动延长
这不仅仅是学术界的一个公式。这是**让 LLM 推理从奢侈品变成日用品的关键一步**。
> **最后的话**:CMU 和 Hugging Face 的这群人做了一件很多人想做但没做的事——**把测试时计算的优化放到了正确的数学框架里**。元强化学习不是新东西,但把它应用到 LLM 推理上,MRT 是第一个认真做的。而第一个认真做的,往往定义下一个十年的标准。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning |
| **作者** | Yuxiao Qu, Matthew Y.R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar |
| **机构** | Carnegie Mellon University, Hugging Face |
| **arXiv ID** | 2503.07572 |
| **日期** | 2025-03-10 |
| **核心贡献** | 将测试时计算优化形式化为元强化学习问题;提出累积 regret 和 progress reward;MRT 方法在 1.5B 参数上达到 SOTA |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力