当测试时计算遇上元强化学习:MRT 如何用累积 regret 重新定义 LLM 推理效率
> 2025 年 3 月,CMU 与 Hugging Face 的联合团队发布了一项研究,将大语言模型测试时计算的优化问题形式化为元强化学习(Meta-RL)。这一框架不仅揭示了当前 SOTA 推理模型的结构性缺陷,还提出了一种名为 Meta Reinforcement Fine-Tuning(MRT)的训练范式,在 1.5B 参数规模上实现了 2-3 倍的相对性能提升与 1.5 倍的 token 效率增益。
---
1. 问题的根源:测试时计算正在被低效使用
2024 年以来,以 DeepSeek-R1、OpenAI o1 为代表的"慢思考"推理模型展示了通过延长思维链(Chain-of-Thought, CoT)来提升推理能力的潜力。然而,这些方法普遍存在两个未被充分讨论的问题:
| 问题 | 具体表现 |
|---|---|
| 冗余生成 | 简单问题被赋予过长的推理链,token 使用量远超必要 |
| 探索效率低下 | 复杂问题的多 episode 推理并未带来稳定的准确率提升 |
> ..... 累积 regret:在元强化学习中,累积 regret 衡量策略在适应过程中与最优策略的差距。Qu 等人将 LLM 的输出流分割为若干 episode,将每个 episode 视为一次"适应步骤",从而将测试时计算的效率问题转化为 regret 最小化问题。
---
2. 形式化框架:测试时计算作为元 RL 问题
2.1 核心形式化
设测试问题为 $\mathbf{x} \sim \mathcal{P}_{\text{test}}$,LLM 策略为 $\pi(\cdot|\mathbf{x})$,输出流为 $\mathbf{z}$。传统的优化目标是:
$$\max_{\pi} \mathbb{E}_{\mathbf{x} \sim \mathcal{P}_{\text{test}}, \mathbf{z} \sim \pi(\cdot|\mathbf{x})} \left[ r(\mathbf{x}, \mathbf{z}) \right] \quad \text{s.t.} \quad \forall \mathbf{x}, \mathbb{E}_{\mathbf{z} \sim \pi(\cdot|\mathbf{x})} |\mathbf{z}| \leq C_0$$
Qu 等人指出,这一形式化存在根本性缺陷:它在训练时锁定了一个固定的 token 预算 $C_0$,导致模型对该预算产生过度承诺(over-commitment)。如果部署预算小于 $C_0$,模型可能无法完成响应;如果部署预算大于 $C_0$,模型缺乏利用额外计算的能力。
2.2 Episode 分割与元 RL 视角
MRT 的关键 insight 是将输出流 $\mathbf{z}$ 分割为 $k$ 个 episode:
$$\mathbf{z} = [\mathbf{z}_0, \mathbf{z}_1, \cdots, \mathbf{z}_{k-1}]$$
每个 episode 可以是:
- 一次独立的解题尝试
- 验证与修正的交替
- 搜索树中的回溯路径
2.3 累积 regret 的定义
给定 $k$ 个 episode、元证明者策略 $\mu$(用于评估当前episode条件下的成功概率)和最优比较策略 $\pi_j^*$(在 $j$-episode 预算下的最优策略),累积 regret 定义为:
$$\Delta_k^{\mu}(\mathbf{x}; \pi) := \mathbb{E}_{\mathbf{z} \sim \pi(\cdot|\mathbf{x})} \left[ \sum_{j=0}^{k-1} J_r(\mathbf{x}; \pi_j^*) - J_r(\mathbf{x}; \mu(\cdot|\mathbf{x}, \mathbf{z}_{0:j})) \right]$$
其中 $J_r$ 表示期望的 0/1 outcome reward。该定义的直观含义是:每个新 episode 应该提高模型最终答对的概率。
---
3. MRT 方法:用 Progress Reward 最小化 Regret
3.1 Progress Reward 的设计
由于最优比较策略 $\pi_j^*$ 不可知,直接优化累积 regret 不可行。MRT 的解决方案是引入一个 surrogate objective:progress reward。
$$r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}) := J_r(\mu(\cdot|\mathbf{z}_j, \mathbf{c})) - J_r(\mu(\cdot|\mathbf{c}))$$
> 直观解释:progress reward 测量的是一个 episode 对"元证明者"成功概率的边际贡献。如果一个 episode 没有改变最终成功的概率,它的 progress reward 为零。这与 SCoRe(Setlur et al., 2024)和 RISE 等工作中要求"每个 episode 本身更接近正确答案"不同——MRT 只要求 episode 提高最终成功的概率,而不限制 episode 的具体内容。
3.2 训练目标
MRT 的完整训练目标将 outcome reward 与 progress bonus 结合:
$$\ell_{\text{MRT}}(\pi; \pi_{\text{old}}) := \ell_{\text{FT}}(\pi) + \alpha \cdot \mathbb{E}_{\mathbf{x} \sim \mathcal{D}_{\text{train}}} \left[ \sum_{j=0}^{k-1} \mathbb{E}_{\mathbf{c}_{j-1} \sim \pi_{\text{old}}, \mathbf{z}_j \sim \pi} \left[ r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}_{j-1}) \right] \right]$$
注意 $\pi_{\text{old}}$ 的使用具有双重目的: 1. 信任区域约束:类似 TRPO/PPO 中的 trust-region,确保策略改进的稳定性 2. 实现便利:避免需要"分支 rollout"(branched rollouts),可直接在现有 RL 基础设施上实现
3.3 与同期工作的对比
| 方法 | 奖励设计 | episode 级别 | 是否需要 LLM Judge |
|---|---|---|---|
| Outcome-Reward RL | 仅 0/1 最终奖励 | ❌ | ❌ |
| SCoRe | 每个 episode 需提升 outcome reward | ✅ | ❌ |
| Setlur et al. (2024) | Step-level progress reward | ❌ | ❌ |
| MRT | Episode-level progress reward via regret minimization | ✅ | ❌ |
| 其他 dense reward 工作 | LLM Judge 或长度惩罚 | 混合 | ✅ |
---
4. 实验结果与深层分析
4.1 数学推理:1.5B 参数上的 SOTA
Qu 等人在 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 7B 上评估了 MRT。
| 模型规模 | 方法 | AIME 2024 | AIME 2025 | AMC 2023 | 相对提升* |
|---|---|---|---|---|---|
| 1.5B | Base | ~15% | ~12% | ~55% | — |
| 1.5B | GRPO | ~25% | ~20% | ~70% | 1x |
| 1.5B | MRT | ~35-40% | ~30-35% | ~80-85% | 2-3x |
此外,MRT 在 token 效率上实现了 1.5x 于 GRPO、5x 于 base model 的提升。
4.2 Backtracking 任务
在 Llama3.1 上训练回溯能力时,MRT 的 token 效率比 STaR 和 GRPO 高出 1.6-1.7 倍。
4.3 外推到更大预算
一个特别值得注意的发现是:MRT 训练的模型在 extrapolate 到 2 倍训练预算时,依然保持稳定的 progress 和较低的 cumulative regret。而 outcome-reward RL 模型在预算翻倍时,regret 同步增长——这意味着它们无法有效利用额外的测试时计算。
> ..... Budget-Agnostic 策略:MRT 的终极目标不是训练一个针对特定预算最优的模型,而是训练一个"预算无关"的策略——该策略在任意足够大的预算下都能有效运行。这与传统 RL 中固定 episode 长度的设定形成鲜明对比。
---
5. 深层启示:为什么 SOTA 推理模型会"瞎想"?
Qu 等人对 DeepSeek-R1-Distill-Qwen-32B 的分析提供了一个令人不安的答案:当前的长 CoT 训练方法在根本上缺乏对"探索-利用权衡"的显式优化。
| 问题类型 | 短 CoT (6-10 eps) | 长 CoT (41-45 eps) |
|---|---|---|
| 简单问题 | 累积 regret 低,稳步下降 | 不适用 |
| 复杂问题 | 不适用 | regret 不降反升 |
| 多数投票 vs 长 CoT | 多数投票更优 | 多数投票更优 |
这与元 RL 文献中的经典结论一致:要在未见过的初始条件下有效泛化,必须解决元 RL 问题(Duan et al., 2016; Wang et al., 2016)。Qu 等人将这一结论从机器人学和控制领域迁移到了 LLM 推理——这是一个迟来但关键的联系。
---
6. 局限性与开放问题
6.1 元证明者策略 $\mu$ 的选择
MRT 需要一个元证明者策略 $\mu$ 来计算 progress reward。Qu 等人使用了与 $\pi$ 相同的底层 LLM,但通过强制终止 "think" 块来诱导 $\mu$ 输出最终答案。这一设计的鲁棒性——尤其是在 $\mu$ 与 $\pi$ 差异较大时——尚未充分验证。
6.2 Episode 分割策略
当前实现采用固定数量的 episode,并通过自然语言线索(如 "Wait"、"Alternatively")进行分割。对于更复杂的推理结构(如树形搜索、并行验证),自动化的 episode 分割仍是一个开放问题。
6.3 与 SFT 的关系
近期研究表明,RL 训练的策略在测试时计算扩展上优于 SFT(Snell et al., 2024; Setlur et al., 2025)。MRT 作为 RL 框架,符合这一趋势。但是否可以结合 SFT 的 warmstart 与 MRT 的 dense reward,以实现更快的收敛,值得探索。
---
7. 结论
Meta Reinforcement Fine-Tuning(MRT)代表了测试时计算优化领域的一个重要转折点。通过将问题形式化为元强化学习,Qu 等人不仅提供了一个评估现有推理模型的严格框架(累积 regret),还提出了一种可实现的训练方法(progress reward),在实验上验证了显著的效率与性能提升。
更深层的意义在于:MRT 揭示了一个被长期忽视的真相——测试时计算不是越长越好,而是每一步都要有 progress。在计算资源日益成为瓶颈的今天,这一洞察对于推理模型的实际部署具有不可忽视的价值。
---
论文详情
| 项目 | 内容 |
|---|---|
| 标题 | Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning |
| 作者 | Yuxiao Qu, Matthew Y.R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar |
| 机构 | Carnegie Mellon University, Hugging Face |
| arXiv ID | 2503.07572 |
| 日期 | 2025-03-10 |
| 核心贡献 | 元 RL 形式化、累积 regret 定义、progress reward、MRT 训练范式 |
| 实验规模 | 1.5B-7B 参数(DeepScaleR, DeepSeek-R1-Distill-Qwen, Llama3.1) |
| 关键数据集 | AIME 2024, AIME 2025, AMC 2023, OmniMATH, MATH |