当测试时计算遇上元强化学习:MRT 如何用累积 regret 重新定义 LLM 推理效率
2025 年 3 月,CMU 与 Hugging Face 的联合团队发布了一项研究,将大语言模型测试时计算的优化问题形式化为元强化学习(Meta-RL)。这一框架不仅揭示了当前 SOTA 推理模型的结构性缺陷,还提出了一种名为 Meta Reinforcement Fine-Tuning(MRT)的训练范式,在 1.5B 参数规模上实现了 2-3 倍的相对性能提升与 1.5 倍的 token 效率增益。
1. 问题的根源:测试时计算正在被低效使用
2024 年以来,以 DeepSeek-R1、OpenAI o1 为代表的"慢思考"推理模型展示了通过延长思维链(Chain-of-Thought, CoT)来提升推理能力的潜力。然而,这些方法普遍存在两个未被充分讨论的问题:
| 问题 | 具体表现 |
|---|---|
| 冗余生成 | 简单问题被赋予过长的推理链,token 使用量远超必要 |
| 探索效率低下 | 复杂问题的多 episode 推理并未带来稳定的准确率提升 |
Qu 等人(2025)对 DeepSeek-R1-Distill-Qwen-32B 的系统分析揭示了后者的严重程度。在 OmniMATH 和 AIME 2024 上,当模型的思维链包含 41-45 个 episode 时,后续 episode 的引入并未提高解题概率,有时甚至导致准确率下降。更值得注意的是,一种基于截断思维链的多数投票(majority voting)基线,在 FLOPs 匹配评估中经常优于完整的长思维链。
..... 累积 regret:在元强化学习中,累积 regret 衡量策略在适应过程中与最优策略的差距。Qu 等人将 LLM 的输出流分割为若干 episode,将每个 episode 视为一次"适应步骤",从而将测试时计算的效率问题转化为 regret 最小化问题。
2. 形式化框架:测试时计算作为元 RL 问题
2.1 核心形式化
设测试问题为 \(\mathbf{x} \sim \mathcal{P}_{\text{test}}\),LLM 策略为 \(\pi(\cdot|\mathbf{x})\),输出流为 \(\mathbf{z}\)。传统的优化目标是:
Qu 等人指出,这一形式化存在根本性缺陷:它在训练时锁定了一个固定的 token 预算 \(C_0\),导致模型对该预算产生过度承诺(over-commitment)。如果部署预算小于 \(C_0\),模型可能无法完成响应;如果部署预算大于 \(C_0\),模型缺乏利用额外计算的能力。
2.2 Episode 分割与元 RL 视角
MRT 的关键 insight 是将输出流 \(\mathbf{z}\) 分割为 \(k\) 个 episode:
每个 episode 可以是:
- 一次独立的解题尝试
- 验证与修正的交替
- 搜索树中的回溯路径
..... 元 RL 的本质:与传统 RL 训练一个策略来最大化奖励不同,元 RL 训练一个"学习算法",使其能在测试时通过少量交互(即 episode)快速适应新任务。在 MRT 的设定中,LLM 本身就是在测试时运行的学习算法,而每个 episode 是它针对当前问题的适应步骤。
2.3 累积 regret 的定义
给定 \(k\) 个 episode、元证明者策略 \(\mu\)(用于评估当前episode条件下的成功概率)和最优比较策略 \(\pi_j^*\)(在 \(j\)-episode 预算下的最优策略),累积 regret 定义为:
其中 \(J_r\) 表示期望的 0/1 outcome reward。该定义的直观含义是:每个新 episode 应该提高模型最终答对的概率。
3. MRT 方法:用 Progress Reward 最小化 Regret
3.1 Progress Reward 的设计
由于最优比较策略 \(\pi_j^*\) 不可知,直接优化累积 regret 不可行。MRT 的解决方案是引入一个 surrogate objective:progress reward。
直观解释:progress reward 测量的是一个 episode 对"元证明者"成功概率的边际贡献。如果一个 episode 没有改变最终成功的概率,它的 progress reward 为零。这与 SCoRe(Setlur et al., 2024)和 RISE 等工作中要求"每个 episode 本身更接近正确答案"不同——MRT 只要求 episode 提高最终成功的概率,而不限制 episode 的具体内容。
3.2 训练目标
MRT 的完整训练目标将 outcome reward 与 progress bonus 结合:
注意 \(\pi_{\text{old}}\) 的使用具有双重目的:
- 信任区域约束:类似 TRPO/PPO 中的 trust-region,确保策略改进的稳定性
- 实现便利:避免需要"分支 rollout"(branched rollouts),可直接在现有 RL 基础设施上实现
3.3 与同期工作的对比
| 方法 | 奖励设计 | episode 级别 | 是否需要 LLM Judge |
|---|---|---|---|
| Outcome-Reward RL | 仅 0/1 最终奖励 | ❌ | ❌ |
| SCoRe | 每个 episode 需提升 outcome reward | ✅ | ❌ |
| Setlur et al. (2024) | Step-level progress reward | ❌ | ❌ |
| MRT | Episode-level progress reward via regret minimization | ✅ | ❌ |
| 其他 dense reward 工作 | LLM Judge 或长度惩罚 | 混合 | ✅ |
..... 关键区别:MRT 的 progress reward 是在 episode 级别而非 step 级别计算的。这与 Setlur 等人(2024)的工作形成对比——后者在单个 episode 内的 step 上计算 progress,而 MRT 关注 episode 之间的 progress。这种设计使得 MRT 天然适配于长 CoT 模型,其中每个 "think" 块可被视为一个 episode。
4. 实验结果与深层分析
4.1 数学推理:1.5B 参数上的 SOTA
Qu 等人在 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 7B 上评估了 MRT。
| 模型规模 | 方法 | AIME 2024 | AIME 2025 | AMC 2023 | 相对提升* |
|---|---|---|---|---|---|
| 1.5B | Base | ~15% | ~12% | ~55% | — |
| 1.5B | GRPO | ~25% | ~20% | ~70% | 1x |
| 1.5B | MRT | ~35-40% | ~30-35% | ~80-85% | 2-3x |
*相对提升 = (Method - Base) / (GRPO - Base)
此外,MRT 在 token 效率上实现了 1.5x 于 GRPO、5x 于 base model 的提升。
4.2 Backtracking 任务
在 Llama3.1 上训练回溯能力时,MRT 的 token 效率比 STaR 和 GRPO 高出 1.6-1.7 倍。
4.3 外推到更大预算
一个特别值得注意的发现是:MRT 训练的模型在** extrapolate 到 2 倍训练预算**时,依然保持稳定的 progress 和较低的 cumulative regret。而 outcome-reward RL 模型在预算翻倍时,regret 同步增长——这意味着它们无法有效利用额外的测试时计算。
..... Budget-Agnostic 策略:MRT 的终极目标不是训练一个针对特定预算最优的模型,而是训练一个"预算无关"的策略——该策略在任意足够大的预算下都能有效运行。这与传统 RL 中固定 episode 长度的设定形成鲜明对比。
5. 深层启示:为什么 SOTA 推理模型会"瞎想"?
Qu 等人对 DeepSeek-R1-Distill-Qwen-32B 的分析提供了一个令人不安的答案:当前的长 CoT 训练方法在根本上缺乏对"探索-利用权衡"的显式优化。
| 问题类型 | 短 CoT (6-10 eps) | 长 CoT (41-45 eps) |
|---|---|---|
| 简单问题 | 累积 regret 低,稳步下降 | 不适用 |
| 复杂问题 | 不适用 | regret 不降反升 |
| 多数投票 vs 长 CoT | 多数投票更优 | 多数投票更优 |
核心洞察:当模型用 outcome-reward RL 训练时,它学到的是"某种方式让答案正确",而不是"如何通过多个 episode 逐步逼近正确答案"。对于复杂问题,这种训练方式导致模型在已知策略上反复"exploit",而不是有效地"explore"新策略。
这与元 RL 文献中的经典结论一致:要在未见过的初始条件下有效泛化,必须解决元 RL 问题(Duan et al., 2016; Wang et al., 2016)。Qu 等人将这一结论从机器人学和控制领域迁移到了 LLM 推理——这是一个迟来但关键的联系。
6. 局限性与开放问题
6.1 元证明者策略 \(\mu\) 的选择
MRT 需要一个元证明者策略 \(\mu\) 来计算 progress reward。Qu 等人使用了与 \(\pi\) 相同的底层 LLM,但通过强制终止 "think" 块来诱导 \(\mu\) 输出最终答案。这一设计的鲁棒性——尤其是在 \(\mu\) 与 \(\pi\) 差异较大时——尚未充分验证。
6.2 Episode 分割策略
当前实现采用固定数量的 episode,并通过自然语言线索(如 "Wait"、"Alternatively")进行分割。对于更复杂的推理结构(如树形搜索、并行验证),自动化的 episode 分割仍是一个开放问题。
6.3 与 SFT 的关系
近期研究表明,RL 训练的策略在测试时计算扩展上优于 SFT(Snell et al., 2024; Setlur et al., 2025)。MRT 作为 RL 框架,符合这一趋势。但是否可以结合 SFT 的 warmstart 与 MRT 的 dense reward,以实现更快的收敛,值得探索。
7. 结论
Meta Reinforcement Fine-Tuning(MRT)代表了测试时计算优化领域的一个重要转折点。通过将问题形式化为元强化学习,Qu 等人不仅提供了一个评估现有推理模型的严格框架(累积 regret),还提出了一种可实现的训练方法(progress reward),在实验上验证了显著的效率与性能提升。
更深层的意义在于:MRT 揭示了一个被长期忽视的真相——测试时计算不是越长越好,而是每一步都要有 progress。在计算资源日益成为瓶颈的今天,这一洞察对于推理模型的实际部署具有不可忽视的价值。
论文详情
| 项目 | 内容 |
|---|---|
| 标题 | Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning |
| 作者 | Yuxiao Qu, Matthew Y.R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar |
| 机构 | Carnegie Mellon University, Hugging Face |
| arXiv ID | 2503.07572 |
| 日期 | 2025-03-10 |
| 核心贡献 | 元 RL 形式化、累积 regret 定义、progress reward、MRT 训练范式 |
| 实验规模 | 1.5B-7B 参数(DeepScaleR, DeepSeek-R1-Distill-Qwen, Llama3.1) |
| 关键数据集 | AIME 2024, AIME 2025, AMC 2023, OmniMATH, MATH |
#Research #MetaRL #TestTimeCompute #Efficiency #智柴 🔬
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。