当测试时计算遇上元强化学习：MRT 如何用累积 regret 重新定义 LLM 推理效率

> 2025 年 3 月，CMU 与 Hugging Face 的联合团队发布了一项研究，将大语言模型测试时计算的优化问题形式化为元强化学习（Meta-RL）。这一框架不仅揭示了当前 SOTA 推理模型的结构性缺陷，还提出了一种名为 Meta Reinforcement Fine-Tuning（MRT）的训练范式，在 1.5B 参数规模上实现了 2-3 倍的相对性能提升与 1.5 倍的 token 效率增益。

---

1. 问题的根源：测试时计算正在被低效使用

2024 年以来，以 DeepSeek-R1、OpenAI o1 为代表的"慢思考"推理模型展示了通过延长思维链（Chain-of-Thought, CoT）来提升推理能力的潜力。然而，这些方法普遍存在两个未被充分讨论的问题：

问题	具体表现
冗余生成	简单问题被赋予过长的推理链，token 使用量远超必要
探索效率低下	复杂问题的多 episode 推理并未带来稳定的准确率提升

Qu 等人（2025）对 DeepSeek-R1-Distill-Qwen-32B 的系统分析揭示了后者的严重程度。在 OmniMATH 和 AIME 2024 上，当模型的思维链包含 41-45 个 episode 时，后续 episode 的引入并未提高解题概率，有时甚至导致准确率下降。更值得注意的是，一种基于截断思维链的多数投票（majority voting）基线，在 FLOPs 匹配评估中经常优于完整的长思维链。

> ..... 累积 regret：在元强化学习中，累积 regret 衡量策略在适应过程中与最优策略的差距。Qu 等人将 LLM 的输出流分割为若干 episode，将每个 episode 视为一次"适应步骤"，从而将测试时计算的效率问题转化为 regret 最小化问题。

---

2. 形式化框架：测试时计算作为元 RL 问题

2.1 核心形式化

设测试问题为 $\mathbf{x} \sim \mathcal{P}_{\text{test}}$，LLM 策略为 $\pi(\cdot|\mathbf{x})$，输出流为 $\mathbf{z}$。传统的优化目标是：

$$\max_{\pi} \mathbb{E}_{\mathbf{x} \sim \mathcal{P}_{\text{test}}, \mathbf{z} \sim \pi(\cdot|\mathbf{x})} \left[ r(\mathbf{x}, \mathbf{z}) \right] \quad \text{s.t.} \quad \forall \mathbf{x}, \mathbb{E}_{\mathbf{z} \sim \pi(\cdot|\mathbf{x})} |\mathbf{z}| \leq C_0$$

Qu 等人指出，这一形式化存在根本性缺陷：它在训练时锁定了一个固定的 token 预算 $C_0$，导致模型对该预算产生过度承诺（over-commitment）。如果部署预算小于 $C_0$，模型可能无法完成响应；如果部署预算大于 $C_0$，模型缺乏利用额外计算的能力。

2.2 Episode 分割与元 RL 视角

MRT 的关键 insight 是将输出流 $\mathbf{z}$ 分割为 $k$ 个 episode：

$$\mathbf{z} = [\mathbf{z}_0, \mathbf{z}_1, \cdots, \mathbf{z}_{k-1}]$$

每个 episode 可以是：

一次独立的解题尝试
验证与修正的交替
搜索树中的回溯路径

> ..... 元 RL 的本质：与传统 RL 训练一个策略来最大化奖励不同，元 RL 训练一个"学习算法"，使其能在测试时通过少量交互（即 episode）快速适应新任务。在 MRT 的设定中，LLM 本身就是在测试时运行的学习算法，而每个 episode 是它针对当前问题的适应步骤。

2.3 累积 regret 的定义

给定 $k$ 个 episode、元证明者策略 $\mu$（用于评估当前episode条件下的成功概率）和最优比较策略 $\pi_j^*$（在 $j$-episode 预算下的最优策略），累积 regret 定义为：

$$\Delta_k^{\mu}(\mathbf{x}; \pi) := \mathbb{E}_{\mathbf{z} \sim \pi(\cdot|\mathbf{x})} \left[ \sum_{j=0}^{k-1} J_r(\mathbf{x}; \pi_j^*) - J_r(\mathbf{x}; \mu(\cdot|\mathbf{x}, \mathbf{z}_{0:j})) \right]$$

其中 $J_r$ 表示期望的 0/1 outcome reward。该定义的直观含义是：每个新 episode 应该提高模型最终答对的概率。

---

3. MRT 方法：用 Progress Reward 最小化 Regret

3.1 Progress Reward 的设计

由于最优比较策略 $\pi_j^*$ 不可知，直接优化累积 regret 不可行。MRT 的解决方案是引入一个 surrogate objective：progress reward。

$$r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}) := J_r(\mu(\cdot|\mathbf{z}_j, \mathbf{c})) - J_r(\mu(\cdot|\mathbf{c}))$$

> 直观解释：progress reward 测量的是一个 episode 对"元证明者"成功概率的边际贡献。如果一个 episode 没有改变最终成功的概率，它的 progress reward 为零。这与 SCoRe（Setlur et al., 2024）和 RISE 等工作中要求"每个 episode 本身更接近正确答案"不同——MRT 只要求 episode 提高最终成功的概率，而不限制 episode 的具体内容。

3.2 训练目标

MRT 的完整训练目标将 outcome reward 与 progress bonus 结合：

$$\ell_{\text{MRT}}(\pi; \pi_{\text{old}}) := \ell_{\text{FT}}(\pi) + \alpha \cdot \mathbb{E}_{\mathbf{x} \sim \mathcal{D}_{\text{train}}} \left[ \sum_{j=0}^{k-1} \mathbb{E}_{\mathbf{c}_{j-1} \sim \pi_{\text{old}}, \mathbf{z}_j \sim \pi} \left[ r_{\text{prg}}^{\mu}(\mathbf{z}_j; \mathbf{c}_{j-1}) \right] \right]$$

注意 $\pi_{\text{old}}$ 的使用具有双重目的： 1. 信任区域约束：类似 TRPO/PPO 中的 trust-region，确保策略改进的稳定性 2. 实现便利：避免需要"分支 rollout"（branched rollouts），可直接在现有 RL 基础设施上实现

3.3 与同期工作的对比

方法	奖励设计	episode 级别	是否需要 LLM Judge
Outcome-Reward RL	仅 0/1 最终奖励	❌	❌
SCoRe	每个 episode 需提升 outcome reward	✅	❌
Setlur et al. (2024)	Step-level progress reward	❌	❌
MRT	Episode-level progress reward via regret minimization	✅	❌
其他 dense reward 工作	LLM Judge 或长度惩罚	混合	✅

> ..... 关键区别：MRT 的 progress reward 是在 episode 级别而非 step 级别计算的。这与 Setlur 等人（2024）的工作形成对比——后者在单个 episode 内的 step 上计算 progress，而 MRT 关注 episode 之间的 progress。这种设计使得 MRT 天然适配于长 CoT 模型，其中每个 "think" 块可被视为一个 episode。

---

4. 实验结果与深层分析

4.1 数学推理：1.5B 参数上的 SOTA

Qu 等人在 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 7B 上评估了 MRT。

模型规模	方法	AIME 2024	AIME 2025	AMC 2023	相对提升*
1.5B	Base	~15%	~12%	~55%	—
1.5B	GRPO	~25%	~20%	~70%	1x
1.5B	MRT	~35-40%	~30-35%	~80-85%	2-3x

*相对提升 = (Method - Base) / (GRPO - Base)

此外，MRT 在 token 效率上实现了 1.5x 于 GRPO、5x 于 base model 的提升。

4.2 Backtracking 任务

在 Llama3.1 上训练回溯能力时，MRT 的 token 效率比 STaR 和 GRPO 高出 1.6-1.7 倍。

4.3 外推到更大预算

一个特别值得注意的发现是：MRT 训练的模型在 extrapolate 到 2 倍训练预算时，依然保持稳定的 progress 和较低的 cumulative regret。而 outcome-reward RL 模型在预算翻倍时，regret 同步增长——这意味着它们无法有效利用额外的测试时计算。

> ..... Budget-Agnostic 策略：MRT 的终极目标不是训练一个针对特定预算最优的模型，而是训练一个"预算无关"的策略——该策略在任意足够大的预算下都能有效运行。这与传统 RL 中固定 episode 长度的设定形成鲜明对比。

---

5. 深层启示：为什么 SOTA 推理模型会"瞎想"？

Qu 等人对 DeepSeek-R1-Distill-Qwen-32B 的分析提供了一个令人不安的答案：当前的长 CoT 训练方法在根本上缺乏对"探索-利用权衡"的显式优化。

问题类型	短 CoT (6-10 eps)	长 CoT (41-45 eps)
简单问题	累积 regret 低，稳步下降	不适用
复杂问题	不适用	regret 不降反升
多数投票 vs 长 CoT	多数投票更优	多数投票更优

> 核心洞察：当模型用 outcome-reward RL 训练时，它学到的是"某种方式让答案正确"，而不是"如何通过多个 episode 逐步逼近正确答案"。对于复杂问题，这种训练方式导致模型在已知策略上反复"exploit"，而不是有效地"explore"新策略。

这与元 RL 文献中的经典结论一致：要在未见过的初始条件下有效泛化，必须解决元 RL 问题（Duan et al., 2016; Wang et al., 2016）。Qu 等人将这一结论从机器人学和控制领域迁移到了 LLM 推理——这是一个迟来但关键的联系。

---

6. 局限性与开放问题

6.1 元证明者策略 $\mu$ 的选择

MRT 需要一个元证明者策略 $\mu$ 来计算 progress reward。Qu 等人使用了与 $\pi$ 相同的底层 LLM，但通过强制终止 "think" 块来诱导 $\mu$ 输出最终答案。这一设计的鲁棒性——尤其是在 $\mu$ 与 $\pi$ 差异较大时——尚未充分验证。

6.2 Episode 分割策略

当前实现采用固定数量的 episode，并通过自然语言线索（如 "Wait"、"Alternatively"）进行分割。对于更复杂的推理结构（如树形搜索、并行验证），自动化的 episode 分割仍是一个开放问题。

6.3 与 SFT 的关系

近期研究表明，RL 训练的策略在测试时计算扩展上优于 SFT（Snell et al., 2024; Setlur et al., 2025）。MRT 作为 RL 框架，符合这一趋势。但是否可以结合 SFT 的 warmstart 与 MRT 的 dense reward，以实现更快的收敛，值得探索。

---

7. 结论

Meta Reinforcement Fine-Tuning（MRT）代表了测试时计算优化领域的一个重要转折点。通过将问题形式化为元强化学习，Qu 等人不仅提供了一个评估现有推理模型的严格框架（累积 regret），还提出了一种可实现的训练方法（progress reward），在实验上验证了显著的效率与性能提升。

更深层的意义在于：MRT 揭示了一个被长期忽视的真相——测试时计算不是越长越好，而是每一步都要有 progress。在计算资源日益成为瓶颈的今天，这一洞察对于推理模型的实际部署具有不可忽视的价值。

---

论文详情

项目	内容
标题	Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
作者	Yuxiao Qu, Matthew Y.R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar
机构	Carnegie Mellon University, Hugging Face
arXiv ID	2503.07572
日期	2025-03-10
核心贡献	元 RL 形式化、累积 regret 定义、progress reward、MRT 训练范式
实验规模	1.5B-7B 参数（DeepScaleR, DeepSeek-R1-Distill-Qwen, Llama3.1）
关键数据集	AIME 2024, AIME 2025, AMC 2023, OmniMATH, MATH

#Research #MetaRL #TestTimeCompute #Efficiency #智柴 🔬

当测试时计算遇上元强化学习：MRT 如何用累积 regret 重新定义 LLM 推理效率

当测试时计算遇上元强化学习：MRT 如何用累积 regret 重新定义 LLM 推理效率

1. 问题的根源：测试时计算正在被低效使用

2. 形式化框架：测试时计算作为元 RL 问题

2.1 核心形式化

2.2 Episode 分割与元 RL 视角

2.3 累积 regret 的定义

3. MRT 方法：用 Progress Reward 最小化 Regret

3.1 Progress Reward 的设计

3.2 训练目标

3.3 与同期工作的对比

4. 实验结果与深层分析

4.1 数学推理：1.5B 参数上的 SOTA

4.2 Backtracking 任务

4.3 外推到更大预算

5. 深层启示：为什么 SOTA 推理模型会"瞎想"？

6. 局限性与开放问题

6.1 元证明者策略 $\mu$ 的选择

6.2 Episode 分割策略

6.3 与 SFT 的关系

7. 结论

论文详情

🌟 智谱 GLM-5 已上线