# Policy-Guided Stepwise Model Routing:基于强化学习的推理步骤级模型选择优化
> 2026 年 5 月,Si 等人提出了 Policy-Guided Stepwise Model Routing,一种通过小型控制策略实现推理链步骤级模型大小动态选择的方法。该方法将逐步模型路由形式化为约束决策问题,使用强化学习训练仅含几百参数的控制策略,结合阈值校准调节性能-效率权衡。在 GSM8K、MATH500 和 OmniMath 上的验证表明,该方法在不依赖大型过程奖励模型(PRM)的情况下,持续改善准确率-成本权衡,且对开放和封闭模型均有效。
---
## 1. 背景:推理时间计算的效率瓶颈
### 1.1 推理成本的增长
Test-time compute scaling 通过在推理阶段分配额外计算资源提升 LLM 性能,但带来了显著的成本增长:
| 策略 | 计算开销 | 适用场景 |
|:---|:---:|:---|
| Self-Consistency | N× 单次推理 | 需要高置信度 |
| Best-of-N | N× 单次推理 + 评估 | 需要最优答案 |
| Tree-of-Thoughts | 分支数 × 深度 | 需要探索多路径 |
| 统一大模型 | 固定最高成本 | 所有场景 |
### 1.2 步骤级异质性
推理链内部的计算需求并非均匀分布:
| 步骤类型 | 典型示例 | 所需模型能力 |
|:---|:---|:---:|
| 基础计算 | "2 + 2 = 4" | 低 |
| 中间验证 | "验证此步骤正确" | 中 |
| 复杂推理 | "证明此定理" | 高 |
| 综合总结 | "因此最终答案是..." | 中 |
> **核心观察**:用最大模型处理所有步骤是计算资源的严重浪费。
---
## 2. 方法:约束决策框架
### 2.1 问题形式化
将步骤级模型路由定义为马尔可夫决策过程:
| 组件 | 定义 |
|:---|:---|
| **状态 $s_t$** | 第 $t$ 步的 CoT intermediate state |
| **动作 $a_t$** | 选择模型 $M \in \{M_1, M_2, \ldots, M_k\}$ |
| **转移** | $s_{t+1} = M(s_t)$ |
| **奖励 $r_t$** | 准确率增益 - 成本惩罚 |
| **约束** | 总成本 $\leq B$ 或 准确率 $\geq A_{\min}$ |
### 2.2 小型控制策略
| 组件 | 规模 | 功能 |
|:---|:---:|:---|
| 策略网络 $\pi_\theta$ | **数百参数** | $s_t \rightarrow a_t$ 映射 |
| 阈值校准 $\tau$ | **标量** | 性能-效率权衡调节 |
| **总计** | **可忽略** | **控制整个推理成本结构** |
> **设计原则**:控制策略的参数量远小于任何候选模型,其训练成本可忽略。
### 2.3 强化学习训练
使用策略梯度方法训练控制策略:
$$\nabla_\theta J = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t\right]$$
其中 $G_t$ 为累积回报,包含:
| 回报成分 | 权重 | 说明 |
|:---|:---:|:---|
| 最终答案正确性 | $\lambda_1$ | 准确率驱动 |
| 模型调用成本 | $-\lambda_2$ | 成本约束 |
| 约束违反惩罚 | $-\lambda_3$ | 硬约束满足 |
### 2.4 阈值校准
训练完成后,通过单参数阈值 $\tau$ 调节行为:
$$\pi_\tau(a|s) = \mathbb{1}[Q(s, a) \geq \tau]$$
| $\tau$ 值 | 行为 | 适用场景 |
|:---:|:---|:---|
| 高 | 优先大模型 | 准确率敏感 |
| 低 | 优先小模型 | 成本敏感 |
> **后训练调节**:无需重新训练,单参数滑动即可适配不同部署需求。
---
## 3. 实验结果
### 3.1 基准配置
| 基准 | 领域 | 难度 |
|:---|:---|:---:|
| GSM8K | 小学数学 | 低-中 |
| MATH500 | 竞赛数学 | 高 |
| OmniMath | 综合数学 | 混合 |
### 3.2 准确率-成本 Pareto 分析
| 方法 | Pareto 效率 | PRM 需求 | 实现复杂度 |
|:---|:---:|:---:|:---:|
| 统一大模型 | 低 | 无 | 低 |
| 手工路由 | 中 | 无 | 中 |
| 大型 PRM 路由 | 高 | **需要** | 高 |
| **Policy-Guided 路由** | **高** | **不需要** | **低** |
> **核心优势**:达到与大型 PRM 方法可比的 Pareto 效率,但避免了 PRM 的训练和部署成本。
### 3.3 跨模型验证
| 模型类型 | 效果 |
|:---|:---:|
| 开放权重模型 | ✅ 有效 |
| API 封闭模型 | ✅ 有效 |
---
## 4. 理论分析
### 4.1 与最优路由的差距
定义最优路由为拥有完整未来信息的全知决策者:
$$\text{Gap} = J(\pi^*) - J(\pi_\theta)$$
实验表明,小型控制策略的 gap 在可接受范围内,验证了"步骤级难度可预测"的假设。
### 4.2 成本敏感度分析
| 成本比例(vs 统一大模型) | 准确率保留 |
|:---:|:---:|
| 100% | 100% |
| 70% | ~98% |
| 50% | ~95% |
| 30% | ~90% |
> **边际递减**:前 50% 的成本削减仅损失 ~5% 准确率,后续削减的边际损失增大。
---
## 5. 与相关工作的联系
### 5.1 与 Coupling Tax(Round 16)
Coupling Tax 关注推理链与答案的预算竞争。本研究关注**推理链内部的步骤级预算分配**,两者共同构成完整的推理预算优化图景。
### 5.2 与 DAST(Round 7)
DAST 在问题级别根据难度分配计算。本研究将自适应粒度细化到**步骤级别**,实现了更精细的资源控制。
### 5.3 与 AutoTTS(Round 21)
AutoTTS 自动发现 TTS 策略。本研究展示了另一种自动化范式:**用 RL 自动学习步骤级模型选择策略**,两者互补。
### 5.4 与 80/20 Rule(Round 14)
Round 14 发现 20% token 承载关键梯度信号。本研究的"步骤级路由"可视为该思想在模型选择层面的延伸:**关键步骤用大模型,非关键步骤用小模型**。
---
## 6. 局限性与未来方向
### 6.1 模型库粒度
当前使用 2-3 个模型选项。扩展至更多选项时的策略扩展性:
- 动作空间维度增加对控制策略的影响
- 是否需要层次化路由(先选"系列"再选"规模")
### 6.2 跨领域迁移
控制策略在数学推理上训练后,能否迁移到:
- 代码生成(语法检查 vs 算法设计)
- 科学推理(事实检索 vs 假设推导)
- 创意写作(结构规划 vs 语言表达)
### 6.3 与并行推理的结合
Tree-of-Thoughts 中的并行分支如何路由:
- 每个分支独立路由?
- 全局协调避免资源过度集中?
### 6.4 在线适应
部署后的持续优化:
- 在线 RL 微调控制策略
- 用户反馈驱动的阈值自适应
---
## 7. 结论
Policy-Guided Stepwise Model Routing 为推理时间计算优化提供了一个轻量级、可扩展的解决方案。其核心贡献在于:
1. **约束决策框架**:将路由问题形式化为可 principled 求解的优化问题
2. **极简控制策略**:数百参数即可实现有效路由
3. **无 PRM 依赖**:避免了训练大型过程奖励模型的瓶颈
4. **可调校性**:单参数阈值即可适配不同部署场景
5. **实证有效**:在多个数学基准上验证
在推理成本日益成为部署瓶颈的背景下,步骤级模型路由代表了从"统一计算"向"自适应计算"演进的关键一步。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Policy-Guided Stepwise Model Routing for Cost-Effective Reasoning |
| **作者** | Wenwen Si, Insup Lee, Osbert Bastani |
| **机构** | University of Pennsylvania |
| **arXiv ID** | 2605.06116 |
| **日期** | 2026-05-07 |
| **核心贡献** | 约束决策框架;小型控制策略(数百参数);RL 训练 + 阈值校准;无需 PRM;步骤级模型路由 |
| **关键结果** | GSM8K/MATH500/OmniMath 持续改善准确率-成本权衡;与大型 PRM 方法可比;开放/封闭模型均有效 |
#Research #ModelRouting #CostEffectiveReasoning #RL #InferenceOptimization #智柴 🔬
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力