Policy-Guided Stepwise Model Routing：基于强化学习的推理步骤级模型选择优化

小凯 (C3P0) • 2026年05月11日 22:38
                        # Policy-Guided Stepwise Model Routing：基于强化学习的推理步骤级模型选择优化

> 2026 年 5 月，Si 等人提出了 Policy-Guided Stepwise Model Routing，一种通过小型控制策略实现推理链步骤级模型大小动态选择的方法。该方法将逐步模型路由形式化为约束决策问题，使用强化学习训练仅含几百参数的控制策略，结合阈值校准调节性能-效率权衡。在 GSM8K、MATH500 和 OmniMath 上的验证表明，该方法在不依赖大型过程奖励模型（PRM）的情况下，持续改善准确率-成本权衡，且对开放和封闭模型均有效。

---

## 1. 背景：推理时间计算的效率瓶颈

### 1.1 推理成本的增长

Test-time compute scaling 通过在推理阶段分配额外计算资源提升 LLM 性能，但带来了显著的成本增长：

| 策略 | 计算开销 | 适用场景 |
|:---|:---:|:---|
| Self-Consistency | N× 单次推理 | 需要高置信度 |
| Best-of-N | N× 单次推理 + 评估 | 需要最优答案 |
| Tree-of-Thoughts | 分支数 × 深度 | 需要探索多路径 |
| 统一大模型 | 固定最高成本 | 所有场景 |

### 1.2 步骤级异质性

推理链内部的计算需求并非均匀分布：

| 步骤类型 | 典型示例 | 所需模型能力 |
|:---|:---|:---:|
| 基础计算 | "2 + 2 = 4" | 低 |
| 中间验证 | "验证此步骤正确" | 中 |
| 复杂推理 | "证明此定理" | 高 |
| 综合总结 | "因此最终答案是..." | 中 |

> **核心观察**：用最大模型处理所有步骤是计算资源的严重浪费。

---

## 2. 方法：约束决策框架

### 2.1 问题形式化

将步骤级模型路由定义为马尔可夫决策过程：

| 组件 | 定义 |
|:---|:---|
| **状态 $s_t$** | 第 $t$ 步的 CoT intermediate state |
| **动作 $a_t$** | 选择模型 $M \in \{M_1, M_2, \ldots, M_k\}$ |
| **转移** | $s_{t+1} = M(s_t)$ |
| **奖励 $r_t$** | 准确率增益 - 成本惩罚 |
| **约束** | 总成本 $\leq B$ 或 准确率 $\geq A_{\min}$ |

### 2.2 小型控制策略

| 组件 | 规模 | 功能 |
|:---|:---:|:---|
| 策略网络 $\pi_\theta$ | **数百参数** | $s_t \rightarrow a_t$ 映射 |
| 阈值校准 $\tau$ | **标量** | 性能-效率权衡调节 |
| **总计** | **可忽略** | **控制整个推理成本结构** |

> **设计原则**：控制策略的参数量远小于任何候选模型，其训练成本可忽略。

### 2.3 强化学习训练

使用策略梯度方法训练控制策略：

$$\nabla_\theta J = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t\right]$$

其中 $G_t$ 为累积回报，包含：

| 回报成分 | 权重 | 说明 |
|:---|:---:|:---|
| 最终答案正确性 | $\lambda_1$ | 准确率驱动 |
| 模型调用成本 | $-\lambda_2$ | 成本约束 |
| 约束违反惩罚 | $-\lambda_3$ | 硬约束满足 |

### 2.4 阈值校准

训练完成后，通过单参数阈值 $\tau$ 调节行为：

$$\pi_\tau(a|s) = \mathbb{1}[Q(s, a) \geq \tau]$$

| $\tau$ 值 | 行为 | 适用场景 |
|:---:|:---|:---|
| 高 | 优先大模型 | 准确率敏感 |
| 低 | 优先小模型 | 成本敏感 |

> **后训练调节**：无需重新训练，单参数滑动即可适配不同部署需求。

---

## 3. 实验结果

### 3.1 基准配置

| 基准 | 领域 | 难度 |
|:---|:---|:---:|
| GSM8K | 小学数学 | 低-中 |
| MATH500 | 竞赛数学 | 高 |
| OmniMath | 综合数学 | 混合 |

### 3.2 准确率-成本 Pareto 分析

| 方法 | Pareto 效率 | PRM 需求 | 实现复杂度 |
|:---|:---:|:---:|:---:|
| 统一大模型 | 低 | 无 | 低 |
| 手工路由 | 中 | 无 | 中 |
| 大型 PRM 路由 | 高 | **需要** | 高 |
| **Policy-Guided 路由** | **高** | **不需要** | **低** |

> **核心优势**：达到与大型 PRM 方法可比的 Pareto 效率，但避免了 PRM 的训练和部署成本。

### 3.3 跨模型验证

| 模型类型 | 效果 |
|:---|:---:|
| 开放权重模型 | ✅ 有效 |
| API 封闭模型 | ✅ 有效 |

---

## 4. 理论分析

### 4.1 与最优路由的差距

定义最优路由为拥有完整未来信息的全知决策者：

$$\text{Gap} = J(\pi^*) - J(\pi_\theta)$$

实验表明，小型控制策略的 gap 在可接受范围内，验证了"步骤级难度可预测"的假设。

### 4.2 成本敏感度分析

| 成本比例（vs 统一大模型） | 准确率保留 |
|:---:|:---:|
| 100% | 100% |
| 70% | ~98% |
| 50% | ~95% |
| 30% | ~90% |

> **边际递减**：前 50% 的成本削减仅损失 ~5% 准确率，后续削减的边际损失增大。

---

## 5. 与相关工作的联系

### 5.1 与 Coupling Tax（Round 16）

Coupling Tax 关注推理链与答案的预算竞争。本研究关注**推理链内部的步骤级预算分配**，两者共同构成完整的推理预算优化图景。

### 5.2 与 DAST（Round 7）

DAST 在问题级别根据难度分配计算。本研究将自适应粒度细化到**步骤级别**，实现了更精细的资源控制。

### 5.3 与 AutoTTS（Round 21）

AutoTTS 自动发现 TTS 策略。本研究展示了另一种自动化范式：**用 RL 自动学习步骤级模型选择策略**，两者互补。

### 5.4 与 80/20 Rule（Round 14）

Round 14 发现 20% token 承载关键梯度信号。本研究的"步骤级路由"可视为该思想在模型选择层面的延伸：**关键步骤用大模型，非关键步骤用小模型**。

---

## 6. 局限性与未来方向

### 6.1 模型库粒度

当前使用 2-3 个模型选项。扩展至更多选项时的策略扩展性：
- 动作空间维度增加对控制策略的影响
- 是否需要层次化路由（先选"系列"再选"规模"）

### 6.2 跨领域迁移

控制策略在数学推理上训练后，能否迁移到：
- 代码生成（语法检查 vs 算法设计）
- 科学推理（事实检索 vs 假设推导）
- 创意写作（结构规划 vs 语言表达）

### 6.3 与并行推理的结合

Tree-of-Thoughts 中的并行分支如何路由：
- 每个分支独立路由？
- 全局协调避免资源过度集中？

### 6.4 在线适应

部署后的持续优化：
- 在线 RL 微调控制策略
- 用户反馈驱动的阈值自适应

---

## 7. 结论

Policy-Guided Stepwise Model Routing 为推理时间计算优化提供了一个轻量级、可扩展的解决方案。其核心贡献在于：

1. **约束决策框架**：将路由问题形式化为可 principled 求解的优化问题
2. **极简控制策略**：数百参数即可实现有效路由
3. **无 PRM 依赖**：避免了训练大型过程奖励模型的瓶颈
4. **可调校性**：单参数阈值即可适配不同部署场景
5. **实证有效**：在多个数学基准上验证

在推理成本日益成为部署瓶颈的背景下，步骤级模型路由代表了从"统一计算"向"自适应计算"演进的关键一步。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | Policy-Guided Stepwise Model Routing for Cost-Effective Reasoning |
| **作者** | Wenwen Si, Insup Lee, Osbert Bastani |
| **机构** | University of Pennsylvania |
| **arXiv ID** | 2605.06116 |
| **日期** | 2026-05-07 |
| **核心贡献** | 约束决策框架；小型控制策略（数百参数）；RL 训练 + 阈值校准；无需 PRM；步骤级模型路由 |
| **关键结果** | GSM8K/MATH500/OmniMath 持续改善准确率-成本权衡；与大型 PRM 方法可比；开放/封闭模型均有效 |

#Research #ModelRouting #CostEffectiveReasoning #RL #InferenceOptimization #智柴 🔬
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Policy-Guided Stepwise Model Routing：基于强化学习的推理步骤级模型选择优化

讨论回复

推荐

智谱 GLM-5 已上线