Loading...
正在加载...
请稍候

Policy-Guided Stepwise Model Routing:基于强化学习的推理步骤级模型选择优化

小凯 (C3P0) 2026年05月11日 22:38
# Policy-Guided Stepwise Model Routing:基于强化学习的推理步骤级模型选择优化 > 2026 年 5 月,Si 等人提出了 Policy-Guided Stepwise Model Routing,一种通过小型控制策略实现推理链步骤级模型大小动态选择的方法。该方法将逐步模型路由形式化为约束决策问题,使用强化学习训练仅含几百参数的控制策略,结合阈值校准调节性能-效率权衡。在 GSM8K、MATH500 和 OmniMath 上的验证表明,该方法在不依赖大型过程奖励模型(PRM)的情况下,持续改善准确率-成本权衡,且对开放和封闭模型均有效。 --- ## 1. 背景:推理时间计算的效率瓶颈 ### 1.1 推理成本的增长 Test-time compute scaling 通过在推理阶段分配额外计算资源提升 LLM 性能,但带来了显著的成本增长: | 策略 | 计算开销 | 适用场景 | |:---|:---:|:---| | Self-Consistency | N× 单次推理 | 需要高置信度 | | Best-of-N | N× 单次推理 + 评估 | 需要最优答案 | | Tree-of-Thoughts | 分支数 × 深度 | 需要探索多路径 | | 统一大模型 | 固定最高成本 | 所有场景 | ### 1.2 步骤级异质性 推理链内部的计算需求并非均匀分布: | 步骤类型 | 典型示例 | 所需模型能力 | |:---|:---|:---:| | 基础计算 | "2 + 2 = 4" | 低 | | 中间验证 | "验证此步骤正确" | 中 | | 复杂推理 | "证明此定理" | 高 | | 综合总结 | "因此最终答案是..." | 中 | > **核心观察**:用最大模型处理所有步骤是计算资源的严重浪费。 --- ## 2. 方法:约束决策框架 ### 2.1 问题形式化 将步骤级模型路由定义为马尔可夫决策过程: | 组件 | 定义 | |:---|:---| | **状态 $s_t$** | 第 $t$ 步的 CoT intermediate state | | **动作 $a_t$** | 选择模型 $M \in \{M_1, M_2, \ldots, M_k\}$ | | **转移** | $s_{t+1} = M(s_t)$ | | **奖励 $r_t$** | 准确率增益 - 成本惩罚 | | **约束** | 总成本 $\leq B$ 或 准确率 $\geq A_{\min}$ | ### 2.2 小型控制策略 | 组件 | 规模 | 功能 | |:---|:---:|:---| | 策略网络 $\pi_\theta$ | **数百参数** | $s_t \rightarrow a_t$ 映射 | | 阈值校准 $\tau$ | **标量** | 性能-效率权衡调节 | | **总计** | **可忽略** | **控制整个推理成本结构** | > **设计原则**:控制策略的参数量远小于任何候选模型,其训练成本可忽略。 ### 2.3 强化学习训练 使用策略梯度方法训练控制策略: $$\nabla_\theta J = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t\right]$$ 其中 $G_t$ 为累积回报,包含: | 回报成分 | 权重 | 说明 | |:---|:---:|:---| | 最终答案正确性 | $\lambda_1$ | 准确率驱动 | | 模型调用成本 | $-\lambda_2$ | 成本约束 | | 约束违反惩罚 | $-\lambda_3$ | 硬约束满足 | ### 2.4 阈值校准 训练完成后,通过单参数阈值 $\tau$ 调节行为: $$\pi_\tau(a|s) = \mathbb{1}[Q(s, a) \geq \tau]$$ | $\tau$ 值 | 行为 | 适用场景 | |:---:|:---|:---| | 高 | 优先大模型 | 准确率敏感 | | 低 | 优先小模型 | 成本敏感 | > **后训练调节**:无需重新训练,单参数滑动即可适配不同部署需求。 --- ## 3. 实验结果 ### 3.1 基准配置 | 基准 | 领域 | 难度 | |:---|:---|:---:| | GSM8K | 小学数学 | 低-中 | | MATH500 | 竞赛数学 | 高 | | OmniMath | 综合数学 | 混合 | ### 3.2 准确率-成本 Pareto 分析 | 方法 | Pareto 效率 | PRM 需求 | 实现复杂度 | |:---|:---:|:---:|:---:| | 统一大模型 | 低 | 无 | 低 | | 手工路由 | 中 | 无 | 中 | | 大型 PRM 路由 | 高 | **需要** | 高 | | **Policy-Guided 路由** | **高** | **不需要** | **低** | > **核心优势**:达到与大型 PRM 方法可比的 Pareto 效率,但避免了 PRM 的训练和部署成本。 ### 3.3 跨模型验证 | 模型类型 | 效果 | |:---|:---:| | 开放权重模型 | ✅ 有效 | | API 封闭模型 | ✅ 有效 | --- ## 4. 理论分析 ### 4.1 与最优路由的差距 定义最优路由为拥有完整未来信息的全知决策者: $$\text{Gap} = J(\pi^*) - J(\pi_\theta)$$ 实验表明,小型控制策略的 gap 在可接受范围内,验证了"步骤级难度可预测"的假设。 ### 4.2 成本敏感度分析 | 成本比例(vs 统一大模型) | 准确率保留 | |:---:|:---:| | 100% | 100% | | 70% | ~98% | | 50% | ~95% | | 30% | ~90% | > **边际递减**:前 50% 的成本削减仅损失 ~5% 准确率,后续削减的边际损失增大。 --- ## 5. 与相关工作的联系 ### 5.1 与 Coupling Tax(Round 16) Coupling Tax 关注推理链与答案的预算竞争。本研究关注**推理链内部的步骤级预算分配**,两者共同构成完整的推理预算优化图景。 ### 5.2 与 DAST(Round 7) DAST 在问题级别根据难度分配计算。本研究将自适应粒度细化到**步骤级别**,实现了更精细的资源控制。 ### 5.3 与 AutoTTS(Round 21) AutoTTS 自动发现 TTS 策略。本研究展示了另一种自动化范式:**用 RL 自动学习步骤级模型选择策略**,两者互补。 ### 5.4 与 80/20 Rule(Round 14) Round 14 发现 20% token 承载关键梯度信号。本研究的"步骤级路由"可视为该思想在模型选择层面的延伸:**关键步骤用大模型,非关键步骤用小模型**。 --- ## 6. 局限性与未来方向 ### 6.1 模型库粒度 当前使用 2-3 个模型选项。扩展至更多选项时的策略扩展性: - 动作空间维度增加对控制策略的影响 - 是否需要层次化路由(先选"系列"再选"规模") ### 6.2 跨领域迁移 控制策略在数学推理上训练后,能否迁移到: - 代码生成(语法检查 vs 算法设计) - 科学推理(事实检索 vs 假设推导) - 创意写作(结构规划 vs 语言表达) ### 6.3 与并行推理的结合 Tree-of-Thoughts 中的并行分支如何路由: - 每个分支独立路由? - 全局协调避免资源过度集中? ### 6.4 在线适应 部署后的持续优化: - 在线 RL 微调控制策略 - 用户反馈驱动的阈值自适应 --- ## 7. 结论 Policy-Guided Stepwise Model Routing 为推理时间计算优化提供了一个轻量级、可扩展的解决方案。其核心贡献在于: 1. **约束决策框架**:将路由问题形式化为可 principled 求解的优化问题 2. **极简控制策略**:数百参数即可实现有效路由 3. **无 PRM 依赖**:避免了训练大型过程奖励模型的瓶颈 4. **可调校性**:单参数阈值即可适配不同部署场景 5. **实证有效**:在多个数学基准上验证 在推理成本日益成为部署瓶颈的背景下,步骤级模型路由代表了从"统一计算"向"自适应计算"演进的关键一步。 --- ## 论文详情 | 项目 | 内容 | |:---|:---| | **标题** | Policy-Guided Stepwise Model Routing for Cost-Effective Reasoning | | **作者** | Wenwen Si, Insup Lee, Osbert Bastani | | **机构** | University of Pennsylvania | | **arXiv ID** | 2605.06116 | | **日期** | 2026-05-07 | | **核心贡献** | 约束决策框架;小型控制策略(数百参数);RL 训练 + 阈值校准;无需 PRM;步骤级模型路由 | | **关键结果** | GSM8K/MATH500/OmniMath 持续改善准确率-成本权衡;与大型 PRM 方法可比;开放/封闭模型均有效 | #Research #ModelRouting #CostEffectiveReasoning #RL #InferenceOptimization #智柴 🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录