监督强化学习(SRL)：让小模型学会复杂思考的创新框架

背景与动机

大型语言模型（LLMs）在需要多步骤推理的复杂任务上表现不佳，尤其是小规模开源模型（如7B参数量级）。现有训练范式面临两大挑战：（1）基于可验证奖励的强化学习（RLVR）在模型难以采样到正确解时失效，因为奖励信号过于稀疏；（2）监督微调（SFT）通过严格的逐token模仿容易过拟合长演示，缺乏泛化能力【2†source】【8†source】。为解决这一难题，谷歌Cloud AI Research团队提出了监督强化学习（Supervised Reinforcement Learning, SRL）框架，将问题解决过程重新定义为生成一系列逻辑“动作”，通过密集、平滑的奖励信号引导模型学习专家推理模式【1†source】【2†source】。

核心方法

SRL的核心思想是将专家解决方案分解为逐步动作序列，并训练模型在每一步生成内部推理独白后再执行动作【2†source】。具体而言，给定一条正确的专家解题轨迹$y$，SRL将其分解为动作序列$y = \{y_{\text{step}_n}\}_{n=1}^N$，每个动作代表一个有意义的决策步骤（如数学推导中的代数运算或代码修复中的命令）【2†source】。训练时，对于每一步$k$，构建输入提示$x_{\text{step}_k} = [x, y_{\text{step}_1}, \ldots, y_{\text{step}_{k-1}]$，要求模型预测下一步动作$y_{\text{step}_k}$【2†source】。模型输出包含两部分：（1）内部独白$y'_{\text{think}}$，用特殊标签封装；（2）执行动作$y'_{\text{step}_k}$【2†source】。

为提供细粒度监督，SRL设计了基于序列相似度的奖励函数：$R(y'_{\text{step}_k}, y_{\text{step}_k}) = \frac{2M}{T}$，其中$T$为两个序列元素总数，$M$为非重叠匹配块中的元素总数【2†source】。该奖励通过Python的difflib.SequenceMatcher计算，取值范围$[0,1]$，若输出格式错误则赋予$-1$的惩罚【2†source】。策略模型$p_\theta$使用该奖励信号，通过GRPO等强化学习目标函数进行优化【2†source】。值得注意的是，奖励仅基于动作计算，不约束独白内容，从而赋予模型发展自身推理风格的灵活性，同时确保外部行为与专家策略保持一致【2†source】。

关键技术细节

1. 动态采样策略：由于奖励信号密集但可能存在方差，SRL引入动态采样机制，过滤掉奖励方差接近零的样本，确保每个样本都能提供有意义的学习信号【2†source】。具体地，对于一批rollouts，若其奖励分数的标准差超过阈值$\varepsilon$，则保留样本，否则持续采样直至填满批次【2†source】。实验表明，动态采样将SRL准确率从24.7%提升至27.6%，验证了过滤无效样本的必要性【2†source】。

2. 内部独白机制：模型在生成动作前先输出一段“内心独白”，用于梳理思路。该独白不参与奖励计算，仅作为辅助推理手段，鼓励模型进行灵活的规划与验证【2†source】。例如，在数学任务中，模型可能先列出解题步骤大纲；在代码修复任务中，模型可能分析问题根源再制定修复方案【2†source】。

3. 逐步训练数据构建：利用强大的教师模型生成解决方案轨迹，从完整解中构造$N-1$条部分轨迹，从而将单个专家解转化为丰富的训练实例，教会模型从各种中间状态正确推进【2†source】。

实验结果与性能分析

在数学推理基准测试（AMC23、AIME24、AIME25、Minerva Math）上，SRL显著优于基线方法【2†source】：

图1：SRL与基线方法在数学推理任务上的准确率对比

平均准确率：SRL达到27.6%，比RLVR（24.5%）高3.1%，比SFT（最高16.6%）高11%【2†source】。

SRL→RLVR组合策略：先用SRL学习基础动作序列，再用RLVR微调，平均准确率达28.3%，在AIME24 Greedy测试中达20%，比RLVR高10个百分点【2†source】。

动态采样贡献：加入动态采样后，SRL准确率从24.7%提升至27.6%【2†source】。

在软件工程任务（SWE-Bench基准）上，基于Qwen2.5-Coder-7B-Instruct的SRL模型在预言机设置中实现14.8%的解决率，比SWE-Gym-7B基线提高74%；在端到端评估中同样保持两倍性能优势【2†source】。

图2：SRL在SWE-Bench软件工程任务上的解决率对比

进一步分析表明，SRL模型的性能提升并非来自输出长度增加，而是源于推理质量优化（如更好的规划和验证）【2†source】。SRL模型展现出三类灵活推理模式：（1）前置规划：先列出所有后续步骤大纲；（2）动态调整：在解中插入多个推理块，迭代修正计划；（3）反思验证：输出最终答案前暂停验证【2†source】。

与现有方法的对比

1. 与过程奖励模型（PRM）：PRM作为“评判者”，需人工标注每一步正确性；SRL则通过专家轨迹自动提取动作，无需人工标注，既学“怎么做”又学“怎么思考”【2†source】。

2. 与课程学习：SRL→RLVR pipeline形成强大的课程学习策略，先通过SRL掌握基础动作模式，再通过RLVR优化最终结果【2†source】。

3. 与其他监督强化学习方法：如自监督强化学习（SSRL）通常依赖外部奖励或特定任务设计，而SRL通过通用相似度奖励实现更广泛的适用性【6†source】【12†source】。

应用前景与意义

SRL为训练小型模型在复杂推理任务上的学习提供了新思路，其密集且平滑的奖励机制解决了传统强化学习在困难问题上的稀疏奖励难题【2†source】。实验证明，SRL不仅在数学推理和软件工程任务上显著优于基线，还能与RLVR结合形成强大的课程学习策略【2†source】。该框架的通用性和鲁棒性为构建更强大、多功能的AI代理奠定了基础，有望在科学推理、代码生成、智能体规划等领域发挥重要作用【2†source】。