小模型是大模型的「探险家」——S2L-PO 如何用策略级多样性打破 GRPO 探索瓶颈
> 论文:*Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO* > 作者:Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu > 机构:多机构联合(含清华、哈工大深圳、上海AI Lab等) > 链接:https://arxiv.org/abs/2605.30789 | 代码:https://github.com/qishisuren123/S2L-PO
---
一个反直觉的发现
GRPO(Group Relative Policy Optimization)训练时,一个核心矛盾是:探索 vs 稳定。
传统解法是给采样加温度——让模型每步生成时更随机。但问题是: token 级的随机噪声会让推理轨迹「断链」。前一步还在做代数变形,下一步突然开始数羊。多样性是有了,但逻辑一致性崩了。
这篇论文发现了一个更优雅的来源:小模型本身就是天然的策略级探索器。
不是「给小模型加噪声」,而是「小模型的参数压缩本身就产生了一种结构化偏移」——整个推理策略被系统性偏移,但每一步内部的时间相关性、逻辑一致性仍然保持。
> 简单说:大模型是「老司机」,路线稳但套路固定;小模型是「新司机」,会走各种奇怪路线,但每条路线内部是自洽的。
---
Token 级 vs 策略级:两种噪声的数学本质
论文用了一个很漂亮的理论框架来区分这两种扰动:
| 维度 | Token 级扰动(高温采样) | 策略级扰动(小模型压缩) | |
|---|---|---|---|
| 机制 | 每步独立加噪:$a_t \sim \pi_{\text{tok}}(\cdot\ | s_t)$ | 时不变参数扰动:$\tilde{\theta} = \theta + \delta_\theta$ |
| 时间相关性 | 弱:前缀匹配概率指数衰减 | 强:Hessian 对齐 $> 0$ | |
| 跨步信号 | $O(L)$ 随机游走,相互抵消 | $O(L^2)$ 建设性干涉,跨步强化 | |
| 实际效果 | 表面多样,逻辑断裂 | 多样化且结构化 |
前者像给每张照片加不同滤镜,后者像换一个摄影师——拍出来的风格不同,但每张照片内部的构图逻辑是一致的。
---
S2L-PO:小到大策略优化框架
核心设计
冻结小模型 π_ω(只生成,不训练)
↓
生成多样化 rollout(策略级探索)
↓
大模型 π_θ 在混合样本上训练(GRPO 更新)
↓
渐进退火:小模型比例从 100% → 0%
三个关键设计:
1. 冻结小模型:只作为探索器,不参与梯度更新,避免不稳定 2. 混合 rollout 生成:每步同时包含小模型和大模型样本,组成 GRPO 的候选组 3. 零修改 GRPO 目标:只改采样过程,不改损失函数——即插即用
渐进退火:从「探险」到「深耕」
这是论文最实用的设计。
| 策略 | 初期 | 中期 | 后期 |
|---|---|---|---|
| 纯小模型 rollout | 快 | 平台化/倒退 | - |
| 突然切换 | 快 | 冲击 | 稳 |
| 渐进退火 | 快 | 持续上升 | 稳 |
α = 1 - (i-1)/(T_mix-1) # 小模型样本比例线性衰减
前一半训练渐进过渡,后一半纯 on-policy。实验显示:
- 纯小模型 → 中期性能平台化(小模型容量限制,分布偏移过大)
- 突然切换 → 训练冲击,优化发散
- 渐进退火 → 最优收敛曲线
---
实验结果:数据说话
主实验(Qwen3 系列,数学推理 Pass@1)
| 配置 | AIME24 | AIME25 | MATH-500 | OlympiadBench |
|---|---|---|---|---|
| 1.7B → 8B 基线 | 15.0 | 12.1 | 57.3 | 18.1 |
| 1.7B → 8B S2L-PO | 23.8 | 22.5 | 61.5 | 19.7 |
| Δ | +8.8 | +10.4 | +4.2 | +1.7 |
多样性指标的严格单调关系
| 模型 | Self-BLEU ↓ | Edit Diversity ↑ | Unique Answer Ratio ↑ |
|---|---|---|---|
| 1.7B | 0.314 | 0.788 | 0.576 |
| 4B | 0.334 | 0.773 | 0.523 |
| 8B | 0.336 | 0.769 | 0.492 |
| 14B | 0.352 | 0.760 | 0.476 |
控制实验:过滤多样性后性能回落
| 配置 | AIME24 | AIME25 |
|---|---|---|
| S2L-PO (1.7B → 8B) | 23.8 | 22.5 |
| S2L-PO(过滤至匹配大模型多样性) | 14.7 | 12.0 |
| GRPO 基线 | 15.0 | 12.1 |
OOD 泛化:数学训练不损害常识推理
| 模型 | CommonsenseQA |
|---|---|
| Qwen3-8B GRPO | 63.9% |
| Qwen3-8B S2L-PO-4B | 67.8% |
---
对 AI 训练的深层启示
1. 「小」不是「差」,是「不同」
这篇论文颠覆了「模型越大越好」的单一维度思维。小模型在策略多样性这个维度上,反而是优势方。
这让人想到生态学里的「r/K 选择理论」:
- 大模型像 K-策略物种——体型大、寿命长、竞争强,但繁殖(探索)率低
- 小模型像 r-策略物种——体型小、寿命短、竞争弱,但繁殖(探索)率高
2. 多样性有层级,不是越多越好
传统方法追求「表面多样性」——输出看起来不同就行。但这篇论文证明,结构化的、时间相关的多样性比「每步独立抖动的多样性」对梯度估计更有价值。
类比:
- Token 级多样性 = 让 10 个人各自随机走路 → 轨迹杂乱,难以学习规律
- 策略级多样性 = 让 10 个人各自选择不同策略(有人走山路、有人走水路、有人飞过去)→ 每条路径内部自洽,但策略空间覆盖更广
3. 计算效率的意外收获
小模型作为离线探索器:
- 可并行化生成
- 可跨多次训练复用
- 每样本生成成本更低
---
局限与开放问题
1. 退火长度的自动调优:论文用 T_mix = T/2,但这是否是最优?不同任务、不同规模差距的最优退火曲线是什么? 2. 跨模型家族的兼容性:实验中用的是同一家族内的小模型(Qwen3 1.7B → Qwen3 8B)。如果用不同架构的小模型(如 Llama 指导 Qwen)是否有效? 3. 非数学任务的验证:数学推理有明确的对错标签,策略级多样性容易量化。在开放式生成任务(创意写作、对话)中是否同样有效? 4. 与现有探索方法的组合:S2L-PO 和 entropy bonus、reward shaping、 curiosity-driven exploration 能否叠加增益?
---
一句话总结
> 小模型不是大模型的「低配版」,而是大模型的「探险家」。S2L-PO 的聪明之处,不是让小模型变强,而是让大模型学会利用小模型天生的「迷路优势」——那些看起来 inefficient 的弯路,恰恰是突破局部最优的地图。
---
参考文献:
- Ren, Y., Xu, Y., Lin, Z., et al. (2026). Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO. *Nature Communications* (投稿中 / arXiv:2605.30789).
#小凯 #论文 #LLM #GRPO #强化学习 #策略多样性 #小模型 #数学推理 #模型蒸馏
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens