论文:Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO
作者:Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu
机构:多机构联合(含清华、哈工大深圳、上海AI Lab等)
链接:https://arxiv.org/abs/2605.30789 | 代码:https://github.com/qishisuren123/S2L-PO
一个反直觉的发现
GRPO(Group Relative Policy Optimization)训练时,一个核心矛盾是:探索 vs 稳定。
传统解法是给采样加温度——让模型每步生成时更随机。但问题是: token 级的随机噪声会让推理轨迹「断链」。前一步还在做代数变形,下一步突然开始数羊。多样性是有了,但逻辑一致性崩了。
这篇论文发现了一个更优雅的来源:小模型本身就是天然的策略级探索器。
不是「给小模型加噪声」,而是「小模型的参数压缩本身就产生了一种结构化偏移」——整个推理策略被系统性偏移,但每一步内部的时间相关性、逻辑一致性仍然保持。
简单说:大模型是「老司机」,路线稳但套路固定;小模型是「新司机」,会走各种奇怪路线,但每条路线内部是自洽的。
Token 级 vs 策略级:两种噪声的数学本质
论文用了一个很漂亮的理论框架来区分这两种扰动:
| 维度 | Token 级扰动(高温采样) | 策略级扰动(小模型压缩) |
|---|---|---|
| 机制 | 每步独立加噪:\(a_t \sim \pi_{\text{tok}}(\cdot\|s_t)\) | 时不变参数扰动:\(\tilde{\theta} = \theta + \delta_\theta\) |
| 时间相关性 | 弱:前缀匹配概率指数衰减 | 强:Hessian 对齐 \(> 0\) |
| 跨步信号 | \(O(L)\) 随机游走,相互抵消 | \(O(L^2)\) 建设性干涉,跨步强化 |
| 实际效果 | 表面多样,逻辑断裂 | 多样化且结构化 |
关键洞察:token 级噪声是「局部抖动」,策略级噪声是「全局变形」。
前者像给每张照片加不同滤镜,后者像换一个摄影师——拍出来的风格不同,但每张照片内部的构图逻辑是一致的。
S2L-PO:小到大策略优化框架
核心设计
冻结小模型 π_ω(只生成,不训练)
↓
生成多样化 rollout(策略级探索)
↓
大模型 π_θ 在混合样本上训练(GRPO 更新)
↓
渐进退火:小模型比例从 100% → 0%
三个关键设计:
- 冻结小模型:只作为探索器,不参与梯度更新,避免不稳定
- 混合 rollout 生成:每步同时包含小模型和大模型样本,组成 GRPO 的候选组
- 零修改 GRPO 目标:只改采样过程,不改损失函数——即插即用
渐进退火:从「探险」到「深耕」
这是论文最实用的设计。
| 策略 | 初期 | 中期 | 后期 |
|---|---|---|---|
| 纯小模型 rollout | 快 | 平台化/倒退 | - |
| 突然切换 | 快 | 冲击 | 稳 |
| 渐进退火 | 快 | 持续上升 | 稳 |
退火公式很简单:
α = 1 - (i-1)/(T_mix-1) # 小模型样本比例线性衰减
前一半训练渐进过渡,后一半纯 on-policy。实验显示:
- 纯小模型 → 中期性能平台化(小模型容量限制,分布偏移过大)
- 突然切换 → 训练冲击,优化发散
- 渐进退火 → 最优收敛曲线
这个设计哲学很像模拟退火算法:初期高温允许大范围探索,后期低温聚焦局部精细优化。只不过这里的「温度」不是采样温度,而是「小模型参与度」。
实验结果:数据说话
主实验(Qwen3 系列,数学推理 Pass@1)
| 配置 | AIME24 | AIME25 | MATH-500 | OlympiadBench |
|---|---|---|---|---|
| 1.7B → 8B 基线 | 15.0 | 12.1 | 57.3 | 18.1 |
| 1.7B → 8B S2L-PO | 23.8 | 22.5 | 61.5 | 19.7 |
| Δ | +8.8 | +10.4 | +4.2 | +1.7 |
1.7B 指导 8B,AIME24 提升 8.8 个百分点,AIME25 提升 10.4 个百分点。
多样性指标的严格单调关系
| 模型 | Self-BLEU ↓ | Edit Diversity ↑ | Unique Answer Ratio ↑ |
|---|---|---|---|
| 1.7B | 0.314 | 0.788 | 0.576 |
| 4B | 0.334 | 0.773 | 0.523 |
| 8B | 0.336 | 0.769 | 0.492 |
| 14B | 0.352 | 0.760 | 0.476 |
模型越小,三项多样性指标越优。 这不是偶然,是参数压缩的结构性后果。
控制实验:过滤多样性后性能回落
| 配置 | AIME24 | AIME25 |
|---|---|---|
| S2L-PO (1.7B → 8B) | 23.8 | 22.5 |
| S2L-PO(过滤至匹配大模型多样性) | 14.7 | 12.0 |
| GRPO 基线 | 15.0 | 12.1 |
过滤掉小模型的额外多样性后,性能回落至基线。这证明了增益确实来自策略级多样性,而非其他混杂因素。
OOD 泛化:数学训练不损害常识推理
| 模型 | CommonsenseQA |
|---|---|
| Qwen3-8B GRPO | 63.9% |
| Qwen3-8B S2L-PO-4B | 67.8% |
数学任务上的探索没有过拟合到数学领域,反而提升了常识推理——说明策略级多样性带来的是泛化能力提升,而非领域特化。
对 AI 训练的深层启示
1. 「小」不是「差」,是「不同」
这篇论文颠覆了「模型越大越好」的单一维度思维。小模型在策略多样性这个维度上,反而是优势方。
这让人想到生态学里的「r/K 选择理论」:
- 大模型像 K-策略物种——体型大、寿命长、竞争强,但繁殖(探索)率低
- 小模型像 r-策略物种——体型小、寿命短、竞争弱,但繁殖(探索)率高
在 RL 训练的语境下,r-策略者更适合做先锋队。
2. 多样性有层级,不是越多越好
传统方法追求「表面多样性」——输出看起来不同就行。但这篇论文证明,结构化的、时间相关的多样性比「每步独立抖动的多样性」对梯度估计更有价值。
类比:
- Token 级多样性 = 让 10 个人各自随机走路 → 轨迹杂乱,难以学习规律
- 策略级多样性 = 让 10 个人各自选择不同策略(有人走山路、有人走水路、有人飞过去)→ 每条路径内部自洽,但策略空间覆盖更广
后者才是 GRPO 需要的——组内候选要有区分度,但每个候选本身要完整可用。
3. 计算效率的意外收获
小模型作为离线探索器:
- 可并行化生成
- 可跨多次训练复用
- 每样本生成成本更低
这意味着 S2L-PO 不仅提升性能,还可能降低总训练成本——用更便宜的推理换取更好的训练信号。
局限与开放问题
- 退火长度的自动调优:论文用 T_mix = T/2,但这是否是最优?不同任务、不同规模差距的最优退火曲线是什么?
- 跨模型家族的兼容性:实验中用的是同一家族内的小模型(Qwen3 1.7B → Qwen3 8B)。如果用不同架构的小模型(如 Llama 指导 Qwen)是否有效?
- 非数学任务的验证:数学推理有明确的对错标签,策略级多样性容易量化。在开放式生成任务(创意写作、对话)中是否同样有效?
- 与现有探索方法的组合:S2L-PO 和 entropy bonus、reward shaping、 curiosity-driven exploration 能否叠加增益?
一句话总结
小模型不是大模型的「低配版」,而是大模型的「探险家」。S2L-PO 的聪明之处,不是让小模型变强,而是让大模型学会利用小模型天生的「迷路优势」——那些看起来 inefficient 的弯路,恰恰是突破局部最优的地图。
参考文献:
- Ren, Y., Xu, Y., Lin, Z., et al. (2026). Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO. Nature Communications (投稿中 / arXiv:2605.30789).
#小凯 #论文 #LLM #GRPO #强化学习 #策略多样性 #小模型 #数学推理 #模型蒸馏
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。