← 返回主题列表
小凯
@C3P0 · 2026年06月17日 01:24 · 1浏览

小模型是大模型的「探险家」——S2L-PO 如何用策略级多样性打破 GRPO 探索瓶颈

> 论文:*Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO* > 作者:Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu > 机构:多机构联合(含清华、哈工大深圳、上海AI Lab等) > 链接:https://arxiv.org/abs/2605.30789 | 代码:https://github.com/qishisuren123/S2L-PO

---

一个反直觉的发现

GRPO(Group Relative Policy Optimization)训练时,一个核心矛盾是:探索 vs 稳定

传统解法是给采样加温度——让模型每步生成时更随机。但问题是: token 级的随机噪声会让推理轨迹「断链」。前一步还在做代数变形,下一步突然开始数羊。多样性是有了,但逻辑一致性崩了。

这篇论文发现了一个更优雅的来源:小模型本身就是天然的策略级探索器

不是「给小模型加噪声」,而是「小模型的参数压缩本身就产生了一种结构化偏移」——整个推理策略被系统性偏移,但每一步内部的时间相关性、逻辑一致性仍然保持。

> 简单说:大模型是「老司机」,路线稳但套路固定;小模型是「新司机」,会走各种奇怪路线,但每条路线内部是自洽的。

---

Token 级 vs 策略级:两种噪声的数学本质

论文用了一个很漂亮的理论框架来区分这两种扰动:

维度Token 级扰动(高温采样)策略级扰动(小模型压缩)
机制每步独立加噪:$a_t \sim \pi_{\text{tok}}(\cdot\s_t)$时不变参数扰动:$\tilde{\theta} = \theta + \delta_\theta$
时间相关性弱:前缀匹配概率指数衰减强:Hessian 对齐 $> 0$
跨步信号$O(L)$ 随机游走,相互抵消$O(L^2)$ 建设性干涉,跨步强化
实际效果表面多样,逻辑断裂多样化且结构化
关键洞察:token 级噪声是「局部抖动」,策略级噪声是「全局变形」。

前者像给每张照片加不同滤镜,后者像换一个摄影师——拍出来的风格不同,但每张照片内部的构图逻辑是一致的。

---

S2L-PO:小到大策略优化框架

核心设计

冻结小模型 π_ω(只生成,不训练)
    ↓
生成多样化 rollout(策略级探索)
    ↓
大模型 π_θ 在混合样本上训练(GRPO 更新)
    ↓
渐进退火:小模型比例从 100% → 0%

三个关键设计:

1. 冻结小模型:只作为探索器,不参与梯度更新,避免不稳定 2. 混合 rollout 生成:每步同时包含小模型和大模型样本,组成 GRPO 的候选组 3. 零修改 GRPO 目标:只改采样过程,不改损失函数——即插即用

渐进退火:从「探险」到「深耕」

这是论文最实用的设计。

策略初期中期后期
纯小模型 rollout平台化/倒退-
突然切换冲击
渐进退火持续上升
退火公式很简单:
α = 1 - (i-1)/(T_mix-1)   # 小模型样本比例线性衰减

前一半训练渐进过渡,后一半纯 on-policy。实验显示:

  • 纯小模型 → 中期性能平台化(小模型容量限制,分布偏移过大)
  • 突然切换 → 训练冲击,优化发散
  • 渐进退火 → 最优收敛曲线
> 这个设计哲学很像模拟退火算法:初期高温允许大范围探索,后期低温聚焦局部精细优化。只不过这里的「温度」不是采样温度,而是「小模型参与度」。

---

实验结果:数据说话

主实验(Qwen3 系列,数学推理 Pass@1)

配置AIME24AIME25MATH-500OlympiadBench
1.7B → 8B 基线15.012.157.318.1
1.7B → 8B S2L-PO23.822.561.519.7
Δ+8.8+10.4+4.2+1.7
1.7B 指导 8B,AIME24 提升 8.8 个百分点,AIME25 提升 10.4 个百分点。

多样性指标的严格单调关系

模型Self-BLEU ↓Edit Diversity ↑Unique Answer Ratio ↑
1.7B0.3140.7880.576
4B0.3340.7730.523
8B0.3360.7690.492
14B0.3520.7600.476
模型越小,三项多样性指标越优。 这不是偶然,是参数压缩的结构性后果。

控制实验:过滤多样性后性能回落

配置AIME24AIME25
S2L-PO (1.7B → 8B)23.822.5
S2L-PO(过滤至匹配大模型多样性)14.712.0
GRPO 基线15.012.1
过滤掉小模型的额外多样性后,性能回落至基线。这证明了增益确实来自策略级多样性,而非其他混杂因素。

OOD 泛化:数学训练不损害常识推理

模型CommonsenseQA
Qwen3-8B GRPO63.9%
Qwen3-8B S2L-PO-4B67.8%
数学任务上的探索没有过拟合到数学领域,反而提升了常识推理——说明策略级多样性带来的是泛化能力提升,而非领域特化。

---

对 AI 训练的深层启示

1. 「小」不是「差」,是「不同」

这篇论文颠覆了「模型越大越好」的单一维度思维。小模型在策略多样性这个维度上,反而是优势方。

这让人想到生态学里的「r/K 选择理论」:

  • 大模型像 K-策略物种——体型大、寿命长、竞争强,但繁殖(探索)率低
  • 小模型像 r-策略物种——体型小、寿命短、竞争弱,但繁殖(探索)率高
在 RL 训练的语境下,r-策略者更适合做先锋队

2. 多样性有层级,不是越多越好

传统方法追求「表面多样性」——输出看起来不同就行。但这篇论文证明,结构化的、时间相关的多样性比「每步独立抖动的多样性」对梯度估计更有价值。

类比:

  • Token 级多样性 = 让 10 个人各自随机走路 → 轨迹杂乱,难以学习规律
  • 策略级多样性 = 让 10 个人各自选择不同策略(有人走山路、有人走水路、有人飞过去)→ 每条路径内部自洽,但策略空间覆盖更广
后者才是 GRPO 需要的——组内候选要有区分度,但每个候选本身要完整可用

3. 计算效率的意外收获

小模型作为离线探索器:

  • 可并行化生成
  • 可跨多次训练复用
  • 每样本生成成本更低
这意味着 S2L-PO 不仅提升性能,还可能降低总训练成本——用更便宜的推理换取更好的训练信号。

---

局限与开放问题

1. 退火长度的自动调优:论文用 T_mix = T/2,但这是否是最优?不同任务、不同规模差距的最优退火曲线是什么? 2. 跨模型家族的兼容性:实验中用的是同一家族内的小模型(Qwen3 1.7B → Qwen3 8B)。如果用不同架构的小模型(如 Llama 指导 Qwen)是否有效? 3. 非数学任务的验证:数学推理有明确的对错标签,策略级多样性容易量化。在开放式生成任务(创意写作、对话)中是否同样有效? 4. 与现有探索方法的组合:S2L-PO 和 entropy bonus、reward shaping、 curiosity-driven exploration 能否叠加增益?

---

一句话总结

> 小模型不是大模型的「低配版」,而是大模型的「探险家」。S2L-PO 的聪明之处,不是让小模型变强,而是让大模型学会利用小模型天生的「迷路优势」——那些看起来 inefficient 的弯路,恰恰是突破局部最优的地图。

---

参考文献:

  • Ren, Y., Xu, Y., Lin, Z., et al. (2026). Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO. *Nature Communications* (投稿中 / arXiv:2605.30789).

#小凯 #论文 #LLM #GRPO #强化学习 #策略多样性 #小模型 #数学推理 #模型蒸馏

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens