小模型是大模型的「探险家」——S2L-PO 如何用策略级多样性打破 GRPO 探索瓶颈

> 论文：*Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO* > 作者：Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu > 机构：多机构联合（含清华、哈工大深圳、上海AI Lab等） > 链接：https://arxiv.org/abs/2605.30789 | 代码：https://github.com/qishisuren123/S2L-PO

---

一个反直觉的发现

GRPO（Group Relative Policy Optimization）训练时，一个核心矛盾是：探索 vs 稳定。

传统解法是给采样加温度——让模型每步生成时更随机。但问题是： token 级的随机噪声会让推理轨迹「断链」。前一步还在做代数变形，下一步突然开始数羊。多样性是有了，但逻辑一致性崩了。

这篇论文发现了一个更优雅的来源：小模型本身就是天然的策略级探索器。

不是「给小模型加噪声」，而是「小模型的参数压缩本身就产生了一种结构化偏移」——整个推理策略被系统性偏移，但每一步内部的时间相关性、逻辑一致性仍然保持。

> 简单说：大模型是「老司机」，路线稳但套路固定；小模型是「新司机」，会走各种奇怪路线，但每条路线内部是自洽的。

---

Token 级 vs 策略级：两种噪声的数学本质

论文用了一个很漂亮的理论框架来区分这两种扰动：

维度	Token 级扰动（高温采样）	策略级扰动（小模型压缩）
机制	每步独立加噪：$a_t \sim \pi_{\text{tok}}(\cdot\	s_t)$	时不变参数扰动：$\tilde{\theta} = \theta + \delta_\theta$
时间相关性	弱：前缀匹配概率指数衰减	强：Hessian 对齐 $> 0$
跨步信号	$O(L)$ 随机游走，相互抵消	$O(L^2)$ 建设性干涉，跨步强化
实际效果	表面多样，逻辑断裂	多样化且结构化

关键洞察：token 级噪声是「局部抖动」，策略级噪声是「全局变形」。

前者像给每张照片加不同滤镜，后者像换一个摄影师——拍出来的风格不同，但每张照片内部的构图逻辑是一致的。

---

S2L-PO：小到大策略优化框架

核心设计

冻结小模型 π_ω（只生成，不训练）
    ↓
生成多样化 rollout（策略级探索）
    ↓
大模型 π_θ 在混合样本上训练（GRPO 更新）
    ↓
渐进退火：小模型比例从 100% → 0%

三个关键设计：

1. 冻结小模型：只作为探索器，不参与梯度更新，避免不稳定 2. 混合 rollout 生成：每步同时包含小模型和大模型样本，组成 GRPO 的候选组 3. 零修改 GRPO 目标：只改采样过程，不改损失函数——即插即用

渐进退火：从「探险」到「深耕」

这是论文最实用的设计。

策略	初期	中期	后期
纯小模型 rollout	快	平台化/倒退	-
突然切换	快	冲击	稳
渐进退火	快	持续上升	稳

退火公式很简单：

α = 1 - (i-1)/(T_mix-1)   # 小模型样本比例线性衰减

前一半训练渐进过渡，后一半纯 on-policy。实验显示：

纯小模型 → 中期性能平台化（小模型容量限制，分布偏移过大）
突然切换 → 训练冲击，优化发散
渐进退火 → 最优收敛曲线

> 这个设计哲学很像模拟退火算法：初期高温允许大范围探索，后期低温聚焦局部精细优化。只不过这里的「温度」不是采样温度，而是「小模型参与度」。

---

实验结果：数据说话

主实验（Qwen3 系列，数学推理 Pass@1）

配置	AIME24	AIME25	MATH-500	OlympiadBench
1.7B → 8B 基线	15.0	12.1	57.3	18.1
1.7B → 8B S2L-PO	23.8	22.5	61.5	19.7
Δ	+8.8	+10.4	+4.2	+1.7

1.7B 指导 8B，AIME24 提升 8.8 个百分点，AIME25 提升 10.4 个百分点。

多样性指标的严格单调关系

模型	Self-BLEU ↓	Edit Diversity ↑	Unique Answer Ratio ↑
1.7B	0.314	0.788	0.576
4B	0.334	0.773	0.523
8B	0.336	0.769	0.492
14B	0.352	0.760	0.476

模型越小，三项多样性指标越优。 这不是偶然，是参数压缩的结构性后果。

控制实验：过滤多样性后性能回落

配置	AIME24	AIME25
S2L-PO (1.7B → 8B)	23.8	22.5
S2L-PO（过滤至匹配大模型多样性）	14.7	12.0
GRPO 基线	15.0	12.1

过滤掉小模型的额外多样性后，性能回落至基线。这证明了增益确实来自策略级多样性，而非其他混杂因素。

OOD 泛化：数学训练不损害常识推理

模型	CommonsenseQA
Qwen3-8B GRPO	63.9%
Qwen3-8B S2L-PO-4B	67.8%

数学任务上的探索没有过拟合到数学领域，反而提升了常识推理——说明策略级多样性带来的是泛化能力提升，而非领域特化。

---

对 AI 训练的深层启示

1. 「小」不是「差」，是「不同」

这篇论文颠覆了「模型越大越好」的单一维度思维。小模型在策略多样性这个维度上，反而是优势方。

这让人想到生态学里的「r/K 选择理论」：

大模型像 K-策略物种——体型大、寿命长、竞争强，但繁殖（探索）率低
小模型像 r-策略物种——体型小、寿命短、竞争弱，但繁殖（探索）率高

在 RL 训练的语境下，r-策略者更适合做先锋队。

2. 多样性有层级，不是越多越好

传统方法追求「表面多样性」——输出看起来不同就行。但这篇论文证明，结构化的、时间相关的多样性比「每步独立抖动的多样性」对梯度估计更有价值。

类比：

Token 级多样性 = 让 10 个人各自随机走路 → 轨迹杂乱，难以学习规律
策略级多样性 = 让 10 个人各自选择不同策略（有人走山路、有人走水路、有人飞过去）→ 每条路径内部自洽，但策略空间覆盖更广

后者才是 GRPO 需要的——组内候选要有区分度，但每个候选本身要完整可用。

3. 计算效率的意外收获

小模型作为离线探索器：

可并行化生成
可跨多次训练复用
每样本生成成本更低

这意味着 S2L-PO 不仅提升性能，还可能降低总训练成本——用更便宜的推理换取更好的训练信号。

---

局限与开放问题

1. 退火长度的自动调优：论文用 T_mix = T/2，但这是否是最优？不同任务、不同规模差距的最优退火曲线是什么？ 2. 跨模型家族的兼容性：实验中用的是同一家族内的小模型（Qwen3 1.7B → Qwen3 8B）。如果用不同架构的小模型（如 Llama 指导 Qwen）是否有效？ 3. 非数学任务的验证：数学推理有明确的对错标签，策略级多样性容易量化。在开放式生成任务（创意写作、对话）中是否同样有效？ 4. 与现有探索方法的组合：S2L-PO 和 entropy bonus、reward shaping、 curiosity-driven exploration 能否叠加增益？

---

一句话总结

> 小模型不是大模型的「低配版」，而是大模型的「探险家」。S2L-PO 的聪明之处，不是让小模型变强，而是让大模型学会利用小模型天生的「迷路优势」——那些看起来 inefficient 的弯路，恰恰是突破局部最优的地图。

---

参考文献：

Ren, Y., Xu, Y., Lin, Z., et al. (2026). Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO. *Nature Communications* (投稿中 / arXiv:2605.30789).

#小凯 #论文 #LLM #GRPO #强化学习 #策略多样性 #小模型 #数学推理 #模型蒸馏