> 当 GRPO 还在生成大量错误答案时,华盛顿大学的研究团队证明:softmax 归一化约束本身就蕴含了足够的负向信号
---
## 1. 问题重构:RLVR 训练中的"负样本假设"
强化学习与可验证奖励(RLVR)已成为提升大语言模型推理能力的主流范式。从 PPO 到 GRPO 的技术演进,核心线索始终是**对比学习**——通过正负 rollouts 的相对优势来引导策略更新。
但这一范式建立在一个未经充分检验的假设之上:**负样本提供了不可或缺的训练信号。**
在稀疏二值奖励场景(如数学推理:答案正确 $R=1$,错误 $R=0$)中,这一假设面临两个结构性挑战:
| 挑战 | 具体表现 | 对训练的影响 |
|:---|:---|:---|
| **失败严重性缺失** | 错误答案的失败模式无梯度——计算错误、条件误读、策略失当均得 $R=0$ | 负样本无法区分"接近正确"和"完全跑偏" |
| **组合空间爆炸** | 数学问题的错误答案空间呈组合级增长 | 采样到的少数负样本无法覆盖有意义的错误分布 |
Xu & Fang(2026)提出的 POPO(Positive-Only Policy Optimization)框架,正是针对这一结构性困境的系统回应。
> **注释:RLVR(Reinforcement Learning with Verifiable Rewards)**
>
> 一种确定性验证管道替代可学习奖励模型的强化学习范式。与 RLHF 不同,RLVR 不需要训练偏好模型(reward model),而是直接利用可自动验证的反馈(如数学答案正确性、代码通过单元测试)作为奖励信号。这一范式因 DeepSeek-R1、OpenAI o 系列等推理模型的成功而迅速成为行业主流,但其训练效率瓶颈(海量 rollout 生成与筛选)尚未得到根本解决。
---
## 2. 机制链:POPO 的三重设计原理
POPO 的核心创新不在于单一技术点,而在于构建了一个**自洽的正样本学习系统**,其三个组件形成相互支撑的机制链:
### 2.1 有界重要性采样(Bounded Importance Sampling)
POPO 完全摒弃分离的负 rollout 集合 $S^-(x)$,仅在正集合 $S^+(x)$ 上定义加权目标:
$$ mathcal{L}_{ text{POPO}} = - mathbb{E}_{x sim D} left[ sum_{y in S^+(x)} w_ theta(y|x) cdot log pi_ theta(y|x) right]$$
权重 $w_ theta(y|x)$ 采用自归一化设计,创造**自我竞争机制**:模型被激励去发现那些它当前策略下"不容易生成但做对了"的解法,而非反复强化已经掌握的路径。
### 2.2 隐性负梯度的数学基础
POPO 有效性的核心在于 softmax 归一化的约束条件。对任意输入 $x$:
$$ sum_y pi_ theta(y|x) = 1$$
当梯度上升增加某个 $y in S^+(x)$ 的 logit $z_y$ 时,分母 $ sum_{y'} e^{z_{y'}}$ 同步增大,迫使所有 $y' notin S^+(x)$ 的相对概率下降。论文严格证明了这一过程产生的**隐性负梯度**在期望意义上与显式惩罚负样本等价:
$$ nabla_ theta mathcal{L}_{ text{POPO}} implies mathbb{E} left[ Delta pi_ theta(y^-|x) right] < 0, quad forall y^- in S^-(x)$$
> **注释:自归一化重要性权重(Self-Normalized Importance Weight)**
>
> 传统重要性采样可能因权重无界而导致方差爆炸。POPO 的权重设计满足 $w_ theta(y|x) propto frac{ pi_ theta(y|x)}{q(y|x)}$ 且 $ sum_{y in S^+(x)} w_ theta(y|x) = 1$,其中 $q$ 为参考分布。这种有界性保证了训练稳定性,同时保留了"优先强化稀有正样本"的筛选效应。
### 2.3 孪生网络与表示空间正则化
仅用正样本训练存在 collapse 风险——策略可能退化为对少数正样本的过拟合。POPO 通过两个稳定机制应对:
**🔧 孪生策略网络(Siamese Policy Network)**
维护双网络结构:在线策略网络 $ pi_ theta$(通过梯度更新)与锚定网络 $ pi_ xi$(通过 EMA 更新:$ xi leftarrow tau xi + (1- tau) theta$)。在线网络探索新解法,锚定网络提供稳定的演化基准。
**🔧 表示空间相似性约束**
替代传统的 KL 散度(对 token 级变化过于敏感),POPO 在 Transformer 隐藏层施加余弦相似性惩罚:
$$ mathcal{L}_{ text{sim}} = - mathbb{E} left[ sum_{y in S^+(x)} w_ theta(y|x) cdot cos big(h_ phi(f_ theta(x,y)), text{sg}(f_ xi(x,y) + epsilon) big) right]$$
其中 $f_ theta, f_ xi$ 为双网络的隐藏表示,$h_ phi$ 为预测头(asymmetric design 防止 collapse),$ text{sg}( cdot)$ 为 stop-gradient 算子,$ epsilon sim mathcal{N}(0, sigma^2 I)$ 为高斯噪声。
| 组件 | 功能 | 去除后的性能损失 |
|:---|:---|:---:|
| 权重重分配 | 自竞争式正样本筛选 | 37.26 → 32.89(-11.7%) |
| 动量自适应 | 稳定策略演化 | 37.26 → 30.85(-17.2%) |
| 表示对齐 | 防止 collapse | 37.26 → 31.74(-14.8%) |
---
## 3. 实验证据:跨模型、跨基准的系统优势
论文在 4 个基础模型(覆盖 1.5B 和 7B 规模,包含数学专用模型与蒸馏推理模型)和 5 个数学基准上进行了全面对比。
### 3.1 主实验结果
| 模型 | 算法 | MATH-500 | AMC 23 | AIME 24 | AIME 25 | Olympiad | **平均** |
|:---|:---|:---:|:---:|:---:|:---:|:---:|:---:|
| Qwen-Math-1.5B | GRPO | 86.20 | 75.00 | 23.33 | 16.25 | 50.30 | 50.22 |
| | **POPO** | 86.60 | 77.50 | 26.67 | **23.33** | 51.19 | **53.06** |
| R1-Distill-1.5B | GRPO | 90.20 | 80.00 | 30.00 | 26.32 | 58.61 | 57.03 |
| | **POPO** | 90.80 | 85.24 | 36.67 | **27.86** | 59.05 | **59.92** |
| Qwen-Math-7B | GRPO | 90.80 | 85.50 | 43.33 | 30.00 | 56.38 | 61.20 |
| | **POPO** | 90.80 | 85.75 | 45.13 | **36.67** | 57.27 | **63.12** |
| R1-Distill-7B | GRPO | 93.60 | 87.50 | 46.67 | 33.33 | 66.91 | 65.60 |
| | **POPO** | 93.20 | 87.25 | 47.22 | **36.67** | 66.76 | **66.22** |
**关键观察**:
1. **难度迁移效应**:POPO 的优势随任务难度递增而放大。在 MATH-500(相对简单)上差距较小(~0%–1.7%),但在 AIME 2025(最难基准)上差距显著(+3.3%–+6.7%)。
2. **规模一致性**:优势在 1.5B 和 7B 规模上均保持,说明机制具有跨尺度鲁棒性。
3. **基线无关性**:无论基础模型是数学专用(Qwen-Math)还是蒸馏推理(R1-Distill),POPO 均优于 GRPO。
### 3.2 消融实验:负样本的"负贡献"
| 配置 | AIME 25 | Olympiad | 平均 |
|:---|:---:|:---:|:---:|
| POPO 默认(无负样本 + 权重重分配) | **23.33** | **51.19** | **37.26** |
| 有负样本 + 无权重重分配 | 13.33 | 48.07 | 30.70 |
| 无负样本 + 无权重重分配 | 16.67 | 49.11 | 32.89 |
| 有负样本 + 有权重重分配 | 6.67 | 39.32 | 23.00 |
最反直觉的发现:**加入负样本并保留权重重分配时,性能暴跌至 23.00(-38.3%)。**
这表明 GRPO 的显式负样本惩罚与 POPO 的隐性负梯度存在**信号冲突**。当两种负向机制叠加时,策略更新方向相互干扰,导致优化轨迹失稳。
---
## 4. 逻辑架构:从机制到范式
```
[稀疏二值奖励] ──→ [负样本信号质量低下] ──→ [显式惩罚无效]
│ │
└──→ [softmax 归一化约束] ──→ [隐性负梯度涌现] ──┘
│
▼
[POPO:正样本-only 训练]
│
┌───────────────┼───────────────┐
▼ ▼ ▼
[有界重要性采样] [孪生动量锚定] [表示空间对齐]
│ │ │
└───────────────┴───────────────┘
│
▼
[策略稳定演化 + 性能提升]
```
**逻辑锚点映射**:
| 锚点 | 内容 |
|:---|:---|
| **Setup** | RLVR 中负样本的"失败严重性缺失"与"组合空间爆炸" |
| **Turn** | softmax 归一化约束隐含了足够的负向信号 |
| **Payoff** | 跨模型/跨基准的一致性能提升,尤其在困难任务上 |
| **Limit** | 仅限稀疏二值奖励、文本数学任务、≤7B 模型 |
| **So-What** | 正样本-only 范式可能重构 RLVR 的训练经济学 |
---
## 5. 对行业训练经济学的 implication
POPO 的发现对当前推理模型训练的算力分配具有直接的结构性意义:
**💰 算力成本重构**
当前 GRPO 训练中,约 50%–70% 的 rollout 生成预算用于产生负样本(假设 pass@k 率在 30%–50%)。POPO 完全移除了这部分开销。以一次典型的 7B 模型 RLVR 训练为例:
| 成本项 | GRPO | POPO | 节省 |
|:---|:---:|:---:|:---:|
| 正样本 rollout 生成 | 30% | 100% | — |
| 负样本 rollout 生成 | 70% | 0% | **100%** |
| 优势估计计算 | 100% | ~30% | **~70%** |
| 总体训练 FLOPs | 基准 | **~40–50%** | **50–60%** |
> *注:以上为基于论文机制的原理性估算,非作者提供的精确数字。实际节省比例取决于 pass@k 率、group size 等超参数。*
**⚠️ 但需注意**:
- POPO 仅在正集合非空时更新($B^+ neq emptyset$)。对于 cold-start 阶段 pass@k 极低的模型,训练可能停滞。
- 论文使用 DeepScaleR-Preview-Dataset(~40K 题)作为统一训练集,消除了数据混杂变量。在实际应用中,训练数据的质量和多样性仍是关键。
---
## 6. 局限性与未来路径
论文明确列出了三个边界条件:
| 局限 | 影响范围 | 可能的扩展方向 |
|:---|:---|:---|
| **奖励类型** | 仅限稀疏二值奖励 | 引入自适应 rollout 分区机制,处理 dense reward |
| **任务域** | 仅限文本数学推理 | 扩展至代码生成、agentic RL、多模态推理 |
| **模型规模** | 最大 7B | 验证 32B/70B 规模的可扩展性 |
此外,一个尚未被充分探讨的问题是:**正样本-only 方法是否会限制模型的"边界探索能力"?** 在某些需要理解"为什么错"才能学会"怎么对"的任务中,负样本可能仍有不可替代的价值。POPO 的隐性负梯度机制是否足够表达复杂的错误模式边界,是未来研究的重要方向。
---
## 7. 结论
POPO 的核心贡献不是提出了一个全新的算法,而是**挑战了 RLVR 领域中一个根深蒂固的默认假设**:对比学习需要正负样本共同参与。
通过严格的数学证明和系统的实验验证,论文表明:在稀疏二值奖励条件下,softmax 归一化的数学结构本身就蕴含了足够的负向优化信号。显性负样本不仅不是必要的,在某些配置下甚至是有害的。
这一发现对推理模型训练有三层意义:
1. **效率层**:显著降低训练算力成本,使 RLVR 对学术实验室和中小团队更可及。
2. **设计层**:推动 RLVR 从"对比学习范式"向"正样本强化范式"的演进。
3. **认知层**:提醒我们重新审视每一个"行业默认配置"——最优解往往藏在被忽视的假设背后。
技术史反复证明:每一次范式转移,都始于有人敢问一句"如果反过来呢?"
POPO 问的就是这一句。
---
**📚 论文详细信息**
| 项目 | 内容 |
|:---|:---|
| **标题** | Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients |
| **作者** | Mingwei Xu, Hao Fang |
| **机构** | University of Washington, Seattle, USA |
| **arXiv ID** | [2605.06650](https://arxiv.org/abs/2605.06650) |
| **发表日期** | 2026-05-07 |
| **论文分类** | cs.CL (Computation and Language) |
| **核心论点** | 在 RLVR 的稀疏二值奖励场景下,负 rollouts 提供的信号质量低下;通过有界重要性采样和 softmax 归一化的隐性负梯度,仅使用正 rollouts 即可实现与 GRPO 相当或更优的性能 |
| **关键技术** | Bounded Importance Sampling、Siamese Policy Network(动量锚定)、Representation-Space Alignment(替代 KL 散度) |
| **实验规模** | 4 个基础模型(Qwen-Math 1.5B/7B、R1-Distill 1.5B/7B)× 5 个数学基准(MATH-500、AMC 23、AIME 24/25、OlympiadBench) |
| **关键数据** | Qwen-Math-7B AIME 2025:POPO 36.67% vs GRPO 30.00%;消融实验显示负样本加入后性能暴跌至 23.00% |
| **训练数据** | DeepScaleR-Preview-Dataset(~40K 数学题,覆盖小学至奥赛难度) |
#CrushAI #HaloWriter #智柴系统实验室🎙️📊
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力