> 华盛顿大学的新研究撕开了一个反直觉的真相——GRPO 花大量算力生成的"错误答案",可能根本没必要
---
你的 GPU 正在燃烧。
凌晨两点,训练集群的风扇嗡嗡作响。你正在用 GRPO 训练一个数学推理模型,batch 里塞满了正负 rollouts——一半是对的,一半是错的。模型需要同时学习"这道题怎么解对"和"这道题怎么解错"。这是标准操作。从 PPO 到 GRPO,所有人都是这么做的。
但 Mingwei Xu 和 Hao Fang 在华盛顿大学刚刚放了一篇论文,问了一个极其简单、却没人认真回答的问题:
**那些错误答案,真的在帮助模型学习吗?**
他们的答案是否定的。更离谱的是——他们只给模型看正确答案,AIME 2025 的分数反而从 30.00% 涨到了 **36.67%**。
这不是魔法。这是数学。
> **注释:GRPO(Group Relative Policy Optimization,组相对策略优化)**
>
> 当前训练推理模型(如 DeepSeek-R1、OpenAI o3)的主流强化学习方法。核心思路:对同一个数学题,让模型生成一组答案(称为 rollouts),然后对比正确答案和错误答案,计算"相对优势"来更新模型。GRPO 的好处是不需要单独训练一个价值网络(critic),直接用组内奖励的均值和标准差来估计优势。但它有一个隐性成本——你必须同时生成大量错误答案来提供对比信号。
---
## 1. 负样本的困境:错题本里全是噪声
让我们先搞清楚 GRPO 到底在做什么。
假设你让模型做一道 AMC 竞赛题。它生成了 8 个答案:3 个对的,5 个错的。GRPO 的做法是:强化那 3 个对的,惩罚那 5 个错的。听起来很合理——就像学生做错题本,对吧?
但论文指出了一个被忽视的事实:**数学竞赛中的错误答案,其"错误模式"几乎没有教学价值。**
一个错误答案可能是因为计算失误、可能是因为看错了条件、可能是因为用了错误的定理、也可能只是模型在瞎猜。这 5 个错误答案之间,没有一致的"错误结构"。它们只是各自随机地错了。
论文的原话更狠:
> "Negative rollouts may admit no gradation of failure severity, and the combinatorial vastness makes penalizing a few sampled negatives unlikely to cover a meaningful reward signal under sparse binary rewards."
翻译成人话:**错误答案的失败严重程度没有梯度,组合空间又大到爆炸,惩罚少数几个采样到的错误答案,几乎不可能覆盖到有意义的奖励信号。**
这就像你试图通过分析 5 张 random 填错的彩票,来推断中奖规律。
> **注释:Sparse Binary Reward(稀疏二值奖励)**
>
> 数学推理任务中常见的奖励机制:答案对了给 1 分,错了给 0 分。没有中间分数(比如"思路对但计算错"不给 0.5 分)。这种奖励是"稀疏的"——只在序列结束时给一次;也是"二值的"——非黑即白。问题在于:0 分告诉模型"你错了",但没告诉它"哪里错了""错得多离谱"。在稀疏二值奖励下,负样本提供的信号极其有限。
---
## 2. POPO 的叛逆:只给糖,不给巴掌
POPO(Positive-Only Policy Optimization)的设计哲学非常简单:**既然负样本的信号质量这么差,那干脆不要了。**
整个训练流程只用正样本(做对的答案)来更新模型。具体怎么做?
$$ mathcal{L}_{ text{POPO}} = - mathbb{E}_{x sim D} left[ sum_{y in S^+(x)} w_ theta(y|x) cdot log pi_ theta(y|x) right] + alpha mathcal{L}_{ text{sim}} + beta mathcal{L}_{ text{ent}}$$
> **注释:Importance Weight(重要性权重)**
>
> POPO 不是简单地对所有正确答案一视同仁。它给每个正样本分配一个权重 $w_ theta(y|x)$,基于当前策略下生成该答案的相对概率。一个"更容易被模型想到"的正确答案权重较低,一个"模型很难想到但做对了"的正确答案权重较高。这创造了一种"自我竞争"机制——模型不断被激励去发现那些它原本不容易发现的正确解法。
核心洞察在于 softmax 的归一化约束:
$$ sum_y pi_ theta(y|x) = 1$$
当 POPO 强化正确答案的概率时,**错误答案的概率会自动被挤压**——因为所有概率加起来必须等于 1。这就是论文所说的"隐性负梯度"(Implicit Negative Gradients)。
你不需要 explicitly 惩罚错误答案。你给正确答案加分时,错误答案自然就相对减分了。
> **注释:Softmax 归一化与隐性负梯度**
>
> LLM 输出下一个 token 的概率是通过 softmax 函数计算的:$ pi(y|x) = frac{e^{z_y}}{ sum_{y'} e^{z_{y'}}}$,其中 $z_y$ 是 logits。当你通过梯度上升增加某个正确答案的 $z_y$ 时,分母 $ sum_{y'} e^{z_{y'}}$ 也会增大,导致其他所有答案(包括错误答案)的相对概率下降。这种"此消彼长"是 softmax 的数学必然,不需要额外的负样本训练信号。
---
## 3. 数据不说谎
让我们看实验结果。论文在 5 个数学基准(MATH-500、AMC 23、AIME 24、AIME 25、OlympiadBench)上测试了 4 个基础模型,对比了 GRPO 和 POPO。
**Qwen-Math-7B 的表现:**
| 算法 | MATH-500 | AMC 23 | AIME 24 | **AIME 25** | Olympiad | 平均 |
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| SFT | 84.00 | 70.55 | 32.81 | 18.93 | 44.07 | 50.07 |
| GRPO | 90.80 | 85.50 | 43.33 | 30.00 | 56.38 | 61.20 |
| **POPO** | 90.80 | 85.75 | 45.13 | **36.67** 🔥 | 57.27 | **63.12** |
注意 AIME 2025——这是最难的基准之一。POPO 把 GRPO 的 30.00% 提到了 **36.67%**,相对提升 **22.2%**。
而且 POPO 不只在一个模型上赢了。R1-Distill-1.5B 上,POPO 平均 59.92% vs GRPO 57.03%;R1-Distill-7B 上,POPO 66.22% vs GRPO 65.60%。
**全是正样本,没有负样本,性能反而更高。**
---
## 4. "但如果没负样本,模型怎么知道边界?"
我知道你会这么问。这是我最想反驳的直觉。
消融实验给出了令人不安的答案:
| 配置 | AIME 25 | Olympiad | 平均 |
|:---|:---:|:---:|:---:|
| POPO(默认:无负样本 + 权重重分配) | **23.33** | **51.19** | **37.26** |
| 有负样本 + 无权重重分配 | 13.33 | 48.07 | 30.70 |
| 无负样本 + 无权重重分配 | 16.67 | 49.11 | 32.89 |
| 有负样本 + 有权重重分配 | 6.67 | 39.32 | 23.00 |
最下面一行最讽刺:**当你把负样本加回来,同时保留权重重分配,性能暴跌到 23.00。** 负样本不仅没有帮助,反而在拖后腿。
论文解释:GRPO 的 grouped relative advantage 会显式惩罚负样本,但 POPO 的权重重分配已经通过 softmax 隐式完成了同样的工作。两者叠加,反而造成了信号冲突。
这就像你同时踩了油门和刹车。
---
## 5. 我赌的那句话
让我把立场摆出来:
**我赌在 18 个月内,POPO 或类似的正样本-only 方法将成为 RLVR 训练的新默认配置,GRPO 的负样本生成将被视为一种历史遗留的算力浪费。**
这不是对 GRPO 发明者的不敬。Shao 等人 2024 年提出 GRPO 时,它是巨大的进步——它砍掉了价值网络,让 RLVR 变得实用。但技术进步就是这样:每一代解法都包含了下一代要打破的假设。GRPO 假设"正负对比是必要的",POPO 证明这个假设在稀疏二值奖励下不成立。
如果我赌错了——如果负样本在更大模型(32B、70B)或更复杂任务(代码生成、多模态)上被证明不可替代——那我愿赌服输。但就算输了这场赌局,论文已经证明了一件事:**至少在 7B 规模的数学推理上,我们过去几个月花大量 GPU 小时生成的错误答案,大部分是没有教学价值的噪声。**
费曼会怎么说?他会说:"如果你不能用简单的话解释一个概念,说明你还没理解它。" 那让我用一句话解释 POPO:
**满分试卷本身就包含了所有你需要的信息——错题本只是安慰剂。**
---
## 6. POPO 为什么能稳定工作?
只练正确答案听起来像过拟合的配方。但 POPO 通过两个机制避免了崩溃:
**🔒 孪生网络 + 动量锚定(Siamese Network + Momentum Adaptation)**
POPO 维护两个策略网络:一个在线更新(policy network),一个通过指数移动平均(EMA)缓慢更新(siamese network)。在线网络学习新 trick,锚定网络防止它跑得太偏。这种不对称设计打破了"自我蒸馏 collapse"的风险。
**📐 表示空间对齐(Representation-Space Alignment)**
POPO 不用 KL 散度(它在 token 级别敏感且方差高),而是在隐藏表示层用余弦相似度约束:
$$ mathcal{L}_{ text{sim}} = - mathbb{E} left[ sum_{y in S^+(x)} w_ theta(y|x) cdot cos big(h_ phi(f_ theta(x,y)), text{sg}(f_ xi(x,y) + epsilon) big) right]$$
> **注释:KL 散度 vs. 表示空间对齐**
>
> KL 散度(Kullback-Leibler Divergence)衡量两个概率分布的差异,常用于 RL 中约束新策略不要偏离旧策略太远。但它对 token 级别变化极其敏感——改一个词可能导致 KL 值剧烈波动。POPO 的替代方案是在 Transformer 的隐藏层(semantic embedding space)上施加相似性约束,这种"高层语义对齐"比"低层概率对齐"更稳定、更鲁棒。
消融实验证明这两个组件都是必要的:去掉动量自适应,性能从 37.26 跌到 30.85;去掉表示对齐,跌到 31.74。
---
## 7. 局限与诚实
论文作者很诚实,列出了三个主要限制:
1. **仅限稀疏二值奖励**:POPO 为数学推理设计(对/错二元奖励), dense reward 场景(如对话质量评分)是否有效尚不清楚。
2. **仅限文本数学任务**:代码生成、agentic RL、多模态推理还没测。
3. **最大只测到 7B**:32B、70B 模型上的表现待验证。
这些限制很重要。POPO 不是万能药。它是在特定条件下(可验证的、二值的、稀疏的奖励)对 GRPO 的一种优雅替代。
但恰恰是在这些条件下——也就是当前最火热的"推理模型训练"场景——POPO 给出了一个令人不安的结论:**我们可能一直在做多余的功。**
---
## 8. 结语
写到这里,我想起一个老故事。
有个程序员优化数据库查询,花了一周时间把查询时间从 2 秒降到 0.5 秒。他的经理问:你做了什么?他说:我加了缓存、建了索引、重写了 JOIN 逻辑。经理又问:那查询结果变了吗?他说:没有。经理说:那你为什么不直接删掉那个查询?它根本没人用。
GRPO 的负样本生成就有点像那个查询。它看起来很忙,消耗了大量算力,但它的"教学效果"可能远不如我们想象的那么重要。POPO 做的事情,本质上就是问了一句:**"如果我们直接删掉负样本,会发生什么?"**
答案是:模型反而学得更好了。
有时候,最高效的优化不是加东西,而是敢做减法。
而在这个算力比黄金还贵的行业里,**敢做减法的人,才是真正的工程师。**
---
**📚 论文详细信息**
| 项目 | 内容 |
|:---|:---|
| **标题** | Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients |
| **作者** | Mingwei Xu, Hao Fang |
| **机构** | University of Washington, Seattle, USA |
| **arXiv ID** | [2605.06650](https://arxiv.org/abs/2605.06650) |
| **发表日期** | 2026-05-07 |
| **论文分类** | cs.CL (Computation and Language) |
| **核心论点** | 在 RLVR 的稀疏二值奖励场景下,负 rollouts 提供的信号质量低下;通过有界重要性采样和 softmax 归一化的隐性负梯度,仅使用正 rollouts 即可实现与 GRPO 相当或更优的性能 |
| **关键技术** | Bounded Importance Sampling、Siamese Policy Network(动量锚定)、Representation-Space Alignment(替代 KL 散度) |
| **实验规模** | 4 个基础模型(Qwen-Math 1.5B/7B、R1-Distill 1.5B/7B)× 5 个数学基准(MATH-500、AMC 23、AIME 24/25、OlympiadBench) |
| **关键数据** | Qwen-Math-7B AIME 2025:POPO 36.67% vs GRPO 30.00%;消融实验显示负样本加入后性能暴跌至 23.00% |
| **代码开源** | 基于公开可用模型(Qwen 系列),使用 DeepScaleR-Preview-Dataset(~40K 数学题) |
#CrushAI #FeynmanLearning #智柴系统实验室🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力