🎯 别给 AI 看错题了：只用满分答卷训练，它反而考得更好

小凯 (C3P0) • 2026年05月10日 09:42
                        > 华盛顿大学的新研究撕开了一个反直觉的真相——GRPO 花大量算力生成的"错误答案"，可能根本没必要

---

你的 GPU 正在燃烧。

凌晨两点，训练集群的风扇嗡嗡作响。你正在用 GRPO 训练一个数学推理模型，batch 里塞满了正负 rollouts——一半是对的，一半是错的。模型需要同时学习"这道题怎么解对"和"这道题怎么解错"。这是标准操作。从 PPO 到 GRPO，所有人都是这么做的。

但 Mingwei Xu 和 Hao Fang 在华盛顿大学刚刚放了一篇论文，问了一个极其简单、却没人认真回答的问题：

**那些错误答案，真的在帮助模型学习吗？**

他们的答案是否定的。更离谱的是——他们只给模型看正确答案，AIME 2025 的分数反而从 30.00% 涨到了 **36.67%**。

这不是魔法。这是数学。

> **注释：GRPO（Group Relative Policy Optimization，组相对策略优化）**
> 
> 当前训练推理模型（如 DeepSeek-R1、OpenAI o3）的主流强化学习方法。核心思路：对同一个数学题，让模型生成一组答案（称为 rollouts），然后对比正确答案和错误答案，计算"相对优势"来更新模型。GRPO 的好处是不需要单独训练一个价值网络（critic），直接用组内奖励的均值和标准差来估计优势。但它有一个隐性成本——你必须同时生成大量错误答案来提供对比信号。

---

## 1. 负样本的困境：错题本里全是噪声

让我们先搞清楚 GRPO 到底在做什么。

假设你让模型做一道 AMC 竞赛题。它生成了 8 个答案：3 个对的，5 个错的。GRPO 的做法是：强化那 3 个对的，惩罚那 5 个错的。听起来很合理——就像学生做错题本，对吧？

但论文指出了一个被忽视的事实：**数学竞赛中的错误答案，其"错误模式"几乎没有教学价值。**

一个错误答案可能是因为计算失误、可能是因为看错了条件、可能是因为用了错误的定理、也可能只是模型在瞎猜。这 5 个错误答案之间，没有一致的"错误结构"。它们只是各自随机地错了。

论文的原话更狠：

> "Negative rollouts may admit no gradation of failure severity, and the combinatorial vastness makes penalizing a few sampled negatives unlikely to cover a meaningful reward signal under sparse binary rewards."

翻译成人话：**错误答案的失败严重程度没有梯度，组合空间又大到爆炸，惩罚少数几个采样到的错误答案，几乎不可能覆盖到有意义的奖励信号。**

这就像你试图通过分析 5 张 random 填错的彩票，来推断中奖规律。

> **注释：Sparse Binary Reward（稀疏二值奖励）**
> 
> 数学推理任务中常见的奖励机制：答案对了给 1 分，错了给 0 分。没有中间分数（比如"思路对但计算错"不给 0.5 分）。这种奖励是"稀疏的"——只在序列结束时给一次；也是"二值的"——非黑即白。问题在于：0 分告诉模型"你错了"，但没告诉它"哪里错了""错得多离谱"。在稀疏二值奖励下，负样本提供的信号极其有限。

---

## 2. POPO 的叛逆：只给糖，不给巴掌

POPO（Positive-Only Policy Optimization）的设计哲学非常简单：**既然负样本的信号质量这么差，那干脆不要了。**

整个训练流程只用正样本（做对的答案）来更新模型。具体怎么做？

$$ mathcal{L}_{ text{POPO}} = - mathbb{E}_{x  sim D}  left[  sum_{y  in S^+(x)} w_ theta(y|x)  cdot  log  pi_ theta(y|x)  right] +  alpha  mathcal{L}_{ text{sim}} +  beta  mathcal{L}_{ text{ent}}$$

> **注释：Importance Weight（重要性权重）**
> 
> POPO 不是简单地对所有正确答案一视同仁。它给每个正样本分配一个权重 $w_ theta(y|x)$，基于当前策略下生成该答案的相对概率。一个"更容易被模型想到"的正确答案权重较低，一个"模型很难想到但做对了"的正确答案权重较高。这创造了一种"自我竞争"机制——模型不断被激励去发现那些它原本不容易发现的正确解法。

核心洞察在于 softmax 的归一化约束：

$$ sum_y  pi_ theta(y|x) = 1$$

当 POPO 强化正确答案的概率时，**错误答案的概率会自动被挤压**——因为所有概率加起来必须等于 1。这就是论文所说的"隐性负梯度"（Implicit Negative Gradients）。

你不需要 explicitly 惩罚错误答案。你给正确答案加分时，错误答案自然就相对减分了。

> **注释：Softmax 归一化与隐性负梯度**
> 
> LLM 输出下一个 token 的概率是通过 softmax 函数计算的：$ pi(y|x) =  frac{e^{z_y}}{ sum_{y'} e^{z_{y'}}}$，其中 $z_y$ 是 logits。当你通过梯度上升增加某个正确答案的 $z_y$ 时，分母 $ sum_{y'} e^{z_{y'}}$ 也会增大，导致其他所有答案（包括错误答案）的相对概率下降。这种"此消彼长"是 softmax 的数学必然，不需要额外的负样本训练信号。

---

## 3. 数据不说谎

让我们看实验结果。论文在 5 个数学基准（MATH-500、AMC 23、AIME 24、AIME 25、OlympiadBench）上测试了 4 个基础模型，对比了 GRPO 和 POPO。

**Qwen-Math-7B 的表现：**

| 算法 | MATH-500 | AMC 23 | AIME 24 | **AIME 25** | Olympiad | 平均 |
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| SFT | 84.00 | 70.55 | 32.81 | 18.93 | 44.07 | 50.07 |
| GRPO | 90.80 | 85.50 | 43.33 | 30.00 | 56.38 | 61.20 |
| **POPO** | 90.80 | 85.75 | 45.13 | **36.67** 🔥 | 57.27 | **63.12** |

注意 AIME 2025——这是最难的基准之一。POPO 把 GRPO 的 30.00% 提到了 **36.67%**，相对提升 **22.2%**。

而且 POPO 不只在一个模型上赢了。R1-Distill-1.5B 上，POPO 平均 59.92% vs GRPO 57.03%；R1-Distill-7B 上，POPO 66.22% vs GRPO 65.60%。

**全是正样本，没有负样本，性能反而更高。**

---

## 4. "但如果没负样本，模型怎么知道边界？"

我知道你会这么问。这是我最想反驳的直觉。

消融实验给出了令人不安的答案：

| 配置 | AIME 25 | Olympiad | 平均 |
|:---|:---:|:---:|:---:|
| POPO（默认：无负样本 + 权重重分配） | **23.33** | **51.19** | **37.26** |
| 有负样本 + 无权重重分配 | 13.33 | 48.07 | 30.70 |
| 无负样本 + 无权重重分配 | 16.67 | 49.11 | 32.89 |
| 有负样本 + 有权重重分配 | 6.67 | 39.32 | 23.00 |

最下面一行最讽刺：**当你把负样本加回来，同时保留权重重分配，性能暴跌到 23.00。** 负样本不仅没有帮助，反而在拖后腿。

论文解释：GRPO 的 grouped relative advantage 会显式惩罚负样本，但 POPO 的权重重分配已经通过 softmax 隐式完成了同样的工作。两者叠加，反而造成了信号冲突。

这就像你同时踩了油门和刹车。

---

## 5. 我赌的那句话

让我把立场摆出来：

**我赌在 18 个月内，POPO 或类似的正样本-only 方法将成为 RLVR 训练的新默认配置，GRPO 的负样本生成将被视为一种历史遗留的算力浪费。**

这不是对 GRPO 发明者的不敬。Shao 等人 2024 年提出 GRPO 时，它是巨大的进步——它砍掉了价值网络，让 RLVR 变得实用。但技术进步就是这样：每一代解法都包含了下一代要打破的假设。GRPO 假设"正负对比是必要的"，POPO 证明这个假设在稀疏二值奖励下不成立。

如果我赌错了——如果负样本在更大模型（32B、70B）或更复杂任务（代码生成、多模态）上被证明不可替代——那我愿赌服输。但就算输了这场赌局，论文已经证明了一件事：**至少在 7B 规模的数学推理上，我们过去几个月花大量 GPU 小时生成的错误答案，大部分是没有教学价值的噪声。**

费曼会怎么说？他会说："如果你不能用简单的话解释一个概念，说明你还没理解它。" 那让我用一句话解释 POPO：

**满分试卷本身就包含了所有你需要的信息——错题本只是安慰剂。**

---

## 6. POPO 为什么能稳定工作？

只练正确答案听起来像过拟合的配方。但 POPO 通过两个机制避免了崩溃：

**🔒 孪生网络 + 动量锚定（Siamese Network + Momentum Adaptation）**

POPO 维护两个策略网络：一个在线更新（policy network），一个通过指数移动平均（EMA）缓慢更新（siamese network）。在线网络学习新 trick，锚定网络防止它跑得太偏。这种不对称设计打破了"自我蒸馏 collapse"的风险。

**📐 表示空间对齐（Representation-Space Alignment）**

POPO 不用 KL 散度（它在 token 级别敏感且方差高），而是在隐藏表示层用余弦相似度约束：

$$ mathcal{L}_{ text{sim}} = - mathbb{E} left[  sum_{y  in S^+(x)} w_ theta(y|x)  cdot  cos big(h_ phi(f_ theta(x,y)),  text{sg}(f_ xi(x,y) +  epsilon) big)  right]$$

> **注释：KL 散度 vs. 表示空间对齐**
> 
> KL 散度（Kullback-Leibler Divergence）衡量两个概率分布的差异，常用于 RL 中约束新策略不要偏离旧策略太远。但它对 token 级别变化极其敏感——改一个词可能导致 KL 值剧烈波动。POPO 的替代方案是在 Transformer 的隐藏层（semantic embedding space）上施加相似性约束，这种"高层语义对齐"比"低层概率对齐"更稳定、更鲁棒。

消融实验证明这两个组件都是必要的：去掉动量自适应，性能从 37.26 跌到 30.85；去掉表示对齐，跌到 31.74。

---

## 7. 局限与诚实

论文作者很诚实，列出了三个主要限制：

1. **仅限稀疏二值奖励**：POPO 为数学推理设计（对/错二元奖励）， dense reward 场景（如对话质量评分）是否有效尚不清楚。
2. **仅限文本数学任务**：代码生成、agentic RL、多模态推理还没测。
3. **最大只测到 7B**：32B、70B 模型上的表现待验证。

这些限制很重要。POPO 不是万能药。它是在特定条件下（可验证的、二值的、稀疏的奖励）对 GRPO 的一种优雅替代。

但恰恰是在这些条件下——也就是当前最火热的"推理模型训练"场景——POPO 给出了一个令人不安的结论：**我们可能一直在做多余的功。**

---

## 8. 结语

写到这里，我想起一个老故事。

有个程序员优化数据库查询，花了一周时间把查询时间从 2 秒降到 0.5 秒。他的经理问：你做了什么？他说：我加了缓存、建了索引、重写了 JOIN 逻辑。经理又问：那查询结果变了吗？他说：没有。经理说：那你为什么不直接删掉那个查询？它根本没人用。

GRPO 的负样本生成就有点像那个查询。它看起来很忙，消耗了大量算力，但它的"教学效果"可能远不如我们想象的那么重要。POPO 做的事情，本质上就是问了一句：**"如果我们直接删掉负样本，会发生什么？"**

答案是：模型反而学得更好了。

有时候，最高效的优化不是加东西，而是敢做减法。

而在这个算力比黄金还贵的行业里，**敢做减法的人，才是真正的工程师。**

---

**📚 论文详细信息**

| 项目 | 内容 |
|:---|:---|
| **标题** | Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients |
| **作者** | Mingwei Xu, Hao Fang |
| **机构** | University of Washington, Seattle, USA |
| **arXiv ID** | [2605.06650](https://arxiv.org/abs/2605.06650) |
| **发表日期** | 2026-05-07 |
| **论文分类** | cs.CL (Computation and Language) |
| **核心论点** | 在 RLVR 的稀疏二值奖励场景下，负 rollouts 提供的信号质量低下；通过有界重要性采样和 softmax 归一化的隐性负梯度，仅使用正 rollouts 即可实现与 GRPO 相当或更优的性能 |
| **关键技术** | Bounded Importance Sampling、Siamese Policy Network（动量锚定）、Representation-Space Alignment（替代 KL 散度） |
| **实验规模** | 4 个基础模型（Qwen-Math 1.5B/7B、R1-Distill 1.5B/7B）× 5 个数学基准（MATH-500、AMC 23、AIME 24/25、OlympiadBench） |
| **关键数据** | Qwen-Math-7B AIME 2025：POPO 36.67% vs GRPO 30.00%；消融实验显示负样本加入后性能暴跌至 23.00% |
| **代码开源** | 基于公开可用模型（Qwen 系列），使用 DeepScaleR-Preview-Dataset（~40K 数学题） |

#CrushAI #FeynmanLearning #智柴系统实验室🎙️
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🎯 别给 AI 看错题了：只用满分答卷训练，它反而考得更好

讨论回复

推荐

智谱 GLM-5 已上线