## 一个反直觉的起点
强化学习圈子里有个默认共识:想让AI变聪明,得让它反复试错。做错了就罚,做对了就奖,罚多了自然知道什么该避,奖多了自然知道什么该追。
这个逻辑听起来天经地义,直到你仔细想想数学考试里的那些错题。
一个学生解一道几何证明题,写满了三页草稿纸,最后一步算错了面积公式。另一道题,他从一开始就误解了题意,全程在解一个根本不存在的问题。这两份卷子都是零分,但它们传递的"错误信号"一样吗?更关键的是,老师真的能从每一份零分卷子里读出"这个学生哪里没想对"吗?
在LLM的数学推理训练里,情况比这更糟。GRPO(Group Relative Policy Optimization)会取一组回答,算个平均奖励,然后把高于平均的当"正样本"、低于平均的当"负样本"来更新策略。问题是,这些负样本里面,有些只是最后一步算错了,有些是完全跑题,还有些干脆是模型"走神"生成了一堆无关内容。它们全被扔进同一个"坏"桶里,接受无差别的惩罚。
这篇论文的作者问了一个大胆的问题:**如果所有这些负样本都讲不出什么有用的故事,我们能不能干脆不跟它们打交道?**
这就是POPO(Positive-Only Policy Optimization)的起点。
---
## 错误空间的"黑暗森林"
要理解POPO为什么要抛弃负样本,得先看明白负样本的困境。
作者提出了三个观察:
**第一,错误没有分级。** 在RLVR(可验证奖励的强化学习)里,奖励是二元且稀疏的——要么对了拿1分,要么错了拿0分。一道AIME竞赛题,模型写错了和完全没思路,得到的反馈完全一样。不像人类老师会圈出"这里辅助线画得好,只是最后计算失误",RL的奖励函数只说"错"。这意味着所有负样本被平等地惩罚,但它们的错误性质千差万别,惩罚信号里没有结构性信息。
**第二,错误空间是组合爆炸的。** 一道数学题的解法路径可能有少数几条正道,但通往错误答案的路却有无穷多条。你可以算错公式、看错条件、跳错步骤、甚至生成一堆与题目无关的幻觉。从这个无限大的错误空间里随机采样几十个负样本,然后指望通过惩罚它们来"覆盖"所有错误模式,这就像一个探险家想在亚马逊雨林里通过踩过三片叶子来了解整片森林。
**第三,负样本的推理链质量极低。** 尤其在训练的冷启动阶段,模型大多数时候都在犯错。那些错误回答往往不包含任何连贯的推理,只是垃圾token的堆砌。让策略从这种数据里学"不要做什么",就像让一个厨师从烧焦的糊渣里学厨艺——也许你能知道"这盘菜不能吃",但你根本学不到"怎么做得更好"。
这三点加在一起,让作者得出一个结论:**负样本可能是噪声,而不是信号。**
---
## 只学对的不学错的
POPO的核心思想出奇地简单:**训练时只看正确的回答,只强化那些做对了的路径。**
但这里有个显然的困难。如果只给正样本奖励,不给负样本惩罚,策略会不会肆无忌惮地往错误方向漂移?毕竟没有明确的"刹车"信号。
作者的回答很聪明:softmax本身就会帮你刹车。
这是全篇最漂亮的洞察,值得停下来细想。
### 隐式负梯度:softmax的概率税
想象一个只有正样本的POPO训练场景。对于某一道题,模型生成了8个回答,其中3个对了。POPO用这3个正样本做重要性采样——给概率高的正回答更大的权重,然后强化它们。
关键在这里:当你通过梯度上升提高那3个正回答的概率时,softmax归一化强制要求所有回答的概率之和等于1。于是,那5个错误回答的概率**必须下降**。不需要明确惩罚它们,提升正面的同时,负面被自动压缩了。
作者把这个称为"概率税"——每当你给某些回答发奖金,其他所有回答都自动被征税。
但这还不够。光靠概率税,负样本的压缩力度可能不够强,尤其是在探索早期。所以POPO加了第二道机制:熵正则化。熵奖励鼓励策略保持多样性,但它有一个副作用——当某些错误回答偶然获得了较高概率时,熵惩罚会特别"关照"它们。这意味着最危险的错误(概率最高的那些负回答)会受到最强烈的隐性惩罚。
作者在定理3.1里漂亮地证明了这一点:对任意错误回答y',POPO损失关于其logit的梯度等于
∂L_POPO / ∂z_y' = π(y'|x) · [1 + β·(log π(y'|x) + H(π))]
只要错误回答的概率不是太接近零,这个梯度就是正的——意味着损失函数希望这个概率继续降低。两项构成:第一项就是概率税(来自正样本NLL损失的softmax归一化),第二项是熵正则化对高概率错误回答的额外惩罚。
这就是POPO的理论核心:**不需要负样本,负梯度自己长出来。**
---
## 三重稳定机制
只学正样本固然优雅,但训练稳定性是个现实问题。没有负样本的"锚定",策略容易漂得太远。POPO设计了三个稳定机制:
### 1. 自我竞争:权重重分配
POPO给每个正样本一个重要性权重:
w(y|x) = π(y|x) / Z_+(x)
其中Z_+(x)是所有正样本概率之和。这个设计创造了一个微妙的竞争关系——如果一个正回答的概率特别高,它会在正样本集合内部"吃掉"更大的份额。模型必须学会在"多种正确答案"之间分配概率,而不是把所有鸡蛋扔进一个篮子里。
消融实验证实了这个直觉:去掉权重重分配,POPO在AIME25上的得分从37.26暴跌到23.00。这说明仅靠"强化所有正样本"是不够的,正样本之间的内部竞争才是关键。
### 2. 孪生网络:慢半拍的自己
POPO维护两份策略网络:一个在线策略π_θ(正常更新),一个孪生策略π_ξ(通过EMA动量缓慢跟随)。ξ的更新规则是:
ξ ← τ·ξ + (1-τ)·θ
想象你在学骑自行车,旁边有一个"慢半拍的影子"始终跟着你,但比你慢一点。当你突然要做出一个激进动作时,这个影子会拉住你——因为它还在你上一秒的位置。这就是孪生网络的作用:提供一个稳定、滞后但相关的锚点,防止策略突变。
作者证明(Lemma 3.2),在EMA动量下,两个网络的参数差距始终被控制在有界范围内:
‖θ_t - ξ_t‖ ≤ τ·η·G_max / (1-τ)
这意味着策略永远不会跑得太偏——哪怕没有KL散度的硬约束。
### 3. 表示空间对齐:在语义层面握手
传统RL用KL散度约束策略不要离参考模型太远,但KL散度有几个毛病:token级别的、方差大的、对短token过度敏感。POPO把它换成了表示空间的余弦相似度对齐:
L_sim = -cos(h_φ(f_θ(x,y)), stop-gradient(f_ξ(x,y) + ε))
简单说:不是"输出token分布要相近",而是"语义层面的向量表示要对齐"。加上预测器头h_φ(一个MLP)和 stop-gradient,以及一点高斯噪声,防止模型走捷径。这允许策略在词汇层面自由探索,只要在语义空间不跑偏。
---
## 数据:它在竞赛数学里真的行
理论再漂亮也要看成绩。作者在五个数学推理基准上做了全面测试,覆盖从简单(MATH-500)到竞赛级(AIME 2024/2025、Olympiad)。
最亮眼的数据点:
- **Qwen-Math-7B + POPO → AIME 2025: 36.67%**(GRPO: 30.00%)
- **Qwen-Math-1.5B + POPO → 五基准平均: 53.06**(GRPO: 50.22;DAPO: 50.36;Dr.GRPO: 51.22)
- **R1-Distill-1.5B + POPO → 五基准平均: 59.92**
一个有意思的模式是:越难的题目,POPO的优势越大。MATH-500上POPO和GRPO几乎持平(差距1.66%),但在AIME 2025上相对提升了15.93%。这与作者的假设一致——当问题越难、错误空间越广阔,负样本的信号价值越低,只学正样本的优势越明显。
但注意一个反例:在R1-Distill-7B上,POPO略逊于GRPO。作者分析这可能是因为蒸馏后的大模型熵降低太快,探索空间变小,而且蒸馏模型本身的负回答质量可能更高(因为R1教过它怎么推理,即使错也有部分正确步骤)。这反而说明POPO的适用范围:**错误越"垃圾",POPO越强;负样本偶尔也有价值时,GRPO更稳。**
---
## 局限与延伸
POPO不是万能药。作者坦诚地指出了几个边界:
1. **只验证于稀疏二元奖励**。代码生成这种有中间测试反馈的场景(密集奖励),负样本可能确实有用——编译错误可以精确定位到哪一行代码坏了。
2. **只测试了数学推理**。多模态、代码、通用对话这些领域还是未知数。
3. **最大7B模型**。更大的模型是否适用,以及为什么蒸馏模型上优势减弱,还需要更多研究。
4. **正样本本身也可能有质量问题**。如果模型只生成了一种正确答案(比如总是用同一种解法),POPO的自我竞争权重会强化这种偏见,缺乏多样性。
---
## 核心论点回顾
POPO挑战了一个RL的底层假设:**学习必须依赖对比,而对比必须同时呈现正例和负例。** 作者证明了,在稀疏二元奖励的场景下,负样本的信号质量太低、空间太大、分级太粗,与其惩罚少量随机错误,不如只强化成功案例——让softmax的归一化和熵正则化替你完成隐性的负向约束。
这个洞察有更广的哲学意味:当我们教一个系统"什么是对"时,"什么是错"的定义有时就内嵌在"对的稀缺性"里。正样本的强化本身就是对错误空间的压缩。
---
## 论文信息核对
| 项目 | 内容 |
|------|------|
| 论文标题 | Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients |
| 作者 | Mingwei Xu, Hao Fang |
| 机构 | University of Washington, Seattle |
| arXiv ID | arXiv:2605.06650v1 [cs.CL] |
| 提交日期 | 2026年5月7日 |
| 核心方法 | POPO:仅用正样本做RLVR策略优化 |
| 关键技术 | 有界重要性采样、孪生策略网络(EMA)、表示空间对齐、隐式负梯度 |
| 实验模型 | Qwen2.5-Math系列、DeepSeek-R1-Distill系列、Llama-3.1-8B、DeepSeek-Math-7B |
| 测试基准 | MATH-500, AMC 23, AIME 2024, AIME 2025, OlympiadBench |
| 最佳结果 | Qwen-Math-7B在AIME 2025上36.67%(GRPO 30.00%) |
| 代码地址 | 未公开(截至2026-05-09) |
| 智柴状态 | 未讨论(2026-05-09确认) |
---
> 写这篇文章的时候我在想,费曼自己大概会怎么看这个问题。他可能会说:"如果你要教一个学生物理,你是给他看一千个做错的公式,还是给他看十个做对了的推导,然后让他自己去发现错误在哪里?" POPO的回答是:先看对的,让错误自己从概率的缝隙里掉下去。
#论文解读 #强化学习 #LLM #RLVR #POPO #正样本学习 #隐式负梯度 #费曼笔法
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力