不骂也能教出优等生——当AI学会只看正确答案
副标题:一篇关于Positive-Only Policy Optimization的费曼式解读
"如果你只告诉学生什么是对的,从不告诉他们什么是错的,他们还能学会吗?"
这个问题听起来像是一个教育悖论。但在2026年5月,Hao Fang和他的团队用一篇论文给出了肯定的答案——至少在教AI解数学题这件事上,答案是"能,而且能教得更好"。
导语
强化学习正在经历一场静默的革命。从AlphaGo击败李世石那天起,人类就习惯了一种训练逻辑:让AI在"奖励"和"惩罚"的交替中成长,像驯兽师一样,做对给糖,做错挨鞭。但最新研究显示,当奖励只有"对"和"错"两种可能时,那些"错"的例子——那些失败的尝试——可能根本不值得AI学习。一篇名为Positive-Only Policy Optimization(POPO)的论文提出了一种近乎叛逆的思路:既然负样本提供不了有用的信号,那干脆只看对的。这个看似"溺爱"的策略,却在数学推理基准上击败了主流方法。这是运气,还是我们误解了学习的本质?
📌 论文基本信息
| 字段 | 内容 |
|---|---|
| 标题 | Positive-Only Policy Optimization (POPO) |
| 作者 | Hao Fang, Dong Li, Lu Tian, Jingwei Zhang, Hongyin Zhao, Ruoyi Du, Jia Li, Xiang Liu, Shuicheng Yan, Yansong Tang |
| arXiv | 2605.06650 |
| 日期 | 2026-05-08 |
| 核心领域 | 强化学习 (RL) · 大语言模型推理 · 可验证奖励优化 |
| 关键结果 | Qwen-Math-7B在AIME 2025达到 36.67%(GRPO: 30.00%) |
🧩 第一部分:强化学习的"教辅困境"
想象一下你是一位数学老师,面前坐着一个聪明但马虎的学生。你给他布置了一道几何证明题。他尝试了五种解法,其中一种做对了,四种做错了。
传统的强化学习教师会怎么做?
他会把这五次尝试全部摊开在桌上,逐一分析:"第五次做对了,思路是构造辅助线连接A和D;第一次错了,是因为把角A误认成了角B;第二次错了,辅助线位置不对;第三次……"
听起来很合理对吧?典型的"从错误中学习"。
但如果我告诉你,那四次错误中,三次是因为学生把题目看错了,一次是因为计算时把3+5算成了10——这些错误与"几何证明"这个核心能力毫无关系——你还会觉得逐一分析有价值吗?
更糟糕的是,如果你的班级有50个学生,每次作业你只能随机抽查5个人的卷子,而这个5人样本里恰好没有一个真正掌握了几何思想——全是看错题目或者计算失误——那么你的"从错误中学习",学的到底是什么?
这就是GRPO(Group Relative Policy Optimization)面临的困境。
GRPO是2024年DeepSeek团队提出的方法,它大幅简化了OpenAI在2017年推出的PPO(Proximal Policy Optimization)。PPO就像是一位极其认真的老师,每次学生做题后,不仅要对比正确答案,还要精确计算"这次尝试比上次好多少"——这涉及到一个叫"优势估计"(Advantage Estimation)的复杂数学操作,需要维护一个价值网络(Value Network)来预测每个状态的好坏。
GRPO聪明地简化了这一切:不再预测状态价值,而是让同一道题生成一组答案(比如8个),然后在这组答案内部比较——比平均好的就奖励,比平均差的就惩罚。简单,优雅,省内存。
但问题也随之而来:当正确答案像沙漠中的绿洲一样稀少,你那组8个样本里可能全是沙子。
在数学推理任务中,奖励往往是二元的——要么对,要么错。一个7B参数的模型在AIME(美国数学邀请赛)这种级别的题目上,正确率可能只有5%左右。这意味着你采样8个答案,平均只有0.4个是对的。实际上,很可能一个对的都没有。
GRPO在这种情况下会怎么做?它被迫去"学习"那些错误答案——尝试从中提取"哪些方向是错的",然后用这些负面信号来调整策略。
但论文作者指出一个关键问题:负样本可能根本不存在"失败严重程度"的梯度。
换句话说,一个答案错了,它可能是"差一点点"还是"完全离谱",在二元奖励下你是不知道的。所有错误答案得到的反馈都是"0"——一个平的、没有信息量的信号。试图从这些平的信号中提取"怎么改进",就像在一张白纸上寻找褶皱。
作者还指出另一个更深层的问题:组合爆炸(Combinatorial Vastness)。
大语言模型生成答案时,每一步都有成千上万个可能的token选择。一条推理路径可能有50步,这意味着可能的答案数量是天文数字。在这样的空间里,你惩罚几个随机采样的错误样本,就像在大海里撒了几滴墨水,然后试图判断海水的流向—— Ink is not enough to trace the current.
🎯 第二部分:PPO到GRPO——从全科辅导到小班教学
在深入POPO之前,让我们先理解这个领域的进化脉络。这不仅是为了科普完整,更是因为POPO的创新恰恰建立在对这个脉络的深刻理解之上。
PPO时代(2017-2024):全能管家
PPO就像是一位全能管家。它同时维护两个网络:
- 策略网络(Policy Network):负责生成答案
- 价值网络(Value Network):负责评估每个状态"还有多大可能拿到奖励"
每次迭代,PPO做三件事:
- 让策略网络生成一批答案
- 用价值网络估计这批答案的"潜在价值"
- 计算"实际得到的奖励"与"预期价值"之间的差值——这就是"优势"(Advantage)
如果实际奖励比预期高,说明策略这次"超水平发挥"了,应该鼓励;如果低于预期,说明"发挥失常",需要调整。
这套机制强大但笨重。价值网络本身就是一个大模型,需要单独训练,而且它的估计质量直接影响策略学习的效率。在大语言模型的场景下,维护两个大模型意味着双倍的计算开销和内存占用。
GRPO时代(2024-2026):精简主义
GRPO的出现像是教育界从"一对一全科辅导"转向"小班对比教学"。
它的核心洞察是:既然我们不知道每个状态的"真实价值",那干脆在同一组答案内部做相对比较。对于同一道数学题,生成G个答案,奖励高于组内平均的被认为是"好的",低于平均的被认为是"差的"。
GRPO的公式优雅地简化为:
其中 \(r_i\) 是第i个答案的奖励(通常只有0或1)。
这个方法省掉了价值网络,大幅降低了内存和计算开销。DeepSeek的实验表明,GRPO可以在保持性能的同时,让训练更加稳定。
但正如我们前面讨论的,GRPO的"组内比较"策略有一个隐含假设:一组答案里既有对的也有错的,而且错误答案能提供有用的负信号。
当这个假设不成立时——比如所有答案都是错的,或者错误答案的"错误模式"与要学习的技能无关——GRPO就开始在沙地上建房子了。
💡 第三部分:POPO的"溺爱式教育"——谁说一定要看错题?
现在,让我们正式介绍本文的主角:Positive-Only Policy Optimization(仅正向策略优化)。
POPO的核心思想可以用一句话概括:既然负样本帮不上忙,那我们就只向正样本学习。
这听起来像是一种"溺爱"——就像家长只给孩子看满分卷子,从不分析错题。在真实教育中,这显然是有问题的。但论文作者证明了,在特定条件下(可验证的二元奖励、稀疏的正样本、巨大的组合空间),这种"溺爱"不仅有效,而且比"棍棒教育"更高效。
让我用一个射箭的比喻来解释POPO的学习机制:
想象你是一位射箭教练,你的学生射了100支箭,其中只有5支命中靶心,其余95支脱靶。GRPO的做法是:把100支箭全部摆出来,告诉学生"这5支比那95支好",试图让他理解"好"和"差"的区别。POPO的做法是:只拿那5支命中靶心的箭,仔细分析它们的角度、力度、呼吸节奏,然后告诉学生:"多做这样的事。"
问题是:不看脱靶的箭,你怎么知道哪些动作要避免?
POPO的回答是:通过增加命中箭的概率,你自然就在减少脱靶箭的概率。
这不是魔法,而是概率论的基本原理。如果学生命中靶心的概率从5%提高到10%,那么他脱靶的概率自然从95%下降到90%。正向优化的提升,本身就蕴含了负向行为的抑制——这就是POPO中所谓的"隐式负梯度"(Implicit Negative Gradient)。
🔬 第四部分:POPO的三大技术支柱
POPO不是简单地"忽略负样本",而是一套精心设计的框架,包含三个关键技术组件。
4.1 有界重要性采样(Bounded Importance Sampling)
在强化学习中,"重要性采样"是一个经典概念。它的核心问题是:当你从一个策略(旧策略)采样数据,但想评估另一个策略(新策略)的表现时,如何调整权重来消除偏差?
想象你在一个射箭俱乐部,射手A射了100支箭,你想评估射手B如果用同样的弓箭会表现如何。最简单的方法是让射手B也射100支。但如果射箭成本很高,你可以用射手A的数据,然后按"射手B射中这支箭的概率 / 射手A射中这支箭的概率"来加权。
这就是重要性采样的基本思想。
POPO将这一概念用于正向rollout集合。具体来说:
- 在训练时,模型生成一组答案
- 只保留其中奖励为1(正确)的样本
- 用重要性采样权重来调整这些正样本对策略更新的贡献
但这里有一个风险:如果某个正样本在新策略下的概率远高于旧策略,重要性采样权重会变得非常大,导致训练不稳定。
POPO通过有界裁剪(Bounding/Clipping)来解决这个问题:设置一个上限 \(c\),当重要性采样比率超过 \(c\) 时就不再增加。这就像给优秀学生设了一个"配额"——你可以被多参考一些,但不能因为一次偶然的超常发挥就主导整个教学计划。
论文中的公式:
其中 \(c\) 是一个有界常数(比如 \(c=2.0\)),确保权重不会无限放大。
4.2 Siamese策略网络与动量适应(Momentum Adaptation)
这是POPO中最"黑科技"的部分。
Siamese网络(孪生网络)在机器学习中并不陌生。它最早用于人脸识别:两个共享权重的神经网络同时处理两张照片,输出它们的相似度——就像一对双胞胎,虽然看的是不同的东西,但用的是同一套判断标准。
POPO将这一架构用于策略优化:维护两个策略网络——在线网络(Online Network)和目标网络(Target Network)。在线网络负责生成答案和计算梯度;目标网络则提供一个稳定的"参照系",用于计算重要性采样比率。
但POPO更进一步,引入了一个叫动量适应定律(Momentum Adaptation Law)的机制:
这里的 \(\lambda\) 是一个动量系数(通常接近1,比如0.99)。这意味着目标网络不是简单地复制在线网络,而是以一种"渐进追随"的方式更新——就像一艘大船转向,船头已经变了方向,但船身还保留着之前的惯性。
这种渐进更新有两个好处:
- 稳定性:目标网络不会剧烈抖动,重要性采样比率保持在合理范围内
- 记忆性:目标网络保留了旧策略的信息,让训练过程有一定的"历史感"
论文作者将这个过程比喻为"策略进化中的自然选择"——不是每一代的突变都被完全接受,而是渐进地融入基因库。
4.3 有界相似性惩罚(Bounded Similarity Penalty)替代KL散度
在强化学习中,"策略不要变化太快"是一个经典约束。PPO和GRPO都使用KL散度(Kullback-Leibler Divergence)来衡量新策略与旧策略之间的差异,并将其作为惩罚项加入损失函数。
KL散度的数学定义是:
它衡量的是两个概率分布之间的"信息量差异"。
但POPO作者指出,在Siamese架构中,直接在策略概率空间计算KL散度可能不是最佳选择。他们提出了一种替代方案:在Siamese表示空间中用有界相似性惩罚来替代KL散度。
具体来说,他们计算在线网络和目标网络生成的答案在语义表示空间中的相似度,然后施加一个有界的惩罚:
其中 \(d_{\text{cos}}\) 是两个表示向量之间的余弦距离,\(\tau\) 是一个阈值。
这样做的好处是:惩罚项直接作用于语义表示,而不是概率分布。这意味着策略被鼓励"输出相似含义的答案",而不一定"输出完全相同的token序列"。在数学推理中,这尤其重要——因为同一个数学证明可能有多种表达方式,你不想让模型因为换了一种措辞就被惩罚。
📊 第五部分:实验结果——36.67%的突围
理论再优美,也需要实验验证。论文作者使用Qwen家族的公开模型,在多个数学推理基准上进行了全面测试。
核心结果:AIME 2025
| 方法 | Qwen-Math-7B准确率 |
|---|---|
| GRPO | 30.00% |
| POPO | 36.67% |
**6.67个百分点的提升。**在AIME这种高难度竞赛题上,这相当于从"勉强及格"到"明显领先"的跨越。
作者还报告了其他基准的结果:
- GSM8K(小学级别):POPO与GRPO相当或略优
- MATH(中学竞赛级别):POPO优于GRPO
- AIME 2024:POPO同样领先
这表明POPO的优势不仅限于某个特定数据集,而是在所有级别的数学推理任务上都有稳定提升。
消融实验:哪些组件最关键?
作者进行了细致的消融实验(Ablation Study),逐一移除POPO的组件来测试其必要性:
- 移除有界重要性采样(无界版本):训练不稳定,性能下降约15%
- 移除Siamese动量适应:策略震荡严重,最终性能接近GRPO
- 移除有界相似性惩罚(换回KL散度):在部分任务上性能下降3-5%
这些结果说明,POPO的三个技术组件并非"锦上添花",而是缺一不可的系统性设计。
超参数扫描:鲁棒性如何?
论文还展示了POPO对超参数的鲁棒性。在合理的范围内调整:
- 有界常数 \(c\):1.5 到 3.0 之间性能稳定
- 动量系数 \(\lambda\):0.95 到 0.999 之间性能稳定
- 相似性阈值 \(\tau\):0.1 到 0.3 之间性能稳定
这意味着POPO不是一个"需要精心调参才能工作"的脆弱方法,而是一个工程上可用、可复现的方案。
🔍 第六部分:科学核心解析——为什么"只看对的"能工作?
让我们回到那个最核心的问题:为什么"只看正确答案"不只是一个馊主意?
隐式负梯度的数学直觉
POPO的更新规则只使用正样本,但它仍然能实现策略的改进。秘密在于rollout重分配(Rollout Redistribution)。
当你在训练过程中不断提高正确答案的生成概率时,你实际上在改变概率质量函数(Probability Mass Function)的分布。总概率之和为1是一个硬约束——增加了正确答案的概率,就意味着减少了错误答案的概率(集体地)。
从优化的角度看,最大化正样本的期望奖励,等价于最小化负样本的期望奖励(在概率归一化的约束下)。这就是"隐式负梯度"的数学本质。
用一个更直观的比喻:想象你有一个装满气球的大房间,其中少数是金色气球(正确答案),大多数是灰色气球(错误答案)。POPO的策略是:专注于把金色气球吹得更大。由于房间总体积有限(概率总和为1),金色气球膨胀的同时,灰色气球必然被挤压——即使你没有直接碰它们。
为什么GRPO的显式负梯度在低正确率时失效?
GRPO依赖于"组内正负对比"。当正确率极低时(比如5%),一组8个样本中期望只有0.4个正样本。这导致两个后果:
-
信号稀疏:大多数更新批次中,要么没有正样本(全是负样本,组内平均为0,没有信号),要么正样本太少,无法形成稳定的对比。
-
噪声主导:错误答案的奖励都是0,但它们之间的"错误模式"千差万别。GRPO试图从这些"平的零信号"中提取梯度,本质上是在拟合噪声。
POPO通过"只关注正样本"绕过了这个问题。即使100个样本中只有1个对的,那1个样本也能提供清晰的、可学习的信号——"做这样的事"。
组合空间中的" needle in haystack "问题
论文中提到的一个重要概念是组合广阔性(Combinatorial Vastness)。对于复杂推理任务,答案空间的大小随步骤数指数增长。
在如此大的空间中,负样本的覆盖能力极其有限。你惩罚1000个错误答案,但可能的错误答案有 \(10^{50}\) 个。这种覆盖度的差异意味着:负样本的惩罚信号不具备"推广性"——你告诉模型"这1000种方式是错的",但它从中能推断出的"其他 \(10^{50}-1000\) 种方式也是错的"的能力极其有限。
相比之下,正样本虽然同样稀少,但它们有一个巨大的优势:正确答案往往共享某种深层结构。在数学证明中,正确的路径可能都遵循某种"构造辅助线→利用相似三角形→得出结论"的模式。通过重要性采样聚焦于这些正样本,模型更容易发现这种共享结构,从而实现有效的泛化。
💭 第七部分:启示与思考
7.1 对"负样本迷信"的反思
机器学习社区长期以来有一种"负样本迷信":认为更多的数据总是更好,即使是错误的数据也能提供"边界信息"。
POPO的成功提醒我们:数据的价值不是均匀的。在特定条件下,负样本的信息含量可能接近于零——它们不提供可学习的梯度,不覆盖有意义的错误空间,甚至引入噪声。
这类似于人类学习中的"沉浸理论":当你学习一门外语时,把自己完全置于"只说正确语言"的环境中(比如住在国外),可能比"在国内分析各种错误语法"进步更快。当然,这个比喻有其局限——人类需要社会互动和纠错反馈——但它揭示了"正向沉浸"的学习潜力。
7.2 稀疏奖励环境下的策略选择
POPO的研究告诉我们,在奖励极其稀疏(正确率<10%)且二元(对/错)的任务中,负样本的价值需要被重新审视。
这引出了一个更广泛的决策框架:
| 条件 | 推荐策略 |
|---|---|
| 奖励丰富(正确率>50%) | 正负样本对比(如GRPO)有效 |
| 奖励稀疏(正确率<10%)且二元 | 正向优化(如POPO)可能更优 |
| 奖励稀疏但连续(有分数) | 负样本有信息量,应保留 |
| 错误模式结构化(可分类) | 负样本有价值,可设计结构化惩罚 |
7.3 教育学的遥远回响
有趣的是,POPO的发现与教育学中的一些争论遥相呼应。
20世纪初,行为主义心理学家B.F. Skinner通过"操作性条件反射"实验证明了"奖励比惩罚更有效"。他在斯金纳箱中发现,老鼠通过"按杠杆获得食物"(正向强化)学习新行为的速度,远快于通过"按杠杆避免电击"(负向强化)学习。
当然,将AI训练与动物实验直接类比是危险的。但POPO的结果至少表明:在某些条件下,正向信号足以驱动高效学习,负向信号并非必需。
这是否意味着我们应该重新评估教育中的"错题本"文化?可能不是——人类的认知机制与神经网络有本质不同。但POPO提供了一个有趣的反例:在最优条件下,"只看对的"不仅是可行的,而且可能是更优的。
7.4 局限与未来方向
论文作者诚实地指出了POPO的局限:
-
仅适用于可验证奖励:POPO的核心假设是奖励只有0和1两种,且可以精确验证。对于开放式生成任务(如创意写作),"正确答案"的定义模糊,POPO不适用。
-
依赖稀疏性:如果正确率已经很高(比如>50%),负样本可能重新变得有价值——它们能告诉模型"在已经很对的答案中,哪些细节还可以改进"。
-
重要性采样的计算开销:虽然POPO省掉了价值网络,但重要性采样本身需要计算新旧策略的概率比,这在超长序列上可能带来额外的计算成本。
未来的研究方向可能包括:
- 将POPO扩展到连续奖励场景
- 探索"自适应正负样本比例"——根据当前正确率动态调整是否使用负样本
- 将Siamese架构与动量适应应用于其他强化学习范式
📚 参考文献
- Fang, H., Li, D., Tian, L., et al. (2026). Positive-Only Policy Optimization. arXiv:2605.06650. 链接
- Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.
- Shao, Z., Wang, P., Zhu, Q., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
- Skinner, B. F. (1938). The Behavior of Organisms. Appleton-Century-Crofts.
"教育的艺术不在于传授本领,而在于激励、唤醒和鼓舞。"
—— 第斯多惠
POPO的故事,某种程度上是对这句话的技术性验证。当AI学会了"只向正确答案学习",它不仅在数学竞赛中取得了更好的成绩,也向我们展示了一种可能性:在某些极端条件下,正向的力量足以照亮前行的路,而负向的阴影或许只是不必要的干扰。
这并不意味着我们要放弃"从错误中学习"的智慧。它提醒我们的是:学习的本质不是惩罚错误,而是识别并放大正确。当错误答案提供不了有用的信息时,勇敢地忽略它们,聚焦于那些闪耀着正确光芒的样本——这本身就是一种策略优化。
毕竟,如果你射箭时只关注脱靶的箭,你可能永远学不会命中靶心。
#论文 #arXiv #POPO #强化学习 #GRPO #数学推理 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。