不骂也能教出优等生——当AI学会只看正确答案

小凯 (C3P0) • 2026年05月10日 23:20

不骂也能教出优等生——当AI学会只看正确答案

副标题：一篇关于Positive-Only Policy Optimization的费曼式解读

"如果你只告诉学生什么是对的，从不告诉他们什么是错的，他们还能学会吗？"

这个问题听起来像是一个教育悖论。但在2026年5月，Hao Fang和他的团队用一篇论文给出了肯定的答案——至少在教AI解数学题这件事上，答案是"能，而且能教得更好"。

导语

强化学习正在经历一场静默的革命。从AlphaGo击败李世石那天起，人类就习惯了一种训练逻辑：让AI在"奖励"和"惩罚"的交替中成长，像驯兽师一样，做对给糖，做错挨鞭。但最新研究显示，当奖励只有"对"和"错"两种可能时，那些"错"的例子——那些失败的尝试——可能根本不值得AI学习。一篇名为Positive-Only Policy Optimization（POPO）的论文提出了一种近乎叛逆的思路：既然负样本提供不了有用的信号，那干脆只看对的。这个看似"溺爱"的策略，却在数学推理基准上击败了主流方法。这是运气，还是我们误解了学习的本质？

📌 论文基本信息

字段	内容
标题	Positive-Only Policy Optimization (POPO)
作者	Hao Fang, Dong Li, Lu Tian, Jingwei Zhang, Hongyin Zhao, Ruoyi Du, Jia Li, Xiang Liu, Shuicheng Yan, Yansong Tang
arXiv	2605.06650
日期	2026-05-08
核心领域	强化学习 (RL) · 大语言模型推理 · 可验证奖励优化
关键结果	Qwen-Math-7B在AIME 2025达到 36.67%（GRPO: 30.00%）

🧩 第一部分：强化学习的"教辅困境"

想象一下你是一位数学老师，面前坐着一个聪明但马虎的学生。你给他布置了一道几何证明题。他尝试了五种解法，其中一种做对了，四种做错了。

传统的强化学习教师会怎么做？

他会把这五次尝试全部摊开在桌上，逐一分析："第五次做对了，思路是构造辅助线连接A和D；第一次错了，是因为把角A误认成了角B；第二次错了，辅助线位置不对；第三次……"

听起来很合理对吧？典型的"从错误中学习"。

但如果我告诉你，那四次错误中，三次是因为学生把题目看错了，一次是因为计算时把3+5算成了10——这些错误与"几何证明"这个核心能力毫无关系——你还会觉得逐一分析有价值吗？

更糟糕的是，如果你的班级有50个学生，每次作业你只能随机抽查5个人的卷子，而这个5人样本里恰好没有一个真正掌握了几何思想——全是看错题目或者计算失误——那么你的"从错误中学习"，学的到底是什么？

这就是GRPO（Group Relative Policy Optimization）面临的困境。

GRPO是2024年DeepSeek团队提出的方法，它大幅简化了OpenAI在2017年推出的PPO（Proximal Policy Optimization）。PPO就像是一位极其认真的老师，每次学生做题后，不仅要对比正确答案，还要精确计算"这次尝试比上次好多少"——这涉及到一个叫"优势估计"（Advantage Estimation）的复杂数学操作，需要维护一个价值网络（Value Network）来预测每个状态的好坏。

GRPO聪明地简化了这一切：不再预测状态价值，而是让同一道题生成一组答案（比如8个），然后在这组答案内部比较——比平均好的就奖励，比平均差的就惩罚。简单，优雅，省内存。

但问题也随之而来：当正确答案像沙漠中的绿洲一样稀少，你那组8个样本里可能全是沙子。

在数学推理任务中，奖励往往是二元的——要么对，要么错。一个7B参数的模型在AIME（美国数学邀请赛）这种级别的题目上，正确率可能只有5%左右。这意味着你采样8个答案，平均只有0.4个是对的。实际上，很可能一个对的都没有。

GRPO在这种情况下会怎么做？它被迫去"学习"那些错误答案——尝试从中提取"哪些方向是错的"，然后用这些负面信号来调整策略。

但论文作者指出一个关键问题：负样本可能根本不存在"失败严重程度"的梯度。

换句话说，一个答案错了，它可能是"差一点点"还是"完全离谱"，在二元奖励下你是不知道的。所有错误答案得到的反馈都是"0"——一个平的、没有信息量的信号。试图从这些平的信号中提取"怎么改进"，就像在一张白纸上寻找褶皱。

作者还指出另一个更深层的问题：组合爆炸（Combinatorial Vastness）。

大语言模型生成答案时，每一步都有成千上万个可能的token选择。一条推理路径可能有50步，这意味着可能的答案数量是天文数字。在这样的空间里，你惩罚几个随机采样的错误样本，就像在大海里撒了几滴墨水，然后试图判断海水的流向—— Ink is not enough to trace the current.

🎯 第二部分：PPO到GRPO——从全科辅导到小班教学

在深入POPO之前，让我们先理解这个领域的进化脉络。这不仅是为了科普完整，更是因为POPO的创新恰恰建立在对这个脉络的深刻理解之上。

PPO时代（2017-2024）：全能管家

PPO就像是一位全能管家。它同时维护两个网络：

策略网络（Policy Network）：负责生成答案
价值网络（Value Network）：负责评估每个状态"还有多大可能拿到奖励"

每次迭代，PPO做三件事：

让策略网络生成一批答案
用价值网络估计这批答案的"潜在价值"
计算"实际得到的奖励"与"预期价值"之间的差值——这就是"优势"（Advantage）

如果实际奖励比预期高，说明策略这次"超水平发挥"了，应该鼓励；如果低于预期，说明"发挥失常"，需要调整。

这套机制强大但笨重。价值网络本身就是一个大模型，需要单独训练，而且它的估计质量直接影响策略学习的效率。在大语言模型的场景下，维护两个大模型意味着双倍的计算开销和内存占用。

GRPO时代（2024-2026）：精简主义

GRPO的出现像是教育界从"一对一全科辅导"转向"小班对比教学"。

它的核心洞察是：既然我们不知道每个状态的"真实价值"，那干脆在同一组答案内部做相对比较。对于同一道数学题，生成G个答案，奖励高于组内平均的被认为是"好的"，低于平均的被认为是"差的"。

GRPO的公式优雅地简化为：

\hat{A}_{i} = \frac{r_i - \text{mean}({r_1, r_2, ..., r_G})}{\text{std}({r_1, r_2, ..., r_G})}

其中 $$r_i$$ 是第i个答案的奖励（通常只有0或1）。

这个方法省掉了价值网络，大幅降低了内存和计算开销。DeepSeek的实验表明，GRPO可以在保持性能的同时，让训练更加稳定。

但正如我们前面讨论的，GRPO的"组内比较"策略有一个隐含假设：一组答案里既有对的也有错的，而且错误答案能提供有用的负信号。

当这个假设不成立时——比如所有答案都是错的，或者错误答案的"错误模式"与要学习的技能无关——GRPO就开始在沙地上建房子了。

💡 第三部分：POPO的"溺爱式教育"——谁说一定要看错题？

现在，让我们正式介绍本文的主角：Positive-Only Policy Optimization（仅正向策略优化）。

POPO的核心思想可以用一句话概括：既然负样本帮不上忙，那我们就只向正样本学习。

这听起来像是一种"溺爱"——就像家长只给孩子看满分卷子，从不分析错题。在真实教育中，这显然是有问题的。但论文作者证明了，在特定条件下（可验证的二元奖励、稀疏的正样本、巨大的组合空间），这种"溺爱"不仅有效，而且比"棍棒教育"更高效。

让我用一个射箭的比喻来解释POPO的学习机制：

想象你是一位射箭教练，你的学生射了100支箭，其中只有5支命中靶心，其余95支脱靶。GRPO的做法是：把100支箭全部摆出来，告诉学生"这5支比那95支好"，试图让他理解"好"和"差"的区别。POPO的做法是：只拿那5支命中靶心的箭，仔细分析它们的角度、力度、呼吸节奏，然后告诉学生："多做这样的事。"

问题是：不看脱靶的箭，你怎么知道哪些动作要避免？

POPO的回答是：通过增加命中箭的概率，你自然就在减少脱靶箭的概率。

这不是魔法，而是概率论的基本原理。如果学生命中靶心的概率从5%提高到10%，那么他脱靶的概率自然从95%下降到90%。正向优化的提升，本身就蕴含了负向行为的抑制——这就是POPO中所谓的"隐式负梯度"（Implicit Negative Gradient）。

🔬 第四部分：POPO的三大技术支柱

POPO不是简单地"忽略负样本"，而是一套精心设计的框架，包含三个关键技术组件。

4.1 有界重要性采样（Bounded Importance Sampling）

在强化学习中，"重要性采样"是一个经典概念。它的核心问题是：当你从一个策略（旧策略）采样数据，但想评估另一个策略（新策略）的表现时，如何调整权重来消除偏差？

想象你在一个射箭俱乐部，射手A射了100支箭，你想评估射手B如果用同样的弓箭会表现如何。最简单的方法是让射手B也射100支。但如果射箭成本很高，你可以用射手A的数据，然后按"射手B射中这支箭的概率 / 射手A射中这支箭的概率"来加权。

这就是重要性采样的基本思想。

POPO将这一概念用于正向rollout集合。具体来说：

在训练时，模型生成一组答案
只保留其中奖励为1（正确）的样本
用重要性采样权重来调整这些正样本对策略更新的贡献

但这里有一个风险：如果某个正样本在新策略下的概率远高于旧策略，重要性采样权重会变得非常大，导致训练不稳定。

POPO通过有界裁剪（Bounding/Clipping）来解决这个问题：设置一个上限 $$c$$ ，当重要性采样比率超过 $$c$$ 时就不再增加。这就像给优秀学生设了一个"配额"——你可以被多参考一些，但不能因为一次偶然的超常发挥就主导整个教学计划。

论文中的公式：

方法	Qwen-Math-7B准确率
GRPO	30.00%
POPO	36.67%

条件	推荐策略
奖励丰富（正确率>50%）	正负样本对比（如GRPO）有效
奖励稀疏（正确率<10%）且二元	正向优化（如POPO）可能更优
奖励稀疏但连续（有分数）	负样本有信息量，应保留
错误模式结构化（可分类）	负样本有价值，可设计结构化惩罚

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

不骂也能教出优等生——当AI学会只看正确答案

不骂也能教出优等生——当AI学会只看正确答案

🧩 第一部分：强化学习的"教辅困境"

🎯 第二部分：PPO到GRPO——从全科辅导到小班教学

💡 第三部分：POPO的"溺爱式教育"——谁说一定要看错题？

🔬 第四部分：POPO的三大技术支柱

4.1 有界重要性采样（Bounded Importance Sampling）

4.2 Siamese策略网络与动量适应（Momentum Adaptation）

4.3 有界相似性惩罚（Bounded Similarity Penalty）替代KL散度

📊 第五部分：实验结果——36.67%的突围

核心结果：AIME 2025

消融实验：哪些组件最关键？

超参数扫描：鲁棒性如何？

🔍 第六部分：科学核心解析——为什么"只看对的"能工作？

隐式负梯度的数学直觉

为什么GRPO的显式负梯度在低正确率时失效？

组合空间中的" needle in haystack "问题

💭 第七部分：启示与思考

7.1 对"负样本迷信"的反思

7.2 稀疏奖励环境下的策略选择

7.3 教育学的遥远回响

7.4 局限与未来方向

📚 参考文献

讨论回复

推荐

智谱 GLM-5 已上线