# 🎯 只看好学生:POPO如何让AI从"优秀作文"中学会数学
> *"不要试图用错误来定义正确。正确的道路不需要错误的对比来证明自己的价值。"* —— 这句话是我编的,但它说出了一个反直觉的真理。
---
## 🏫 两位老师的不同教法
想象你是一名数学老师,面对一群 struggling(挣扎中)的学生。你有两种教学策略。
**策略A:传统批改法**
你让学生做100道题。其中12道做对了,88道做错了。你对学生说:
"来,我们看这12道对的题——这些是正面例子,你要学习它们的思路。再看这88道错的题——这些是反面教材,你得知道自己错在哪了。错的题虽然多,但我们得分析每一类错误的模式,这样下次才不会犯同样的错误。"
这是标准的强化学习思路。PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)都是这么做的:模型生成一组答案(rollouts),有的对(positive),有的错(negative)。对的奖励,错的惩罚,通过对比来引导模型向正确的方向进化。
听起来很合理,对吧?犯错是学习的一部分。
**策略B:优秀作文法**
另一位老师用了完全不同的方法。他同样让学生做100道题,但他只关注那12道做对的题。
"同学们,今天我们不分析错题。我们只研究这12道对的题。张三的解法特别巧妙,他用了辅助线;李四的思路很简洁,一步到位;王五虽然过程长,但每一步都很扎实。我们来比较一下这三位同学的正确解法——哪种更优雅?哪种更通用?哪种更适合你的思维方式?"
这位老师**完全不看错题**。他的理论是:88道错题的"错误模式"几乎是无限的——有的是计算错误,有的是概念混淆,有的是笔误,有的是根本不理解题意。分析这88道错题,就像在大海里捞针——你永远捞不完所有的"错误模式"。
但12道正确的题?它们之间是可以比较的。有的解法更好,有的解法一般。通过**在正确解法内部进行比较**,学生能自然地推断出"什么是更好的正确"。而那些没有出现在"优秀解法集合"里的思路,自然就代表了"不够好的方向"——不需要 explicitly(显式地)去惩罚它们。
这就是POPO(**P**ositive-**O**nly **P**olicy **O**ptimization)的核心思想。
---
## 🎲 为什么"惩罚错误"可能毫无意义
在深入POPO之前,我们必须理解一个关键问题:在强化学习与可验证奖励(RLVR)的语境下,"负样本"到底有什么问题?
RLVR是最近LLM推理能力提升的主流训练范式。它的基本逻辑是:让模型生成很多答案,用可验证的奖励函数(比如数学题的答案是否正确)来打分,对的给+1,错的给0,然后用这些分数来更新模型。
GRPO是这个范式的当前明星。它的做法是:对每个问题,模型生成一组答案(比如8个),然后比较这组答案——比平均分高的奖励,比平均分低的惩罚。这看起来比PPO更简单高效(不需要额外的价值网络),而且效果出奇地好。
但POPO的两位作者(Mingwei Xu和Hao Fang,都来自华盛顿大学)指出了一个 GRPO 没有充分讨论的问题:
**负样本的惩罚,在稀疏二值奖励下几乎毫无意义。**
什么意思?
想象一个数学竞赛题,答案是一个数字。模型生成了8个答案,其中2个是正确的(比如最终答案确实是42),6个是错误的(有的是38,有的是100,有的是乱码)。
GRPO会怎么做?它会说:"2个对的,奖励你们;6个错的,惩罚你们。"
但等等——那6个错的答案之间,有任何区别吗?从奖励函数的角度看,**没有**。错的答案不管是"差一点点"还是"完全离谱",都获得同样的0分惩罚。一个答案是"41"(只差了1),另一个答案是"香蕉"(完全无关),它们在惩罚面前一律平等。
这就是论文作者说的:
> "Negative rollouts may admit no gradation of failure severity."
(负样本可能不存在失败严重程度的区分。)
更致命的是第二个问题:
> "The combinatorial vastness makes penalizing a few sampled negatives unlikely to cover a meaningful reward signal under sparse binary rewards."
(组合空间的巨大规模,使得惩罚少数采样的负样本几乎不可能覆盖有意义的奖励信号,尤其是在稀疏的二值奖励下。)
数学推理的输出空间有多大?几乎是无限的。一个数学题可能有无数种错误的解法。你采样了6个负样本,惩罚了它们,但还有**无穷多种错误**你根本没有看到。你惩罚了6种错误,但模型下次可能犯第7种、第100种、第10000种——你不可能通过"惩罚已知的错误"来覆盖所有"未知的错误"。
这就好比你试图通过"列举所有坏人"来维持社会治安——你永远列举不完。而POPO的思路是:**如果我们只"培养好人",让"好人"的标准变得越来越清晰、越来越高,那么不符合这个标准的人自然就被淘汰了。**
---
*(解读分多段发布,见楼下回复续)*
#论文解读 #PapersCool #每日论文 #强化学习 #POPO #小凯
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力