> **论文**: Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity
> **作者**: Anamika Lochab, Bolian Li, Ruqi Zhang
> **arXiv**: 2605.00365 | 2026-04-29
---
## 一、那个"AI只会一种解法"的困境
想象你问一个数学问题:
**问题:** "证明勾股定理"
**人类反应:**
- 可以用代数证明
- 可以用几何证明
- 可以用相似三角形
- 可以用面积法
- 可以用向量
- ...
**RLVR训练后的AI反应:**
- 只学会了一种方法
- 每次都给同样的答案
- 即使方法正确
- 但缺乏多样性
**问题:**
- Pass@1(单次正确率)可能很高
- 但Pass@K(多次尝试的覆盖率)很低
- 说明AI只会一种解法
- 遇到变体问题时可能失败
---
## 二、RLVR的结构性问题:对多样性"无所谓"
这篇论文发现 **RLVR(基于可验证奖励的强化学习)** 的根本问题:
**核心发现:**
> **常见的RLVR目标(如GRPO)对"概率如何在不同正确解之间分配"是无所谓的。这种"无差异性"导致概率质量自发地集中到少数正确解上,引发多样性崩溃。**
**技术机制:**
**1. 无差异性的代价**
- 目标函数只关心"是否正确"
- 不关心"有多少种正确方式"
- 就像考试只看对不对
- 不看方法是否多样
**2. 自强化崩溃**
- 随机训练动态
- + 无差异性目标
- → 概率自发集中
- → 窄子集垄断
- → 多样性消失
**3. 恶性循环**
- 某解法获得稍高概率
- 训练强化这个趋势
- 其他解法被挤出
- 最终只剩一种
**这就像:**
- 一家餐厅本来有多种菜
- 但顾客只点最受欢迎的一种
- 厨师逐渐只做这一种
- 菜单变成"单一菜品"
- 最终失去多样性
---
## 三、Uniform-Correct Policy Optimization(UCPO)
这篇论文提出解决方案:
**核心思想:**
> **不仅要奖励正确性,还要鼓励在正确解之间的均匀分布。**
**技术方案:**
**1. 均匀奖励**
- 正确解之间均匀分配奖励
- 不偏向任何一种
- 保持多样性
**2. 打破无差异性**
- 修改目标函数
- 引入多样性项
- 惩罚过度集中
**3. 保持正确性**
- 不牺牲正确率
- Pass@1仍然高
- 同时Pass@K提升
**4. 理论保证**
- 证明不会崩溃
- 多样性有下界
- 可靠性增强
---
## 四、为什么多样性对推理很重要?
**多样性不足的问题:**
**脆弱性:**
- 只有一种解法
- 遇到边界情况失败
- 缺乏鲁棒性
**创造性缺失:**
- 不会探索新方法
- 只会模仿
- 没有创新
**评估偏差:**
- Pass@1高 ≠ 真正理解
- 可能只是记住了答案
- 不是真正推理
**多样性的价值:**
**鲁棒性:**
- 多种解法 = 多种验证
- 可以交叉检查
- 减少错误
**探索能力:**
- 不同角度思考
- 发现新解法
- 创造性推理
**真实理解:**
- 真正理解 = 能从多角度解释
- 不是死记硬背
- 是灵活应用
---
## 五、费曼式的判断:真正理解 = 能从多种角度解释
费曼说过:
> **"如果你不能简单地解释它,你就还没有真正理解它。"**
在AI推理中:
> **"如果AI只能以一种方式回答问题,那它不是真正理解——它只是记住了答案。真正的理解意味着能从多种角度、用多种方法解释同一个概念。UCPO让AI学会'思考的多样性'。"**
这也体现了教育的本质:
- 不是记住一种答案
- 而是理解多种方法
- 灵活应用
---
## 六、带走的启发
如果你在训练推理模型或使用RLVR,问自己:
1. "我的模型是否存在多样性崩溃?"
2. "Pass@1高但Pass@K低意味着什么?"
3. "目标函数是否鼓励多样性?"
4. "多种正确解法是否被平等对待?"
**UCPO提醒我们:正确性不是唯一目标,多样性同样重要。**
当AI学会了"正确且多样",它就从"答题机器"变成了"思考者"。在推理的未来,最好的模型不是最快的,而是最能从不同角度思考的。
在智慧的花园里,多样性是最美的花朵。
#ReinforcementLearning #RLVR #Diversity #Reasoning #GRPO #PassAtK #FeynmanLearning #智柴AI实验室
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!