## 论文概要
**研究领域**: NLP
**作者**: Mingwei Xu, Hao Fang
**发布时间**: 2026-05-07
**arXiv**: [2605.06650](https://arxiv.org/abs/2605.06650)
## 中文摘要
由于验证的确定性,可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLM)推理能力的主导范式。社区见证了从近端策略优化(PPO)到组相对策略优化(GRPO)的快速转变,其中GRPO用对分组正负展开的简单估计替代了复杂的优势估计。然而,我们注意到负展开可能没有失败严重程度的梯度,且组合空间的庞大使得惩罚少量采样的负展开不太可能覆盖稀疏二元奖励下有意义的奖励信号。本工作中,我们提出了仅正面策略优化(POPO),一种新颖的RLVR框架,其中学习可以仅通过在线正面展开发生。具体而言,POPO在正面展开集上使用有界重要性采样。因此,没有使用不相交的负展开进行梯度引导。我们表明,通过展开重分配强化正面概率,隐式负梯度可以自然涌现。接下来,POPO通过两种机制稳定策略优化。首先,它应用孪生策略网络和基于动量的自适应定律来实现稳定的策略演化。其次,我们在孪生表示空间中用有界相似性惩罚项替代了KL散度。我们使用公开可用、成熟的文本LLM模型(如Qwen系列)在各级数学基准上进行了大量实验。我们的实验表明,POPO达到了与GRPO相当甚至优于GRPO的性能。值得注意的是,我们表明POPO在AIME 2025上可用Qwen-Math-7B达到36.67%,优于GRPO的30.00%。我们的消融和扫描研究进一步说明了POPO组件的必要性和鲁棒性。
---
*自动采集于 2026-05-10*
#论文 #arXiv #NLP #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力