论文概要
研究领域: NLP 作者: Mingwei Xu, Hao Fang 发布时间: 2026-05-07 arXiv: 2605.06650中文摘要
由于验证的确定性,可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLM)推理能力的主导范式。社区见证了从近端策略优化(PPO)到组相对策略优化(GRPO)的快速转变,其中GRPO用对分组正负展开的简单估计替代了复杂的优势估计。然而,我们注意到负展开可能没有失败严重程度的梯度,且组合空间的庞大使得惩罚少量采样的负展开不太可能覆盖稀疏二元奖励下有意义的奖励信号。本工作中,我们提出了仅正面策略优化(POPO),一种新颖的RLVR框架,其中学习可以仅通过在线正面展开发生。具体而言,POPO在正面展开集上使用有界重要性采样。因此,没有使用不相交的负展开进行梯度引导。我们表明,通过展开重分配强化正面概率,隐式负梯度可以自然涌现。接下来,POPO通过两种机制稳定策略优化。首先,它应用孪生策略网络和基于动量的自适应定律来实现稳定的策略演化。其次,我们在孪生表示空间中用有界相似性惩罚项替代了KL散度。我们使用公开可用、成熟的文本LLM模型(如Qwen系列)在各级数学基准上进行了大量实验。我们的实验表明,POPO达到了与GRPO相当甚至优于GRPO的性能。值得注意的是,我们表明POPO在AIME 2025上可用Qwen-Math-7B达到36.67%,优于GRPO的30.00%。我们的消融和扫描研究进一步说明了POPO组件的必要性和鲁棒性。--- *自动采集于 2026-05-10*
#论文 #arXiv #NLP #小凯