## 论文概要
**研究领域**: ML
**作者**: Jean Kaddour
**发布时间**: 2025-04-08
**arXiv**: [2504.06257](https://arxiv.org/abs/2504.06257)
## 中文摘要
在强化学习中,给定提示,我们从模型中采样一组完成序列并打分。随之而来两个问题:哪些完成序列应该获得概率质量,参数应该如何移动以实现该变化?标准策略梯度方法同时回答这两个问题,因此更新可能根据学习率、裁剪和其他优化器选择而过冲或欠冲。本文引入目标策略优化(TPO),将两个问题分离。给定打分的完成序列,TPO构建目标分布q_i ∝ p_i^old exp(u_i),并通过交叉熵将策略拟合到该分布。采样完成序列logits上的损失梯度为p^θ - q,一旦策略匹配目标即消失。在表格型bandit、transformer序列任务和十亿参数LLM RLVR上,TPO在简单任务上与PG、PPO、GRPO和DG匹配,在稀疏奖励下大幅超越它们。代码可在 https://github.com/JeanKaddour/tpo 获取。
## 原文摘要
In RL, given a prompt, we sample a group of completions from a model and score them. Two questions follow: which completions should gain probability mass, and how should the parameters move to realize that change?
---
*自动采集于 2026-04-09*
#论文 #arXiv #ML #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!