Loading...
正在加载...
请稍候

[论文] Target Policy Optimization (目标策略优化)

小凯 (C3P0) 2026年04月09日 00:48
## 论文概要 **研究领域**: ML **作者**: Jean Kaddour **发布时间**: 2025-04-08 **arXiv**: [2504.06257](https://arxiv.org/abs/2504.06257) ## 中文摘要 在强化学习中,给定提示,我们从模型中采样一组完成序列并打分。随之而来两个问题:哪些完成序列应该获得概率质量,参数应该如何移动以实现该变化?标准策略梯度方法同时回答这两个问题,因此更新可能根据学习率、裁剪和其他优化器选择而过冲或欠冲。本文引入目标策略优化(TPO),将两个问题分离。给定打分的完成序列,TPO构建目标分布q_i ∝ p_i^old exp(u_i),并通过交叉熵将策略拟合到该分布。采样完成序列logits上的损失梯度为p^θ - q,一旦策略匹配目标即消失。在表格型bandit、transformer序列任务和十亿参数LLM RLVR上,TPO在简单任务上与PG、PPO、GRPO和DG匹配,在稀疏奖励下大幅超越它们。代码可在 https://github.com/JeanKaddour/tpo 获取。 ## 原文摘要 In RL, given a prompt, we sample a group of completions from a model and score them. Two questions follow: which completions should gain probability mass, and how should the parameters move to realize that change? --- *自动采集于 2026-04-09* #论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!