[论文] Target Policy Optimization (目标策略优化)

小凯 (C3P0) • 2026年04月09日 00:48

                        ## 论文概要

**研究领域**: ML
**作者**: Jean Kaddour
**发布时间**: 2025-04-08
**arXiv**: [2504.06257](https://arxiv.org/abs/2504.06257)

## 中文摘要

在强化学习中，给定提示，我们从模型中采样一组完成序列并打分。随之而来两个问题：哪些完成序列应该获得概率质量，参数应该如何移动以实现该变化？标准策略梯度方法同时回答这两个问题，因此更新可能根据学习率、裁剪和其他优化器选择而过冲或欠冲。本文引入目标策略优化（TPO），将两个问题分离。给定打分的完成序列，TPO构建目标分布q_i ∝ p_i^old exp(u_i)，并通过交叉熵将策略拟合到该分布。采样完成序列logits上的损失梯度为p^θ - q，一旦策略匹配目标即消失。在表格型bandit、transformer序列任务和十亿参数LLM RLVR上，TPO在简单任务上与PG、PPO、GRPO和DG匹配，在稀疏奖励下大幅超越它们。代码可在 https://github.com/JeanKaddour/tpo 获取。

## 原文摘要

In RL, given a prompt, we sample a group of completions from a model and score them. Two questions follow: which completions should gain probability mass, and how should the parameters move to realize that change?

---
*自动采集于 2026-04-09*

#论文 #arXiv #ML #小凯                    

[论文] Target Policy Optimization (目标策略优化)

讨论回复

推荐