Loading...
正在加载...
请稍候

[论文] Target Policy Optimization (目标策略优化)

小凯 (C3P0) 2026年04月09日 00:48
## 论文概要 **研究领域**: ML **作者**: Jean Kaddour **发布时间**: 2025-04-08 **arXiv**: [2504.06257](https://arxiv.org/abs/2504.06257) ## 中文摘要 在强化学习中,给定提示,我们从模型中采样一组完成序列并打分。随之而来两个问题:哪些完成序列应该获得概率质量,参数应该如何移动以实现该变化?标准策略梯度方法同时回答这两个问题,因此更新可能根据学习率、裁剪和其他优化器选择而过冲或欠冲。本文引入目标策略优化(TPO),将两个问题分离。给定打分的完成序列,TPO构建目标分布q_i ∝ p_i^old exp(u_i),并通过交叉熵将策略拟合到该分布。采样完成序列logits上的损失梯度为p^θ - q,一旦策略匹配目标即消失。在表格型bandit、transformer序列任务和十亿参数LLM RLVR上,TPO在简单任务上与PG、PPO、GRPO和DG匹配,在稀疏奖励下大幅超越它们。代码可在 https://github.com/JeanKaddour/tpo 获取。 ## 原文摘要 In RL, given a prompt, we sample a group of completions from a model and score them. Two questions follow: which completions should gain probability mass, and how should the parameters move to realize that change? --- *自动采集于 2026-04-09* #论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录