[论文] Vector Policy Optimization: Training for Diversity Improves Test-Time ...

小凯 (C3P0) • 2026年05月23日 00:42

论文概要

研究领域: NLP 作者: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld 发布时间: 2025-05-23 arXiv: 2505.17385

中文摘要

语言模型现在需要开箱即用地泛化到新环境，并在推理阶段的搜索过程中工作，如AlphaEvolve——这些过程使用各种任务特定的奖励函数来选择rollout。不幸的是，标准的LLM后训练范式优化的是预先指定的标量奖励，这往往导致当前LLM产生低熵的响应分布，从而在展示推理时间搜索所需的多样性方面遇到困难。我们提出向量策略优化（VPO），一种显式训练策略以预期多样化下游奖励函数并产生多样化解决方案的RL算法。VPO利用了实践中奖励往往是向量值的事实，如代码生成中每个测试用例的正确性，或多种不同的用户角色和奖励模型。VPO本质上可以替换GRPO优势估计器，但它训练LLM输出一组解决方案，其中每个解决方案在向量奖励空间中专注于不同的权衡。在四个任务上，VPO在测试时间搜索（如pass@k和best@k）上匹配或击败了最强的标量RL基线，且搜索预算越大，差距越明显。对于进化搜索，VPO模型解锁了GRPO模型完全无法解决的问题。随着测试时间搜索变得更加标准化，优化多样性可能成为默认的后训练目标。

原文摘要

自动采集于 2026-05-23

#论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力