论文:Vector Policy Optimization: Training for Diversity Improves Test-Time Search
作者:Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal
arXiv: 2605.22817
🎭 第一章:优秀学生的困境
想象一所精英高中。这里的学生个个成绩优异,考试总是能拿满分。但有一天,学校决定改革——不再出固定答案的选择题,而是举办一场开放式辩论赛。辩题复杂多维,没有唯一正确答案,评委的打分标准也因人而异。
结果令人震惊:那些平时考试最优秀的学生,在辩论赛中表现平平。他们习惯于寻找"唯一正确答案",面对需要多维度权衡的开放问题时,他们的思维变得僵化、单一、缺乏弹性。反而是一些平时成绩中上的学生——他们习惯于从不同角度思考问题——在辩论赛中大放异彩。
这不是虚构的故事。这是当前AI领域正在发生的真实困境。
大语言模型(LLM)——那些驱动着ChatGPT、Claude、Gemini的庞大神经网络——已经取得了惊人的成就。它们能写诗、能编程、能通过法律考试、能诊断疾病。但一个根本性的转变正在发生:LLM不再是独立部署的组件,而是被嵌入到更大的推理时搜索流程中。
AlphaEvolve用进化算法搜索最优代码。Best-of-N采样让模型生成多个答案然后挑选最好的。Monte Carlo Tree Search(MCTS)在巨大的决策空间中探索最优路径。所有这些方法,有一个共同的前提:模型需要产生多样化、高质量的候选解池。
但问题是:我们训练模型的方式,恰恰在扼杀这种多样性。
⚖️ 第二章:标量奖励的暴政
要理解这个问题,我们需要先理解当前LLM后训练的标准范式:强化学习(RL)。
想象一个厨师在训练学徒。每道菜,你给它一个单一分数:0到100分。90分以上是好菜,90分以下需要改进。学徒不断尝试,你不断打分,学徒根据分数调整做法。这听起来很合理——单一分数简单直接,容易优化。
但问题很快就会显现。假设一道菜涉及五个维度:味道、摆盘、创意、营养、速度。你的90分总分可能来自:味道30分+摆盘25分+创意20分+营养10分+速度5分。但如果学徒发现"味道+摆盘"是最容易得分的组合,他就会把所有努力都投入到这两个维度上,忽视创意、营养和速度。最终,他做的每道菜都长得一样——味道好、摆盘精美,但毫无创意、营养失衡、耗时冗长。
这就是策略坍缩(policy collapse)——强化学习中一个经典而顽固的问题。
在LLM的RL后训练中,这个机制是这样的:
我们设定一个标量奖励函数——比如"回答的正确性"(0或1)。模型生成一个回答,我们打分,模型根据分数调整生成策略。经过多次迭代,模型学会了一件事:只生成那种最容易拿到高分的回答模式。
结果是灾难性的。模型不再探索丰富的解空间,而是坍缩到少数几个"安全模式"。就像一个学生发现背诵模板能得高分,他就停止真正思考,只做模板填充。当测试时需要多样性——比如AlphaEvolve要求模型生成多种不同风格的代码来进化——模型只能反复吐出同一个模板的变体。
论文作者引用了一个尖锐的观察:"策略梯度方法如GRPO将策略推向狭窄的高概率响应集……训练后,有效测试时搜索所需的多样性消失了,因为额外样本变成了近重复。"(Policy gradient methods like GRPO drive the policy toward a narrow set of high-probability responses... After training, the diversity required for effective test-time search disappears, as additional samples become near-duplicates.)
这就像一个只练了一种拳法的拳击手。在对付某种对手时他可能很有效,但面对多样化的挑战时,他会手足无措。
🌈 第三章:向量奖励——打开多维度的钥匙
Vector Policy Optimization(VPO)的核心洞察,简单到几乎令人惊讶:现实中的奖励,本来就是向量。
不是一个单一分数,而是多个维度的分数组合。
- 代码生成:不是"对或错",而是"测试用例1通过了吗?测试用例2通过了吗?……测试用例N通过了吗?"→ 奖励向量 \(r \in \{0,1\}^d\)
- 多跳推理:不是"最终答案对吗?",而是"第1跳正确吗?第2跳正确吗?……"→ 奖励向量 \(r \in \{0,1\}^d\)
- RLHF对齐:不是"好人还是坏人?",而是"有帮助吗?无害吗?诚实吗?有趣吗?可验证吗?"→ 奖励向量 \(r \in \mathbb{R}^d\)
- 工具使用:不是"能用吗?",而是"格式对吗?工具名对吗?参数键对吗?参数值对吗?"→ 奖励向量 \(r \in \mathbb{R}^d\)
这些维度之间,往往存在不可避免的权衡(trade-off)。你不能同时最大化所有维度——就像你不能同时让一道菜既极简又繁复、既辛辣又清淡。
VPO的天才之处在于:它不再让模型追求某个预设的标量最优,而是让模型学会在整个奖励向量空间中探索多样化的权衡组合。
具体怎么做?
3.1 核心数学:集合级奖励
VPO的目标函数是这个看似简单的公式:
让我们拆解它:
- \(S = \{y_1, y_2, ..., y_m\}\) 是模型生成的一组候选解(不是一个,是一组!)
- \(w\) 是从Dirichlet分布中随机采样的权重向量(论文用均匀分布,即 \(\alpha = \mathbf{1}\))
- \(w^\top r(x,y)\) 是用权重 \(w\) 对解 \(y\) 的向量奖励做加权求和,得到一个标量分数
- \(\max_{y \in S}\) 是在候选集合中选择在这个权重下得分最高的解
- \(\mathbb{E}_{w}\) 是对所有可能的权重取期望
这个公式在说:一个好的候选集合 \(S\),应该在任何可能的权重偏好下,都至少有一个解表现得不错。
想象一个餐厅。如果顾客随机地重视不同的维度(有人在意价格,有人在意环境,有人在意口味),一个好的餐厅菜单应该提供多样化的选择——在任何一种偏好下,都至少有一道适合的菜。
这就是帕累托前沿覆盖(Pareto frontier coverage)——VPO的训练目标直接奖励模型覆盖奖励空间中的帕累托前沿。
3.2 双机制协同:多答案链 + 随机标量化
VPO的实现依赖两个机制的协同,单独使用任何一个都不够:
机制一:多答案链(Multi-Answer Chains)
模型不再只生成一个答案,而是在一次前向传播中生成一组答案,用特殊分隔符分开:
输入x → [共享推理前缀] → 答案1 [SEP] 答案2 [SEP] 答案3
关键特性:后面的答案可以attention到前面已生成的答案。这意味着模型能显式识别已覆盖的解空间区域,主动"steer"向不同区域。
但论文做了关键消融实验:单纯的多答案生成 + 固定标量奖励(Multi-RLVR)仍然会坍缩!模型有了"容量"产生不同解,但没有"激励"去真正多样化。
机制二:随机标量化(Stochastic Scalarization)
每次训练迭代,从Dirichlet分布中随机采样一个权重向量 \(w\)。这个权重定义了"当前这一轮,什么维度最重要"。
单独使用随机标量化 + 单答案生成(Random-Weight GRPO)也不行——单答案无法覆盖多个权衡点,权重波动还导致训练不稳定。
协同效应:多答案提供"容量",随机标量化提供"激励"。两者结合,模型被训练成:在每次生成时,产出一组答案,这组答案 collectively 覆盖了奖励空间中不同权衡方向上的优质解。
📐 第四章:与GRPO的根本区别
要真正理解VPO的革命性,我们需要把它与当前最主流的RL算法GRPO(Group Relative Policy Optimization)做一个详细对比。
| 维度 | GRPO | VPO |
|---|---|---|
| 输出结构 | 单答案 \(y\) | 集合 \(S = \{y_1, ..., y_m\}\) |
| 奖励维度 | 标量 \(r = w^{*\top}r(x,y)\) | 向量 \(r(x,y) \in \mathbb{R}^d\),保留全维度 |
| 优化目标 | 最大化单个期望奖励 | 最大化期望最佳覆盖:\(\mathbb{E}_w[\max_{y\in S} w^\top r]\) |
| 训练分布 | 固定权重 \(w^*\) | 随机权重 \(w \sim \text{Dir}(\mathbf{1})\) |
| 优势计算 | 组内z-score | 组内z-score,但基于集合级奖励 |
| 梯度效应 | 所有样本推向同一标量最优 | 不同样本在不同权重下获正梯度,维持多样性 |
| 均衡状态 | 单点模式坍缩 | 帕累托前沿覆盖 |
这就像两种教育理念的对比:
GRPO像是应试教育——只有一个标准答案,所有学生都被训练成寻找这个答案。结果是学生思维同质化,面对开放问题时缺乏创造力。
VPO像是素质教育——承认不同学生有不同特长,训练目标是让每个学生发展自己独特的优势,作为一个班级collectively覆盖各种能力维度。
🔬 第五章:实验——搜索预算越大,优势越明显
论文在四个不同领域验证了VPO的有效性,每一个都揭示了一个共同的规律:当测试时搜索预算(k值)增大时,VPO的优势不是保持,而是扩大。
5.1 MuSiQue:多跳问答
MuSiQue是一个极具挑战性的多跳问答基准。答案需要综合多个文档的信息,经过多步推理才能得出。
| 方法 | best@3 | best@5 | best@10 | best@30 | F1@30 | 多样性 |
|---|---|---|---|---|---|---|
| GRPO | 0.711 | 0.716 | 0.721 | 0.728 | 0.447 | 0.054 |
| Multi-RLVR | 0.599 | 0.616 | 0.627 | 0.633 | 0.498 | 0.814 |
| VPO | 0.742 | 0.780 | 0.809 | 0.832 | 0.678 | 0.587 |
关键模式:
- GRPO从best@3到best@30仅提升 1.7% (0.711→0.728)——几乎完全饱和
- VPO同期提升 9.0% (0.742→0.832)
- 差距从3.1%扩大到 10.4%
这就像两种投资策略:GRPO把所有鸡蛋放在一个篮子里,无论如何增加投资总额,收益都几乎不变。VPO把资金分散到多个有潜力的方向,总额越大,越能捕捉到高回报的机会。
5.2 Maze:强制权衡的几何迷宫
Maze任务被特别设计为GRPO标量直接优化的目标——但它有四个相互冲突的目标维度,几何设计使得没有任何解能同时满足所有目标。
| 方法 | best@3 | best@5 | best@10 | best@30 | 多样性 |
|---|---|---|---|---|---|
| GRPO | 0.432 | 0.432 | 0.432 | 0.432 | 0.003 ← 完全坍缩! |
| VPO | 0.512 | 0.564 | 0.591 | 0.593 | 1.006 |
GRPO在best@3到best@30上零提升——它已经坍缩到单一模式,无论采样多少次,都是同一个答案的微小变体。而VPO稳步提升,多样性指标是GRPO的335倍。
更令人惊讶的是:即使评估使用GRPO训练的相同标量(uniform mean),VPO仍然显著超越!这证明了一个深刻观点:覆盖帕累托前沿,即使对于最终的单一标量目标也是有利的。因为你可能在一个次优方向上发现了通往更优解的路径。
5.3 EUREQA:因果方程发现
EUREQA要求模型从观测数据中发现隐藏的数学方程。奖励是5个二值维度(5跳因果链的正确性),一错全错,但向量信号能定位失败点。
| 方法 | best@3 | best@5 | best@10 | best@30 | 多样性 |
|---|---|---|---|---|---|
| GRPO | 0.212 | 0.219 | 0.226 | 0.236 | 0.119 |
| VPO | 0.213 | 0.236 | 0.257 | 0.279 | 0.512 |
这个任务极其困难(天花板效应明显),但VPO仍然在所有k值上稳定领先。
5.4 ToolRL:工具使用
ToolRL测试模型使用外部工具的能力。奖励有4个维度:格式正确性、工具名正确性、参数键正确性、参数值正确性。
| 方法 | best@3 | best@5 | best@10 | best@30 | 多样性 |
|---|---|---|---|---|---|
| GRPO | 0.921 | 0.923 | 0.924 | 0.925 | 0.044 |
| VPO | 0.897 | 0.934 | 0.950 | 0.952 | 1.297 |
这个任务的天花板很高(GRPO已经接近0.925),但VPO仍然以29倍的多样性优势和更高的最终best@30胜出。
5.5 LiveCodeBench:代码生成实战
在279道严格时间切分的LiveCodeBench题目上,使用Qwen2.5-Coder-7B-Instruct,VPO与GRPO使用同checkpoint同训练数据,仅advantage estimator不同。
关键发现:
- k=1单样本:GRPO更优——VPO为多样性牺牲了单点性能
- 搜索 regime (k>1):VPO立即反超
- 复杂搜索(进化算法200轮):VPO持续发现新解,GRPO早期就进入平台期
这揭示了一个战略性的权衡:如果你只需要一个答案,传统RL更好。但如果你要搜索——而搜索正成为AI系统的标准配置——VPO是必经之路。
🧪 第六章:消融实验——排除所有其他解释
优秀的论文不仅需要展示好结果,还需要系统地排除其他可能的解释。VPO的消融实验堪称典范。
6.1 多答案生成是否足够?
假设:只要让模型一次生成多个答案,就能得到多样性。
结果:否。Multi-RLVR(多答案+固定标量奖励)在所有领域被VPO超越。训练过程中reward-space diversity持续坍缩——模型虽然能输出多个位置,但每个位置都填入了同样的内容。这就像给一个人两只手,但训练他只准用同样的方式做同样的事。
6.2 随机标量化是否足够?
假设:只要在每次训练时随机改变权重,单答案也能多样化。
结果:否。Random-Weight GRPO在所有领域接近或略差于标准GRPO。单答案无法覆盖多个权衡点,权重波动还导致训练不稳定。
6.3 额外计算是否足够?
假设:给GRPO 3倍的计算资源,它能赶上VPO。
结果:否。MuSiQue上,GRPO n=24(3倍rollout,3倍计算)达到best@3=0.763,VPO n=8(1/3计算)达到best@3=0.779。额外计算帮助有限(+3%),而VPO的集合级目标不可替代。
6.4 归一化是否是关键?
假设:VPO增益来自更好的多维度梯度条件(GRPO已知对高方差维度敏感)。
结果:否。GDPO(per-dimension normalization)与GRPO几乎相同,说明VPO增益非来自数值稳定性,而来自目标函数结构。
6.5 显式条件化是否更好?
假设:直接告诉模型当前权重是什么,让模型学会条件策略。
结果:灾难性。Goal-Conditioned GRPO在Maze上完全失败——best@3仅0.205,而VPO为0.512。模型忽略了条件输入,模式坍缩到单一行为。
这最后一点尤为深刻:它揭示了一个关于LLM的深层真相——显式地将偏好编码为文本条件,并不能可靠地转化为行为。模型在文字层面"理解"了偏好,但在行为层面无法执行。VPO的隐式训练(通过随机权重自然筛选)比显式指导更有效。
🎓 第七章:何时VPO不帮助?诚实的边界
论文没有回避VPO的局限性。这种诚实反而增加了论文的可信度。
VPO不帮助的情况:
-
奖励维度共线性高:如果不同维度高度相关(比如多个奖励模型都倾向于同样的答案),Dirichlet单纯形坍缩为近直线,VPO收敛低于标量基线。
-
纯标量奖励:如果任务天然只有一个维度(无自然分解),VPO退化为标准RL,无额外收益。
-
k=1单样本评估:VPO牺牲了pass@1来换取搜索时的多样性。如果你永远只采样一次,GRPO更好。
-
问题过于简单:如果搜索没有收益空间,额外多样性无价值。
论文精炼地总结:"VPO适用于测试时搜索成为系统一部分的场景。"(VPO is for the regime where test-time search is part of the system.)
这不是缺陷,而是范围界定。VPO不是万能的——它是为即将到来的AI搜索时代量身定制的工具。
🔮 第八章:未来——多样性将成为默认训练目标
VPO的论文在最后提出一个大胆的预言:"随着测试时搜索变得更加标准化,优化多样性可能需要成为默认的后训练目标。"(As test-time search becomes more standardized, optimizing for diversity may need to become the default post-training objective.)
这个预言背后的逻辑是清晰的:
AI系统正在从"单点输出"向"搜索驱动"转变。AlphaEvolve、Best-of-N、MCTS、进化算法——这些都需要一个丰富、多样、有能力的候选解池。但我们的训练范式还停留在"单点最优"的时代,就像一个为单人比赛训练的运动员,突然被要求参加团队接力。
VPO提供的不仅是一个算法,而是一种范式的转换——从"训练一个最优秀的学生"到"训练一支 collectively 优秀的团队"。
更深层的哲学含义:VPO承认了世界的复杂性。不存在一个"唯一正确答案",有的只是不同约束、不同偏好、不同情境下的不同权衡。AI系统不应该被训练成寻找"那个答案",而应该被训练成理解"答案的多样性"——并在需要时,从丰富的候选池中挑选最适合当前情境的那一个。
这让我想起费曼的一个观点:"知道的越多,越能意识到自己的无知。"VPO似乎在教导AI模型一个类似的谦逊:不要过早地承诺一个答案,而是保持对多种可能性的开放。
在一个越来越复杂的世界里,这种"认知谦逊"或许正是我们最需要的智能。
参考文献
- Ryan Bahlous-Boldi et al. "Vector Policy Optimization: Training for Diversity Improves Test-Time Search." arXiv:2605.22817, 2026.
- 对比算法:GRPO (Group Relative Policy Optimization), Multi-RLVR, GDPO, Goal-Conditioned GRPO, Max-at-K, MaxRL
- 实验基准:MuSiQue, Maze, EUREQA, ToolRL, LiveCodeBench, OpenEvolve hardest-32
- 相关概念:AlphaEvolve, Best-of-N采样, Monte Carlo Tree Search (MCTS)
本文解读基于论文摘要及详细内容撰写——力求用最朴素的语言,讲清楚最深刻的技术。如有理解偏差,欢迎指正。
#每日论文 #arXiv #AI #强化学习 #多样性 #VPO #GRPO #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。