Vector Policy Optimization：让RL训练"多面手"——用向量奖励打破标量RL的单一思维陷阱

——MIT提出的VPO，用Dirichlet采样覆盖帕累托前沿，让搜索预算越大，优势越明显

一、引子：GRPO的"单一思维"困境

GRPO火了，但它有个根本假设：奖励是标量——要么对，要么错，打个分，优化就完了。

但真实世界的奖励从来不是单维的：

代码生成：5个测试用例，每个独立通过/失败；
迷宫导航：同时优化路径长度、金币收集、钻石收集、避开熔岩；
多跳问答：4个引用来源的正确性 + 答案F1分数；
工具调用：格式正确、工具名、参数键、参数值——各算各的。

标准RL（GRPO/DPO/PPO）把这些压成一个标量，然后优化。结果是：模型学会了一种"平均最优"的解法，而不是多种"各擅胜场"的解法。

当测试时搜索（best@k, pass@k）需要多样性来"博采众长"时，标量RL训练出来的模型发现——自己只会一种套路，搜再多也是同一套。

MIT的Ryan Bahlous-Boldi等人提出 VPO（Vector Policy Optimization）：训练时就把奖励当作向量，让模型天生输出一组在不同维度上各有所长的解法。

---

二、核心洞察：搜索预算越大，多样性越值钱

论文的核心论点简洁有力：

> 当测试时搜索成为标配时，RL后训练应该专注于生产多样化、有能力的解，把"选哪个"留给搜索。

这是探索（exploration）和 exploitation 的分离：

训练时（RL）：VPO负责探索——覆盖奖励空间的不同角落；
推理时（搜索）：best@k或进化搜索负责 exploitation ——从多样候选里挑出最优。

标量RL把两阶段混为一谈：训练时就在"猜"最终会被用的标量权重，结果猜错了， diversity 就丢了。

---

三、VPO算法：Dirichlet采样 + 多答案链

3.1 标量RL vs 向量RL

维度	标量RL（GRPO）	向量RL（VPO）
奖励	r ∈ R（标量）	r ∈ R^d（向量）
目标	max E[w^T r]，w固定	max E_w[max_y w^T r]，w~Dir(1)
输出	单答案	多答案（m=3）
优化	一种解法最优	帕累托前沿覆盖

3.2 多答案链（Multi-Answer Chains）

VPO不依赖外部采样。模型在一次自回归 rollout 里输出3个候选答案，用分隔符隔开。每个新候选可以看到前面的候选，从而"主动避开已覆盖的区域"。

这是LLM的in-context exploration能力被用来实现 diversity。

3.3 集合级优化：随机标量化

VPO的核心奖励函数：

R(S) = E_{w~Dir(1)} [ max_{y∈S} w^T r(x,y) ]

从Dirichlet(1)均匀采样权重w（覆盖整个单纯形）；
对每个w，在集合S里找最优答案；
期望覆盖所有可能的w。

这意味着：训练时模型不知道未来搜索会用哪个权重w*，但它学会了**无论w*是什么，集合里总有一个答案对w*很好。

GRPO优势估计（VPO作为drop-in replacement）：

每组G个rollouts，每个输出集合S^(g)；

共享K个采样权重w^(k)~Dir(1)；

每rollout的Monte-Carlo奖励：R̂(S) = (1/K) Σ_k max_{s∈S} w^(k)T r(x,s)；

标准GRPO z-score优势计算，均匀应用到每个token。

---

四、四大评估领域

领域	模型	向量奖励	标量基线	关键特性
Maze	Qwen3-4B	r∈R^4（完成+金币+钻石+熔岩）	uniform mean	几何结构阻止单一最优路径
MuSiQue	Qwen3-1.7B	r∈R^5（4跳引用+答案F1）	(Σhops+3×F1)/7	正确回答可配错误引用
EUREQA	Qwen3-8B	r∈{0,1}^5（5实体精确匹配）	uniform mean	因果链：找E需先找F，找D需先找E
ToolRL	Qwen3-1.7B	r∈R^4（格式+3个F1维度）	uniform mean	难度分级：格式<工具名<参数键<参数值

---

五、实验结果：搜索预算越大，VPO优势越明显

5.1 MuSiQue（表1）——多跳问答

方法	best@3	best@5	best@10	best@30	diversity
GRPO	0.711	0.716	0.721	0.728	0.054
Random-w	0.712	0.716	0.721	0.728	0.061
Max-at-K	0.757	0.768	0.783	0.802	0.175
Multi-RLVR	0.599	0.616	0.627	0.633	0.814
VPO	0.742	0.780	0.809	0.832	0.587

关键：GRPO在k=3时0.711，k=30时0.728——几乎不增长。VPO从0.742涨到0.832，+12%。VPO的k=3已经超过GRPO的k=30。

多样性指标：VPO 0.587 vs GRPO 0.054——10倍差距。

5.2 Maze（表2）——迷宫导航

方法	best@3	best@5	best@10	best@30	diversity
GRPO	0.432	0.432	0.432	0.432	0.003
VPO	0.512	0.564	0.591	0.593	1.006

GRPO完全平台化——无论搜多少候选都是0.432。VPO在k=30时几乎翻倍（0.593 vs 0.432）。
GRPO的diversity=0.003意味着：30个候选几乎一模一样。VPO的diversity=1.006意味着：每个候选走不同的权衡路线。

5.3 EUREQA（表3）——实体提取

方法	best@3	best@5	best@10	best@30
GRPO	0.212	0.219	0.226	0.236
VPO	0.213	0.236	0.257	0.279

因果链式任务（找E需先F，找D需先E）上，VPO的持续增长优势更明显。

5.4 ToolRL（表4）——工具调用

方法	best@3	best@5	best@10	best@30	diversity
GRPO	0.921	0.923	0.924	0.925	0.044
Max-at-K	0.940	0.945	0.949	0.954	0.131
VPO	0.897	0.934	0.950	0.952	1.297

ToolRL接近天花板（所有方法都>0.9），但VPO仍在k=10追上。多样性上VPO碾压（1.297 vs 0.044）。
---

六、消融：什么才是真正的关键？

6.1 计算量匹配（表5）——MuSiQue

即使给GRPO 3倍计算量（n=24 vs n=8），best@3也只有0.763/0.765，仍低于VPO的0.779。

> 多rollout的标量搜索，不能替代训练时的多样性优化。

6.2 目标条件GRPO（表6）——Maze**

让GRPO显式条件化在目标权重w上，训练时随机采样w~Dir(1)：

条件	best@3	best@6
G.C. w=w*	0.205	0.205
G.C. w~Dir(1)	0.205	0.205
VPO	0.512	0.576

目标条件GRPO出现模式崩溃（best@3=best@6），模型完全忽略条件输入。VPO的in-context exploration比显式条件化更有效。

---

七、LiveCodeBench：进化搜索的"解锁"能力

在最难的32道题上（GRPO和VPO在best@30时都得分0），用OpenEvolve进化搜索200轮：

VPO：持续发现新解法，最终破解部分问题；
GRPO：早期即平台化，完全无法推进。

这是VPO的杀手级特性：它训练出来的模型不只是"更好"，而是解锁了标量RL完全无法触及的问题空间。进化搜索需要多样性来重组和变异，VPO提供了这个多样性，GRPO没有。

---

八、VPO什么时候不管用？

当奖励向量的各维度近乎共线（simplex塌缩成一条线）时。论文在UltraFeedback+ArmoRM-5上测试：5个维度高度相关，VPO收敛低于标量基线。

这说明VPO的适用边界：奖励必须有真正的多目标结构，而不是"名义上多维度、实际上一个东西"。

---

九、结论：从"一个答案"到"一组答案"

VPO的范式转移很清晰：

> 标量RL训练模型回答"最好的答案是什么"；向量RL训练模型回答"一组答案，覆盖所有可能的'好'的定义"。

随着测试时搜索（AlphaEvolve、Best-of-N、MCTS）成为标配，训练时优化多样性不再是"可选项"，而是默认需求。VPO用三个简单组件实现了这一点：

Dirichlet采样覆盖单纯形；
多答案链实现in-context探索；
GRPO的drop-in替换，零架构改动。

搜索预算越大，VPO优势越大。在10 candidate regime下，VPO已经超越GRPO的30 candidate。这是训练效率对搜索效率的替代——与其训练时猜对权重w*，不如训练时覆盖所有w。

当LLM从"单次生成"走向"搜索生态系统"时，VPO可能是后训练的新默认。🎯

---

参考与数据来源：

Bahlous-Boldi, R., Puri, I., Shenfeld, I., et al., "Vector Policy Optimization: Training for Diversity Improves Test-Time Search", arXiv:2505.17385 / 2605.22817, 2025
机构：MIT, Improbable AI Lab, MIT-IBM Computing Research Lab, Sakana AI
评估模型：Qwen3-1.7B/4B/8B, Qwen2.5-Coder-7B
评估领域：Maze, MuSiQue, EUREQA, ToolRL, LiveCodeBench
基线：GRPO, Multi-RLVR, Random-Weighting GRPO, Max-at-K, MaxRL, Goal-Conditioned GRPO

#VPO #向量策略优化 #多样性训练 #GRPO #测试时搜索 #帕累托前沿 #多目标优化 #小凯深度研究 #论文解读

Vector Policy Optimization：让RL训练"多面手"——用向量奖励打破标量RL的单一思维陷阱

🌟 智谱 GLM-5 已上线