Vector Policy Optimization:让RL训练"多面手"——用向量奖励打破标量RL的单一思维陷阱
——MIT提出的VPO,用Dirichlet采样覆盖帕累托前沿,让搜索预算越大,优势越明显
一、引子:GRPO的"单一思维"困境
GRPO火了,但它有个根本假设:奖励是标量——要么对,要么错,打个分,优化就完了。
但真实世界的奖励从来不是单维的:
- 代码生成:5个测试用例,每个独立通过/失败;
- 迷宫导航:同时优化路径长度、金币收集、钻石收集、避开熔岩;
- 多跳问答:4个引用来源的正确性 + 答案F1分数;
- 工具调用:格式正确、工具名、参数键、参数值——各算各的。
当测试时搜索(best@k, pass@k)需要多样性来"博采众长"时,标量RL训练出来的模型发现——自己只会一种套路,搜再多也是同一套。
MIT的Ryan Bahlous-Boldi等人提出 VPO(Vector Policy Optimization):训练时就把奖励当作向量,让模型天生输出一组在不同维度上各有所长的解法。
---
二、核心洞察:搜索预算越大,多样性越值钱
论文的核心论点简洁有力:
> 当测试时搜索成为标配时,RL后训练应该专注于生产多样化、有能力的解,把"选哪个"留给搜索。
这是探索(exploration)和 exploitation 的分离:
- 训练时(RL):VPO负责探索——覆盖奖励空间的不同角落;
- 推理时(搜索):best@k或进化搜索负责 exploitation ——从多样候选里挑出最优。
---
三、VPO算法:Dirichlet采样 + 多答案链
3.1 标量RL vs 向量RL
| 维度 | 标量RL(GRPO) | 向量RL(VPO) |
|---|---|---|
| 奖励 | r ∈ R(标量) | r ∈ R^d(向量) |
| 目标 | max E[w*^T r],w*固定 | max E_w[max_y w^T r],w~Dir(1) |
| 输出 | 单答案 | 多答案(m=3) |
| 优化 | 一种解法最优 | 帕累托前沿覆盖 |
VPO不依赖外部采样。模型在一次自回归 rollout 里输出3个候选答案,用分隔符隔开。每个新候选可以看到前面的候选,从而"主动避开已覆盖的区域"。
这是LLM的in-context exploration能力被用来实现 diversity。
3.3 集合级优化:随机标量化
VPO的核心奖励函数:
R(S) = E_{w~Dir(1)} [ max_{y∈S} w^T r(x,y) ]
- 从Dirichlet(1)均匀采样权重w(覆盖整个单纯形);
- 对每个w,在集合S里找最优答案;
- 期望覆盖所有可能的w。
- 每组G个rollouts,每个输出集合S^(g);
- 共享K个采样权重w^(k)~Dir(1);
- 每rollout的Monte-Carlo奖励:R̂(S) = (1/K) Σ_k max_{s∈S} w^(k)T r(x,s);
- 标准GRPO z-score优势计算,均匀应用到每个token。
| 领域 | 模型 | 向量奖励 | 标量基线 | 关键特性 |
|---|---|---|---|---|
| Maze | Qwen3-4B | r∈R^4(完成+金币+钻石+熔岩) | uniform mean | 几何结构阻止单一最优路径 |
| MuSiQue | Qwen3-1.7B | r∈R^5(4跳引用+答案F1) | (Σhops+3×F1)/7 | 正确回答可配错误引用 |
| EUREQA | Qwen3-8B | r∈{0,1}^5(5实体精确匹配) | uniform mean | 因果链:找E需先找F,找D需先找E |
| ToolRL | Qwen3-1.7B | r∈R^4(格式+3个F1维度) | uniform mean | 难度分级:格式<工具名<参数键<参数值 |
| 方法 | best@3 | best@5 | best@10 | best@30 | diversity |
|---|---|---|---|---|---|
| GRPO | 0.711 | 0.716 | 0.721 | 0.728 | 0.054 |
| Random-w | 0.712 | 0.716 | 0.721 | 0.728 | 0.061 |
| Max-at-K | 0.757 | 0.768 | 0.783 | 0.802 | 0.175 |
| Multi-RLVR | 0.599 | 0.616 | 0.627 | 0.633 | 0.814 |
| VPO | 0.742 | 0.780 | 0.809 | 0.832 | 0.587 |
多样性指标:VPO 0.587 vs GRPO 0.054——
10倍差距。5.2 Maze(表2)——迷宫导航| 方法 | best@3 | best@5 | best@10 | best@30 | diversity |
|---|---|---|---|---|---|
| GRPO | 0.432 | 0.432 | 0.432 | 0.432 | 0.003 |
| VPO | 0.512 | 0.564 | 0.591 | 0.593 | 1.006 |
GRPO的diversity=0.003意味着:30个候选几乎一模一样。VPO的diversity=1.006意味着:每个候选走不同的权衡路线。
5.3 EUREQA(表3)——实体提取| 方法 | best@3 | best@5 | best@10 | best@30 |
|---|---|---|---|---|
| GRPO | 0.212 | 0.219 | 0.226 | 0.236 |
| VPO | 0.213 | 0.236 | 0.257 | 0.279 |
| 方法 | best@3 | best@5 | best@10 | best@30 | diversity |
|---|---|---|---|---|---|
| GRPO | 0.921 | 0.923 | 0.924 | 0.925 | 0.044 |
| Max-at-K | 0.940 | 0.945 | 0.949 | 0.954 | 0.131 |
| VPO | 0.897 | 0.934 | 0.950 | 0.952 | 1.297 |
---
六、消融:什么才是真正的关键?6.1 计算量匹配(表5)——MuSiQue即使给GRPO
3倍计算量(n=24 vs n=8),best@3也只有0.763/0.765,仍低于VPO的0.779。>
多rollout的标量搜索,不能替代训练时的多样性优化。6.2 目标条件GRPO(表6)——Maze**让GRPO显式条件化在目标权重w上,训练时随机采样w~Dir(1):
| 条件 | best@3 | best@6 |
|---|---|---|
| G.C. w=w* | 0.205 | 0.205 |
| G.C. w~Dir(1) | 0.205 | 0.205 |
| VPO | 0.512 | 0.576 |
---
七、LiveCodeBench:进化搜索的"解锁"能力
在最难的32道题上(GRPO和VPO在best@30时都得分0),用OpenEvolve进化搜索200轮:
- VPO:持续发现新解法,最终破解部分问题;
- GRPO:早期即平台化,完全无法推进。
---
八、VPO什么时候不管用?
当奖励向量的各维度近乎共线(simplex塌缩成一条线)时。论文在UltraFeedback+ArmoRM-5上测试:5个维度高度相关,VPO收敛低于标量基线。
这说明VPO的适用边界:奖励必须有真正的多目标结构,而不是"名义上多维度、实际上一个东西"。
---
九、结论:从"一个答案"到"一组答案"
VPO的范式转移很清晰:
> 标量RL训练模型回答"最好的答案是什么";向量RL训练模型回答"一组答案,覆盖所有可能的'好'的定义"。
随着测试时搜索(AlphaEvolve、Best-of-N、MCTS)成为标配,训练时优化多样性不再是"可选项",而是默认需求。VPO用三个简单组件实现了这一点:
- Dirichlet采样覆盖单纯形;
- 多答案链实现in-context探索;
- GRPO的drop-in替换,零架构改动。
当LLM从"单次生成"走向"搜索生态系统"时,VPO可能是后训练的新默认。🎯
---
参考与数据来源:
- Bahlous-Boldi, R., Puri, I., Shenfeld, I., et al., "Vector Policy Optimization: Training for Diversity Improves Test-Time Search", arXiv:2505.17385 / 2605.22817, 2025
- 机构:MIT, Improbable AI Lab, MIT-IBM Computing Research Lab, Sakana AI
- 评估模型:Qwen3-1.7B/4B/8B, Qwen2.5-Coder-7B
- 评估领域:Maze, MuSiQue, EUREQA, ToolRL, LiveCodeBench
- 基线:GRPO, Multi-RLVR, Random-Weighting GRPO, Max-at-K, MaxRL, Goal-Conditioned GRPO
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens