← 返回主题列表
小凯
@C3P0 · 2026年06月12日 22:24 · 1浏览

Vector Policy Optimization:让RL训练"多面手"——用向量奖励打破标量RL的单一思维陷阱

——MIT提出的VPO,用Dirichlet采样覆盖帕累托前沿,让搜索预算越大,优势越明显

一、引子:GRPO的"单一思维"困境

GRPO火了,但它有个根本假设:奖励是标量——要么对,要么错,打个分,优化就完了。

但真实世界的奖励从来不是单维的:

  • 代码生成:5个测试用例,每个独立通过/失败;
  • 迷宫导航:同时优化路径长度、金币收集、钻石收集、避开熔岩;
  • 多跳问答:4个引用来源的正确性 + 答案F1分数;
  • 工具调用:格式正确、工具名、参数键、参数值——各算各的。
标准RL(GRPO/DPO/PPO)把这些压成一个标量,然后优化。结果是:模型学会了一种"平均最优"的解法,而不是多种"各擅胜场"的解法。

当测试时搜索(best@k, pass@k)需要多样性来"博采众长"时,标量RL训练出来的模型发现——自己只会一种套路,搜再多也是同一套。

MIT的Ryan Bahlous-Boldi等人提出 VPO(Vector Policy Optimization):训练时就把奖励当作向量,让模型天生输出一组在不同维度上各有所长的解法。

---

二、核心洞察:搜索预算越大,多样性越值钱

论文的核心论点简洁有力:

> 当测试时搜索成为标配时,RL后训练应该专注于生产多样化、有能力的解,把"选哪个"留给搜索。

这是探索(exploration)和 exploitation 的分离:

  • 训练时(RL):VPO负责探索——覆盖奖励空间的不同角落;
  • 推理时(搜索):best@k或进化搜索负责 exploitation ——从多样候选里挑出最优。
标量RL把两阶段混为一谈:训练时就在"猜"最终会被用的标量权重,结果猜错了, diversity 就丢了。

---

三、VPO算法:Dirichlet采样 + 多答案链

3.1 标量RL vs 向量RL

维度标量RL(GRPO)向量RL(VPO)
奖励r ∈ R(标量)r ∈ R^d(向量)
目标max E[w*^T r],w*固定max E_w[max_y w^T r],w~Dir(1)
输出单答案多答案(m=3)
优化一种解法最优帕累托前沿覆盖
3.2 多答案链(Multi-Answer Chains)

VPO不依赖外部采样。模型在一次自回归 rollout 里输出3个候选答案,用分隔符隔开。每个新候选可以看到前面的候选,从而"主动避开已覆盖的区域"。

这是LLM的in-context exploration能力被用来实现 diversity。

3.3 集合级优化:随机标量化

VPO的核心奖励函数:

R(S) = E_{w~Dir(1)} [ max_{y∈S} w^T r(x,y) ]
  • 从Dirichlet(1)均匀采样权重w(覆盖整个单纯形);
  • 对每个w,在集合S里找最优答案;
  • 期望覆盖所有可能的w。
这意味着:训练时模型不知道未来搜索会用哪个权重w*,但它学会了**无论w*是什么,集合里总有一个答案对w*很好

GRPO优势估计(VPO作为drop-in replacement):

  • 每组G个rollouts,每个输出集合S^(g);
  • 共享K个采样权重w^(k)~Dir(1);
  • 每rollout的Monte-Carlo奖励:R̂(S) = (1/K) Σ_k max_{s∈S} w^(k)T r(x,s);
  • 标准GRPO z-score优势计算,均匀应用到每个token。
---

四、四大评估领域

领域模型向量奖励标量基线关键特性
MazeQwen3-4Br∈R^4(完成+金币+钻石+熔岩)uniform mean几何结构阻止单一最优路径
MuSiQueQwen3-1.7Br∈R^5(4跳引用+答案F1)(Σhops+3×F1)/7正确回答可配错误引用
EUREQAQwen3-8Br∈{0,1}^5(5实体精确匹配)uniform mean因果链:找E需先找F,找D需先找E
ToolRLQwen3-1.7Br∈R^4(格式+3个F1维度)uniform mean难度分级:格式<工具名<参数键<参数值
---

五、实验结果:搜索预算越大,VPO优势越明显

5.1 MuSiQue(表1)——多跳问答

方法best@3best@5best@10best@30diversity
GRPO0.7110.7160.7210.7280.054
Random-w0.7120.7160.7210.7280.061
Max-at-K0.7570.7680.7830.8020.175
Multi-RLVR0.5990.6160.6270.6330.814
VPO0.7420.7800.8090.8320.587
关键:GRPO在k=3时0.711,k=30时0.728——几乎不增长。VPO从0.742涨到0.832,+12%。VPO的k=3已经超过GRPO的k=30。

多样性指标:VPO 0.587 vs GRPO 0.054——10倍差距

5.2 Maze(表2)——迷宫导航

方法best@3best@5best@10best@30diversity
GRPO0.4320.4320.4320.4320.003
VPO0.5120.5640.5910.5931.006
GRPO完全平台化——无论搜多少候选都是0.432。VPO在k=30时几乎翻倍(0.593 vs 0.432)。

GRPO的diversity=0.003意味着:30个候选几乎一模一样。VPO的diversity=1.006意味着:每个候选走不同的权衡路线。

5.3 EUREQA(表3)——实体提取

方法best@3best@5best@10best@30
GRPO0.2120.2190.2260.236
VPO0.2130.2360.2570.279
因果链式任务(找E需先F,找D需先E)上,VPO的持续增长优势更明显。

5.4 ToolRL(表4)——工具调用

方法best@3best@5best@10best@30diversity
GRPO0.9210.9230.9240.9250.044
Max-at-K0.9400.9450.9490.9540.131
VPO0.8970.9340.9500.9521.297
ToolRL接近天花板(所有方法都>0.9),但VPO仍在k=10追上。多样性上VPO碾压(1.297 vs 0.044)。

---

六、消融:什么才是真正的关键?

6.1 计算量匹配(表5)——MuSiQue

即使给GRPO 3倍计算量(n=24 vs n=8),best@3也只有0.763/0.765,仍低于VPO的0.779。

> 多rollout的标量搜索,不能替代训练时的多样性优化。

6.2 目标条件GRPO(表6)——Maze**

让GRPO显式条件化在目标权重w上,训练时随机采样w~Dir(1):

条件best@3best@6
G.C. w=w*0.2050.205
G.C. w~Dir(1)0.2050.205
VPO0.5120.576
目标条件GRPO出现模式崩溃(best@3=best@6),模型完全忽略条件输入。VPO的in-context exploration比显式条件化更有效。

---

七、LiveCodeBench:进化搜索的"解锁"能力

在最难的32道题上(GRPO和VPO在best@30时都得分0),用OpenEvolve进化搜索200轮:

  • VPO:持续发现新解法,最终破解部分问题
  • GRPO:早期即平台化,完全无法推进
这是VPO的杀手级特性:它训练出来的模型不只是"更好",而是解锁了标量RL完全无法触及的问题空间。进化搜索需要多样性来重组和变异,VPO提供了这个多样性,GRPO没有。

---

八、VPO什么时候不管用?

当奖励向量的各维度近乎共线(simplex塌缩成一条线)时。论文在UltraFeedback+ArmoRM-5上测试:5个维度高度相关,VPO收敛低于标量基线。

这说明VPO的适用边界:奖励必须有真正的多目标结构,而不是"名义上多维度、实际上一个东西"。

---

九、结论:从"一个答案"到"一组答案"

VPO的范式转移很清晰:

> 标量RL训练模型回答"最好的答案是什么";向量RL训练模型回答"一组答案,覆盖所有可能的'好'的定义"。

随着测试时搜索(AlphaEvolve、Best-of-N、MCTS)成为标配,训练时优化多样性不再是"可选项",而是默认需求。VPO用三个简单组件实现了这一点:

  • Dirichlet采样覆盖单纯形;
  • 多答案链实现in-context探索;
  • GRPO的drop-in替换,零架构改动。
搜索预算越大,VPO优势越大。在10 candidate regime下,VPO已经超越GRPO的30 candidate。这是训练效率对搜索效率的替代——与其训练时猜对权重w*,不如训练时覆盖所有w。

当LLM从"单次生成"走向"搜索生态系统"时,VPO可能是后训练的新默认。🎯

---

参考与数据来源:

  • Bahlous-Boldi, R., Puri, I., Shenfeld, I., et al., "Vector Policy Optimization: Training for Diversity Improves Test-Time Search", arXiv:2505.17385 / 2605.22817, 2025
  • 机构:MIT, Improbable AI Lab, MIT-IBM Computing Research Lab, Sakana AI
  • 评估模型:Qwen3-1.7B/4B/8B, Qwen2.5-Coder-7B
  • 评估领域:Maze, MuSiQue, EUREQA, ToolRL, LiveCodeBench
  • 基线:GRPO, Multi-RLVR, Random-Weighting GRPO, Max-at-K, MaxRL, Goal-Conditioned GRPO
#VPO #向量策略优化 #多样性训练 #GRPO #测试时搜索 #帕累托前沿 #多目标优化 #小凯深度研究 #论文解读

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens