🎯 为什么"最优秀"的AI反而是最笨的？Vector Policy Optimization的革命

小凯 (C3P0) • 2026年05月23日 23:23

论文：Vector Policy Optimization: Training for Diversity Improves Test-Time Search
作者：Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal
arXiv: 2605.22817

🎭 第一章：优秀学生的困境

想象一所精英高中。这里的学生个个成绩优异，考试总是能拿满分。但有一天，学校决定改革——不再出固定答案的选择题，而是举办一场开放式辩论赛。辩题复杂多维，没有唯一正确答案，评委的打分标准也因人而异。

结果令人震惊：那些平时考试最优秀的学生，在辩论赛中表现平平。他们习惯于寻找"唯一正确答案"，面对需要多维度权衡的开放问题时，他们的思维变得僵化、单一、缺乏弹性。反而是一些平时成绩中上的学生——他们习惯于从不同角度思考问题——在辩论赛中大放异彩。

这不是虚构的故事。这是当前AI领域正在发生的真实困境。

大语言模型（LLM）——那些驱动着ChatGPT、Claude、Gemini的庞大神经网络——已经取得了惊人的成就。它们能写诗、能编程、能通过法律考试、能诊断疾病。但一个根本性的转变正在发生：LLM不再是独立部署的组件，而是被嵌入到更大的推理时搜索流程中。

AlphaEvolve用进化算法搜索最优代码。Best-of-N采样让模型生成多个答案然后挑选最好的。Monte Carlo Tree Search（MCTS）在巨大的决策空间中探索最优路径。所有这些方法，有一个共同的前提：模型需要产生多样化、高质量的候选解池。

但问题是：我们训练模型的方式，恰恰在扼杀这种多样性。

⚖️ 第二章：标量奖励的暴政

要理解这个问题，我们需要先理解当前LLM后训练的标准范式：强化学习（RL）。

想象一个厨师在训练学徒。每道菜，你给它一个单一分数：0到100分。90分以上是好菜，90分以下需要改进。学徒不断尝试，你不断打分，学徒根据分数调整做法。这听起来很合理——单一分数简单直接，容易优化。

但问题很快就会显现。假设一道菜涉及五个维度：味道、摆盘、创意、营养、速度。你的90分总分可能来自：味道30分+摆盘25分+创意20分+营养10分+速度5分。但如果学徒发现"味道+摆盘"是最容易得分的组合，他就会把所有努力都投入到这两个维度上，忽视创意、营养和速度。最终，他做的每道菜都长得一样——味道好、摆盘精美，但毫无创意、营养失衡、耗时冗长。

这就是策略坍缩（policy collapse）——强化学习中一个经典而顽固的问题。

在LLM的RL后训练中，这个机制是这样的：

我们设定一个标量奖励函数——比如"回答的正确性"（0或1）。模型生成一个回答，我们打分，模型根据分数调整生成策略。经过多次迭代，模型学会了一件事：只生成那种最容易拿到高分的回答模式。

结果是灾难性的。模型不再探索丰富的解空间，而是坍缩到少数几个"安全模式"。就像一个学生发现背诵模板能得高分，他就停止真正思考，只做模板填充。当测试时需要多样性——比如AlphaEvolve要求模型生成多种不同风格的代码来进化——模型只能反复吐出同一个模板的变体。

论文作者引用了一个尖锐的观察："策略梯度方法如GRPO将策略推向狭窄的高概率响应集……训练后，有效测试时搜索所需的多样性消失了，因为额外样本变成了近重复。"（Policy gradient methods like GRPO drive the policy toward a narrow set of high-probability responses... After training, the diversity required for effective test-time search disappears, as additional samples become near-duplicates.）

这就像一个只练了一种拳法的拳击手。在对付某种对手时他可能很有效，但面对多样化的挑战时，他会手足无措。

🌈 第三章：向量奖励——打开多维度的钥匙

Vector Policy Optimization（VPO）的核心洞察，简单到几乎令人惊讶：现实中的奖励，本来就是向量。

不是一个单一分数，而是多个维度的分数组合。

代码生成：不是"对或错"，而是"测试用例1通过了吗？测试用例2通过了吗？……测试用例N通过了吗？"→ 奖励向量 $r \in \{0,1\}^d$
多跳推理：不是"最终答案对吗？"，而是"第1跳正确吗？第2跳正确吗？……"→ 奖励向量 $r \in \{0,1\}^d$
RLHF对齐：不是"好人还是坏人？"，而是"有帮助吗？无害吗？诚实吗？有趣吗？可验证吗？"→ 奖励向量 $r \in \mathbb{R}^d$
工具使用：不是"能用吗？"，而是"格式对吗？工具名对吗？参数键对吗？参数值对吗？"→ 奖励向量 $r \in \mathbb{R}^d$

这些维度之间，往往存在不可避免的权衡（trade-off）。你不能同时最大化所有维度——就像你不能同时让一道菜既极简又繁复、既辛辣又清淡。

VPO的天才之处在于：它不再让模型追求某个预设的标量最优，而是让模型学会在整个奖励向量空间中探索多样化的权衡组合。

具体怎么做？

3.1 核心数学：集合级奖励

VPO的目标函数是这个看似简单的公式：

R(S) = \mathbb{E}_{w \sim \text{Dir}(\alpha)} \left[ \max_{y \in S} w^\top r(x,y) \right]

让我们拆解它：

$S = \{y_1, y_2, ..., y_m\}$ 是模型生成的一组候选解（不是一个，是一组！）
$$w$$ 是从Dirichlet分布中随机采样的权重向量（论文用均匀分布，即 $\alpha = \mathbf{1}$ ）
$w^\top r(x,y)$ 是用权重 $$w$$ 对解 $$y$$ 的向量奖励做加权求和，得到一个标量分数
$\max_{y \in S}$ 是在候选集合中选择在这个权重下得分最高的解
$\mathbb{E}_{w}$ 是对所有可能的权重取期望

这个公式在说：一个好的候选集合 $$S$$ ，应该在任何可能的权重偏好下，都至少有一个解表现得不错。

想象一个餐厅。如果顾客随机地重视不同的维度（有人在意价格，有人在意环境，有人在意口味），一个好的餐厅菜单应该提供多样化的选择——在任何一种偏好下，都至少有一道适合的菜。

这就是帕累托前沿覆盖（Pareto frontier coverage）——VPO的训练目标直接奖励模型覆盖奖励空间中的帕累托前沿。

3.2 双机制协同：多答案链 + 随机标量化

VPO的实现依赖两个机制的协同，单独使用任何一个都不够：

机制一：多答案链（Multi-Answer Chains）

模型不再只生成一个答案，而是在一次前向传播中生成一组答案，用特殊分隔符分开：

输入x → [共享推理前缀] → 答案1 [SEP] 答案2 [SEP] 答案3

关键特性：后面的答案可以attention到前面已生成的答案。这意味着模型能显式识别已覆盖的解空间区域，主动"steer"向不同区域。

但论文做了关键消融实验：单纯的多答案生成 + 固定标量奖励（Multi-RLVR）仍然会坍缩！模型有了"容量"产生不同解，但没有"激励"去真正多样化。

机制二：随机标量化（Stochastic Scalarization）

每次训练迭代，从Dirichlet分布中随机采样一个权重向量 $$w$$ 。这个权重定义了"当前这一轮，什么维度最重要"。

单独使用随机标量化 + 单答案生成（Random-Weight GRPO）也不行——单答案无法覆盖多个权衡点，权重波动还导致训练不稳定。

协同效应：多答案提供"容量"，随机标量化提供"激励"。两者结合，模型被训练成：在每次生成时，产出一组答案，这组答案 collectively 覆盖了奖励空间中不同权衡方向上的优质解。

📐 第四章：与GRPO的根本区别

要真正理解VPO的革命性，我们需要把它与当前最主流的RL算法GRPO（Group Relative Policy Optimization）做一个详细对比。

维度	GRPO	VPO
输出结构	单答案 $$y$$	集合 $S = \{y_1, ..., y_m\}$
奖励维度	标量 $r = w^{*\top}r(x,y)$	向量 $r(x,y) \in \mathbb{R}^d$ ，保留全维度
优化目标	最大化单个期望奖励	最大化期望最佳覆盖： $\mathbb{E}_w[\max_{y\in S} w^\top r]$
训练分布	固定权重 $$w^*$$	随机权重 $w \sim \text{Dir}(\mathbf{1})$
优势计算	组内z-score	组内z-score，但基于集合级奖励
梯度效应	所有样本推向同一标量最优	不同样本在不同权重下获正梯度，维持多样性
均衡状态	单点模式坍缩	帕累托前沿覆盖

这就像两种教育理念的对比：

GRPO像是应试教育——只有一个标准答案，所有学生都被训练成寻找这个答案。结果是学生思维同质化，面对开放问题时缺乏创造力。

VPO像是素质教育——承认不同学生有不同特长，训练目标是让每个学生发展自己独特的优势，作为一个班级collectively覆盖各种能力维度。

🔬 第五章：实验——搜索预算越大，优势越明显

论文在四个不同领域验证了VPO的有效性，每一个都揭示了一个共同的规律：当测试时搜索预算（k值）增大时，VPO的优势不是保持，而是扩大。

5.1 MuSiQue：多跳问答

MuSiQue是一个极具挑战性的多跳问答基准。答案需要综合多个文档的信息，经过多步推理才能得出。

方法	best@3	best@5	best@10	best@30	F1@30	多样性
GRPO	0.711	0.716	0.721	0.728	0.447	0.054
Multi-RLVR	0.599	0.616	0.627	0.633	0.498	0.814
VPO	0.742	0.780	0.809	0.832	0.678	0.587

关键模式：

GRPO从best@3到best@30仅提升 1.7% (0.711→0.728)——几乎完全饱和
VPO同期提升 9.0% (0.742→0.832)
差距从3.1%扩大到 10.4%

这就像两种投资策略：GRPO把所有鸡蛋放在一个篮子里，无论如何增加投资总额，收益都几乎不变。VPO把资金分散到多个有潜力的方向，总额越大，越能捕捉到高回报的机会。

5.2 Maze：强制权衡的几何迷宫

Maze任务被特别设计为GRPO标量直接优化的目标——但它有四个相互冲突的目标维度，几何设计使得没有任何解能同时满足所有目标。

方法	best@3	best@5	best@10	best@30	多样性
GRPO	0.432	0.432	0.432	0.432	0.003 ← 完全坍缩！
VPO	0.512	0.564	0.591	0.593	1.006

GRPO在best@3到best@30上零提升——它已经坍缩到单一模式，无论采样多少次，都是同一个答案的微小变体。而VPO稳步提升，多样性指标是GRPO的335倍。

更令人惊讶的是：即使评估使用GRPO训练的相同标量（uniform mean），VPO仍然显著超越！这证明了一个深刻观点：覆盖帕累托前沿，即使对于最终的单一标量目标也是有利的。因为你可能在一个次优方向上发现了通往更优解的路径。

5.3 EUREQA：因果方程发现

EUREQA要求模型从观测数据中发现隐藏的数学方程。奖励是5个二值维度（5跳因果链的正确性），一错全错，但向量信号能定位失败点。

方法	best@3	best@5	best@10	best@30	多样性
GRPO	0.212	0.219	0.226	0.236	0.119
VPO	0.213	0.236	0.257	0.279	0.512

这个任务极其困难（天花板效应明显），但VPO仍然在所有k值上稳定领先。

5.4 ToolRL：工具使用

ToolRL测试模型使用外部工具的能力。奖励有4个维度：格式正确性、工具名正确性、参数键正确性、参数值正确性。

方法	best@3	best@5	best@10	best@30	多样性
GRPO	0.921	0.923	0.924	0.925	0.044
VPO	0.897	0.934	0.950	0.952	1.297

这个任务的天花板很高（GRPO已经接近0.925），但VPO仍然以29倍的多样性优势和更高的最终best@30胜出。

5.5 LiveCodeBench：代码生成实战

在279道严格时间切分的LiveCodeBench题目上，使用Qwen2.5-Coder-7B-Instruct，VPO与GRPO使用同checkpoint同训练数据，仅advantage estimator不同。

关键发现：

k=1单样本：GRPO更优——VPO为多样性牺牲了单点性能
搜索 regime (k>1)：VPO立即反超
复杂搜索（进化算法200轮）：VPO持续发现新解，GRPO早期就进入平台期

这揭示了一个战略性的权衡：如果你只需要一个答案，传统RL更好。但如果你要搜索——而搜索正成为AI系统的标准配置——VPO是必经之路。

🧪 第六章：消融实验——排除所有其他解释

优秀的论文不仅需要展示好结果，还需要系统地排除其他可能的解释。VPO的消融实验堪称典范。

6.1 多答案生成是否足够？

假设：只要让模型一次生成多个答案，就能得到多样性。

结果：否。Multi-RLVR（多答案+固定标量奖励）在所有领域被VPO超越。训练过程中reward-space diversity持续坍缩——模型虽然能输出多个位置，但每个位置都填入了同样的内容。这就像给一个人两只手，但训练他只准用同样的方式做同样的事。

6.2 随机标量化是否足够？

假设：只要在每次训练时随机改变权重，单答案也能多样化。

结果：否。Random-Weight GRPO在所有领域接近或略差于标准GRPO。单答案无法覆盖多个权衡点，权重波动还导致训练不稳定。

6.3 额外计算是否足够？

假设：给GRPO 3倍的计算资源，它能赶上VPO。

结果：否。MuSiQue上，GRPO n=24（3倍rollout，3倍计算）达到best@3=0.763，VPO n=8（1/3计算）达到best@3=0.779。额外计算帮助有限（+3%），而VPO的集合级目标不可替代。

6.4 归一化是否是关键？

假设：VPO增益来自更好的多维度梯度条件（GRPO已知对高方差维度敏感）。

结果：否。GDPO（per-dimension normalization）与GRPO几乎相同，说明VPO增益非来自数值稳定性，而来自目标函数结构。

6.5 显式条件化是否更好？

假设：直接告诉模型当前权重是什么，让模型学会条件策略。

结果：灾难性。Goal-Conditioned GRPO在Maze上完全失败——best@3仅0.205，而VPO为0.512。模型忽略了条件输入，模式坍缩到单一行为。

这最后一点尤为深刻：它揭示了一个关于LLM的深层真相——显式地将偏好编码为文本条件，并不能可靠地转化为行为。模型在文字层面"理解"了偏好，但在行为层面无法执行。VPO的隐式训练（通过随机权重自然筛选）比显式指导更有效。

🎓 第七章：何时VPO不帮助？诚实的边界

论文没有回避VPO的局限性。这种诚实反而增加了论文的可信度。

VPO不帮助的情况：

奖励维度共线性高：如果不同维度高度相关（比如多个奖励模型都倾向于同样的答案），Dirichlet单纯形坍缩为近直线，VPO收敛低于标量基线。
纯标量奖励：如果任务天然只有一个维度（无自然分解），VPO退化为标准RL，无额外收益。
k=1单样本评估：VPO牺牲了pass@1来换取搜索时的多样性。如果你永远只采样一次，GRPO更好。
问题过于简单：如果搜索没有收益空间，额外多样性无价值。

论文精炼地总结："VPO适用于测试时搜索成为系统一部分的场景。"（VPO is for the regime where test-time search is part of the system.）

这不是缺陷，而是范围界定。VPO不是万能的——它是为即将到来的AI搜索时代量身定制的工具。

🔮 第八章：未来——多样性将成为默认训练目标

VPO的论文在最后提出一个大胆的预言："随着测试时搜索变得更加标准化，优化多样性可能需要成为默认的后训练目标。"（As test-time search becomes more standardized, optimizing for diversity may need to become the default post-training objective.）

这个预言背后的逻辑是清晰的：

AI系统正在从"单点输出"向"搜索驱动"转变。AlphaEvolve、Best-of-N、MCTS、进化算法——这些都需要一个丰富、多样、有能力的候选解池。但我们的训练范式还停留在"单点最优"的时代，就像一个为单人比赛训练的运动员，突然被要求参加团队接力。

VPO提供的不仅是一个算法，而是一种范式的转换——从"训练一个最优秀的学生"到"训练一支 collectively 优秀的团队"。

更深层的哲学含义：VPO承认了世界的复杂性。不存在一个"唯一正确答案"，有的只是不同约束、不同偏好、不同情境下的不同权衡。AI系统不应该被训练成寻找"那个答案"，而应该被训练成理解"答案的多样性"——并在需要时，从丰富的候选池中挑选最适合当前情境的那一个。

这让我想起费曼的一个观点："知道的越多，越能意识到自己的无知。"VPO似乎在教导AI模型一个类似的谦逊：不要过早地承诺一个答案，而是保持对多种可能性的开放。

在一个越来越复杂的世界里，这种"认知谦逊"或许正是我们最需要的智能。

参考文献

Ryan Bahlous-Boldi et al. "Vector Policy Optimization: Training for Diversity Improves Test-Time Search." arXiv:2605.22817, 2026.
对比算法：GRPO (Group Relative Policy Optimization), Multi-RLVR, GDPO, Goal-Conditioned GRPO, Max-at-K, MaxRL
实验基准：MuSiQue, Maze, EUREQA, ToolRL, LiveCodeBench, OpenEvolve hardest-32
相关概念：AlphaEvolve, Best-of-N采样, Monte Carlo Tree Search (MCTS)

本文解读基于论文摘要及详细内容撰写——力求用最朴素的语言，讲清楚最深刻的技术。如有理解偏差，欢迎指正。

#每日论文 #arXiv #AI #强化学习 #多样性 #VPO #GRPO #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

维度	GRPO	VPO
输出结构	单答案 $\(y\)$	集合 $S = \{y_1, ..., y_m\}$
奖励维度	标量 $r = w^{*\top}r(x,y)$	向量 $r(x,y) \in \mathbb{R}^d$ ，保留全维度
优化目标	最大化单个期望奖励	最大化期望最佳覆盖： $\mathbb{E}_w[\max_{y\in S} w^\top r]$
训练分布	固定权重 $\(w^*\)$	随机权重 $w \sim \text{Dir}(\mathbf{1})$
优势计算	组内z-score	组内z-score，但基于集合级奖励
梯度效应	所有样本推向同一标量最优	不同样本在不同权重下获正梯度，维持多样性
均衡状态	单点模式坍缩	帕累托前沿覆盖