论文:GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization
作者:Haotian Liu, Yihao Liu, Jingwei Ni 等(阿里巴巴 Qwen 团队 + 人大/北大/ETH/港中文)
arXiv:2606.16771
代码:https://github.com/Qwen-Applications/GD2PO
核心问题:多奖励 = 多噪音
LLM 后训练正在从「单一奖励」走向「多维奖励」——有用性、安全性、简洁性、指令遵循、工具调用……每个维度各有一个奖励模型打分。
但这里有个隐藏的陷阱:不同奖励维度的信号经常方向相反。
一个回答可能在「有用性」上得高分(给了用户想要的),但在「安全性」上得低分(泄露了敏感信息)。当 GDPO 把各维度的优势函数加权求和时,正负信号互相抵消,最终聚合出的优势接近于零——模型学了个寂寞。
这就是多奖励冲突(Multi-Reward Conflicts)。
一、GDPO 的问题:晚聚合的代价
GDPO 相比 GRPO 的改进是解耦归一化——每个奖励维度独立做 group-relative normalization,再聚合:
但这仍是晚聚合:在 rollout 级别,各维度的优势已经被加成了一个标量。如果 \(A_n^{\text{useful}} > 0\) 而 \(A_n^{\text{safe}} < 0\),它们会在求和时打架。
论文用实验证明了这一点:训练过程中存在显著的冲突比例(conflict ratio),且因任务和模型而异——有的集中在早期,有的持续整个训练过程。
二、GD2PO 的双层消噪架构
GD2PO 的核心哲学:在最终聚合前,识别并拦截跨奖励冲突。
Layer 1: Rollout 级冲突过滤
对每个 rollout,判断其各维度优势的方向是否一致。提供两种过滤规则:
硬过滤(Hard Filtering)
最严格的判断:如果存在任意两个奖励维度优势符号相反,直接丢弃该 rollout。
优点:零容错,只保留完全一致信号
缺点:可能过于激进,丢弃了"轻微不一致但整体方向明确"的样本
SNR 软过滤(SNR-Based Filtering)
引入信号处理中的信噪比概念,量化冲突程度:
分子是聚合后的优势绝对值(实际 surviving 信号),分母是各维度优势绝对值之和(总潜在信号)。
- SNR → 1:各维度方向一致,"相长干涉"
- SNR → 0:正负抵消严重,"相消干涉"
保留条件:\(\text{SNR}_n > \tau\)(阈值超参,实验中取 0.5-0.8)
优点:区分"轻微分歧"和"严重冲突"
缺点:引入阈值超参
Layer 2: Query 级动态重加权
过滤后,不同 query 保留的 rollout 数量不同。如果某个 query 的 4 个 rollout 被过滤掉 3 个,只剩 1 个有效样本,那这个 query 提供的更新信号就不可靠。
GD2PO 的做法:用保留比例作为该 query 的更新权重:
保留比例越低 → 更新幅度越小(保守策略)
保留比例越高 → 更新幅度越大(信任信号)
论文从理论上分析了这一点:保留 rollouts 的期望和方差满足
信噪比随保留数量的平方根增长——所以低保留比例的 query 确实应该被降权。
三、完整目标函数
三个关键组件:
- \(\delta(y_n)\) —— rollout 级过滤掩码
- \(\hat{\kappa}(x)\) —— query 级保留比例重加权
- \(\gamma_n^t\) —— 标准 PPO/GRPO 裁剪 surrogate
计算开销:几乎为零。只是多了符号判断和 SNR 计算,不需要额外训练参数。
四、实验:工具调用 + 有用性-安全性对齐
任务设置
| 任务 | 奖励维度 | 数据集 |
|---|---|---|
| 工具调用(双奖励) | Correctness + Length | API-Bank |
| 工具调用(三奖励) | Correctness + Format + Length | API-Bank |
| 有用性-安全性对齐 | Useful + Harmless | HH-RLHF / PKU-SafeRLHF / Alpaca |
基线
- GRPO:直接求和奖励后做 group normalization
- GDPO:解耦归一化后再聚合
- GD2PO-Hard:硬过滤 + query 重加权
- GD2PO-SNR:SNR 过滤 + query 重加权
关键结果
两奖励工具调用(Qwen2.5-3B):
| Method | Correct Acc. | Length Rew. | Overall |
|---|---|---|---|
| GRPO | 61.24 | 0.99 | 1.602 |
| GDPO | 61.57 | 1.00 | 1.616 |
| GD2PO-Hard | 62.88 | 1.00 | 1.629 |
| GD2PO-SNR | 62.35 | 1.00 | 1.624 |
GD2PO-Hard 在 Correct Acc. 上提升 1.31-1.74 pp,且 Length Reward 保持满分——没有牺牲辅助目标。
有用性-安全性对齐(Qwen2.5-7B):
| Method | Overall Avg |
|---|---|
| GRPO | 5.425 |
| GDPO | 5.600 |
| GD2PO-Hard | 5.703 |
| GD2PO-SNR | 5.667 |
提升 0.10-0.28,且有用性和安全性同时改善(没有此消彼长)。
三奖励工具调用:
当奖励维度增加到 3 个时,GD2PO-SNR 反超 Hard 变体。这说明:
- 两奖励:符号判断足够,Hard 更直接有效
- 三奖励+:需要 SNR 区分"轻微分歧"和"严重冲突"
消融实验
Query 级重加权的作用:
| Method | Correct Acc. |
|---|---|
| GDPO | 61.57 |
| Hard w/o QR | 62.51 |
| Hard | 62.88 |
| SNR w/o QR | 62.21 |
| SNR | 62.78 |
过滤本身就有提升(+0.6-0.9),加上 query 重加权后进一步提升(+0.3-0.5)。两者互补。
SNR 阈值敏感性:
\(\tau\) 在 0.3-0.8 范围内都优于 GDPO,\(\tau=0.5\) 时效果最佳。方法对阈值选择相对鲁棒。
五、训练动态洞察
论文分析了训练过程中的冲突比例动态:
- 冲突普遍存在:所有模型和任务都出现非零冲突比例
- 动态变化:有些模型冲突集中在早期快速下降,有些则持续存在或后期达到峰值
- 维度增加 → 冲突增加:三奖励设置的早期冲突比例高于双奖励
- 有用性-安全性冲突最持久:反映这两个目标之间的根本性张力
这些观察说明:多奖励冲突不是边缘现象,而是普遍存在的训练动态。GD2PO 的过滤机制有广泛的适用价值。
六、与相关工作的关系
| 方法 | 层级 | 策略 |
|---|---|---|
| Reward re-weighting | 全局 | 固定或动态调整奖励权重 |
| Gradient coordination | 梯度 | 对齐/平衡各维度梯度 |
| GDPO | 优势 | 解耦归一化,但晚聚合 |
| GD2PO | Rollout + Query | 过滤冲突样本 + 动态重加权 |
| DAPO | Group | 过滤全对/全错的 query group |
GD2PO 的独特位置:在 DAPO 的动态采样思想和 GDPO 的多奖励解耦之间架桥,把"过滤低质量信号"从单奖励场景推广到多奖励场景。
七、局限与思考
-
阈值超参:SNR 过滤依赖 \(\tau\),虽然实验证明鲁棒,但最优值因任务而异。未来可以探索自适应阈值。
-
过滤的代价:被过滤的 rollout 是否包含潜在有用信号?论文的 Low-Conflict Half vs High-Conflict Half 对比实验支持了过滤的有效性,但极端情况下可能过度剪枝。
-
与 Pareto 优化的关系:GD2PO 不是寻找 Pareto 前沿,而是提升单点优化的稳定性。对于需要显式权衡的场景,可能需要与 Pareto 方法结合。
-
LLM 特定性:冲突过滤基于符号判断或 SNR,假设优势方向有意义。在更复杂的策略空间(如连续控制)中可能需要调整。
八、一句话总结
GD2PO 是多奖励 RL 的「信号消噪器」——在优势聚合前拦截跨维度冲突,让模型从「噪音中的弱信号」变成「干净的强信号」中学习。
它不需要新架构、不需要额外训练参数,只是对 GDPO 流程加了两个轻量判断。但正是这两个判断,让多奖励对齐的训练效率和最终效果都上了新台阶。
参考文献
- Liu, H., Liu, Y., Ni, J., et al. (2026). GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization. arXiv:2606.16771.
#多奖励优化 #强化学习 #LLM对齐 #Qwen #GRPO #GDPO
#强化学习 #LLM对齐 #Qwen #GRPO #GDPO #多奖励优化 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。