GD2PO:多奖励强化学习的「信号消噪器」
GD2PO:多奖励强化学习的「信号消噪器」
> 论文:GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization > 作者:Haotian Liu, Yihao Liu, Jingwei Ni 等(阿里巴巴 Qwen 团队 + 人大/北大/ETH/港中文) > arXiv:2606.16771 > 代码:https://github.com/Qwen-Applications/GD2PO
---
核心问题:多奖励 = 多噪音
LLM 后训练正在从「单一奖励」走向「多维奖励」——有用性、安全性、简洁性、指令遵循、工具调用……每个维度各有一个奖励模型打分。
但这里有个隐藏的陷阱:不同奖励维度的信号经常方向相反。
一个回答可能在「有用性」上得高分(给了用户想要的),但在「安全性」上得低分(泄露了敏感信息)。当 GDPO 把各维度的优势函数加权求和时,正负信号互相抵消,最终聚合出的优势接近于零——模型学了个寂寞。
这就是多奖励冲突(Multi-Reward Conflicts)。
---
一、GDPO 的问题:晚聚合的代价
GDPO 相比 GRPO 的改进是解耦归一化——每个奖励维度独立做 group-relative normalization,再聚合:
$$A_n^{\text{sum}} = \sum_{i=1}^{M} w_i A_n^{i}$$
但这仍是晚聚合:在 rollout 级别,各维度的优势已经被加成了一个标量。如果 $A_n^{\text{useful}} > 0$ 而 $A_n^{\text{safe}} < 0$,它们会在求和时打架。
论文用实验证明了这一点:训练过程中存在显著的冲突比例(conflict ratio),且因任务和模型而异——有的集中在早期,有的持续整个训练过程。
---
二、GD2PO 的双层消噪架构
GD2PO 的核心哲学:在最终聚合前,识别并拦截跨奖励冲突。
Layer 1: Rollout 级冲突过滤
对每个 rollout,判断其各维度优势的方向是否一致。提供两种过滤规则:
#### 硬过滤(Hard Filtering)
最严格的判断:如果存在任意两个奖励维度优势符号相反,直接丢弃该 rollout。
$$\delta_{\text{hard}}(y_n) = \mathbf{1}\{\text{Sign}(A_n^{i}) = \text{Sign}(A_n^{j}), \forall i,j\}$$
优点:零容错,只保留完全一致信号 缺点:可能过于激进,丢弃了"轻微不一致但整体方向明确"的样本
#### SNR 软过滤(SNR-Based Filtering)
引入信号处理中的信噪比概念,量化冲突程度:
$$\text{SNR}_n = \frac{|\sum_{i=1}^{M} w_i A_n^{i}|}{\sum_{i=1}^{M} |w_i A_n^{i}| + \epsilon}$$
分子是聚合后的优势绝对值(实际 surviving 信号),分母是各维度优势绝对值之和(总潜在信号)。
- SNR → 1:各维度方向一致,"相长干涉"
- SNR → 0:正负抵消严重,"相消干涉"
优点:区分"轻微分歧"和"严重冲突" 缺点:引入阈值超参
Layer 2: Query 级动态重加权
过滤后,不同 query 保留的 rollout 数量不同。如果某个 query 的 4 个 rollout 被过滤掉 3 个,只剩 1 个有效样本,那这个 query 提供的更新信号就不可靠。
GD2PO 的做法:用保留比例作为该 query 的更新权重:
$$\hat{\kappa}(x) = \frac{1}{G} \sum_{n=1}^{G} \delta(y_n)$$
保留比例越低 → 更新幅度越小(保守策略) 保留比例越高 → 更新幅度越大(信任信号)
论文从理论上分析了这一点:保留 rollouts 的期望和方差满足
$$\frac{|\mathbb{E}[g_\delta(x)]|}{\sqrt{\text{Var}[g_\delta(x)]}} \approx \sqrt{\kappa(x)} \frac{|\mu_x|}{\sigma_x}$$
信噪比随保留数量的平方根增长——所以低保留比例的 query 确实应该被降权。
---
三、完整目标函数
$$\mathcal{J}_{\text{GD}^2\text{PO}} = \mathbb{E}_{x, \mathcal{G}(x)} \left[ \frac{1}{G} \hat{\kappa}(x) \sum_{n=1}^{G} \frac{1}{|y_n|} \sum_{t=1}^{|y_n|} \gamma_n^{t}\left(\theta, \delta(y_n) \cdot \sum_{i=1}^{M} w_i A_n^{i}\right) \right]$$
三个关键组件: 1. $\delta(y_n)$ —— rollout 级过滤掩码 2. $\hat{\kappa}(x)$ —— query 级保留比例重加权 3. $\gamma_n^t$ —— 标准 PPO/GRPO 裁剪 surrogate
计算开销:几乎为零。只是多了符号判断和 SNR 计算,不需要额外训练参数。
---
四、实验:工具调用 + 有用性-安全性对齐
任务设置
| 任务 | 奖励维度 | 数据集 |
|---|---|---|
| 工具调用(双奖励) | Correctness + Length | API-Bank |
| 工具调用(三奖励) | Correctness + Format + Length | API-Bank |
| 有用性-安全性对齐 | Useful + Harmless | HH-RLHF / PKU-SafeRLHF / Alpaca |
基线
- GRPO:直接求和奖励后做 group normalization
- GDPO:解耦归一化后再聚合
- GD2PO-Hard:硬过滤 + query 重加权
- GD2PO-SNR:SNR 过滤 + query 重加权
关键结果
两奖励工具调用(Qwen2.5-3B):
| Method | Correct Acc. | Length Rew. | Overall |
|---|---|---|---|
| GRPO | 61.24 | 0.99 | 1.602 |
| GDPO | 61.57 | 1.00 | 1.616 |
| GD2PO-Hard | 62.88 | 1.00 | 1.629 |
| GD2PO-SNR | 62.35 | 1.00 | 1.624 |
有用性-安全性对齐(Qwen2.5-7B):
| Method | Overall Avg |
|---|---|
| GRPO | 5.425 |
| GDPO | 5.600 |
| GD2PO-Hard | 5.703 |
| GD2PO-SNR | 5.667 |
三奖励工具调用:
当奖励维度增加到 3 个时,GD2PO-SNR 反超 Hard 变体。这说明:
- 两奖励:符号判断足够,Hard 更直接有效
- 三奖励+:需要 SNR 区分"轻微分歧"和"严重冲突"
消融实验
Query 级重加权的作用:
| Method | Correct Acc. |
|---|---|
| GDPO | 61.57 |
| Hard w/o QR | 62.51 |
| Hard | 62.88 |
| SNR w/o QR | 62.21 |
| SNR | 62.78 |
SNR 阈值敏感性:
$\tau$ 在 0.3-0.8 范围内都优于 GDPO,$\tau=0.5$ 时效果最佳。方法对阈值选择相对鲁棒。
---
五、训练动态洞察
论文分析了训练过程中的冲突比例动态:
1. 冲突普遍存在:所有模型和任务都出现非零冲突比例 2. 动态变化:有些模型冲突集中在早期快速下降,有些则持续存在或后期达到峰值 3. 维度增加 → 冲突增加:三奖励设置的早期冲突比例高于双奖励 4. 有用性-安全性冲突最持久:反映这两个目标之间的根本性张力
这些观察说明:多奖励冲突不是边缘现象,而是普遍存在的训练动态。GD2PO 的过滤机制有广泛的适用价值。
---
六、与相关工作的关系
| 方法 | 层级 | 策略 |
|---|---|---|
| Reward re-weighting | 全局 | 固定或动态调整奖励权重 |
| Gradient coordination | 梯度 | 对齐/平衡各维度梯度 |
| GDPO | 优势 | 解耦归一化,但晚聚合 |
| GD2PO | Rollout + Query | 过滤冲突样本 + 动态重加权 |
| DAPO | Group | 过滤全对/全错的 query group |
---
七、局限与思考
1. 阈值超参:SNR 过滤依赖 $\tau$,虽然实验证明鲁棒,但最优值因任务而异。未来可以探索自适应阈值。
2. 过滤的代价:被过滤的 rollout 是否包含潜在有用信号?论文的 Low-Conflict Half vs High-Conflict Half 对比实验支持了过滤的有效性,但极端情况下可能过度剪枝。
3. 与 Pareto 优化的关系:GD2PO 不是寻找 Pareto 前沿,而是提升单点优化的稳定性。对于需要显式权衡的场景,可能需要与 Pareto 方法结合。
4. LLM 特定性:冲突过滤基于符号判断或 SNR,假设优势方向有意义。在更复杂的策略空间(如连续控制)中可能需要调整。
---
八、一句话总结
> GD2PO 是多奖励 RL 的「信号消噪器」——在优势聚合前拦截跨维度冲突,让模型从「噪音中的弱信号」变成「干净的强信号」中学习。
它不需要新架构、不需要额外训练参数,只是对 GDPO 流程加了两个轻量判断。但正是这两个判断,让多奖励对齐的训练效率和最终效果都上了新台阶。
---
参考文献
- Liu, H., Liu, Y., Ni, J., et al. (2026). GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization. arXiv:2606.16771.
#强化学习 #LLM对齐 #Qwen #GRPO #GDPO #多奖励优化 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens