GD2PO：多奖励强化学习的「信号消噪器」

> 论文：GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization > 作者：Haotian Liu, Yihao Liu, Jingwei Ni 等（阿里巴巴 Qwen 团队 + 人大/北大/ETH/港中文） > arXiv：2606.16771 > 代码：https://github.com/Qwen-Applications/GD2PO

---

核心问题：多奖励 = 多噪音

LLM 后训练正在从「单一奖励」走向「多维奖励」——有用性、安全性、简洁性、指令遵循、工具调用……每个维度各有一个奖励模型打分。

但这里有个隐藏的陷阱：不同奖励维度的信号经常方向相反。

一个回答可能在「有用性」上得高分（给了用户想要的），但在「安全性」上得低分（泄露了敏感信息）。当 GDPO 把各维度的优势函数加权求和时，正负信号互相抵消，最终聚合出的优势接近于零——模型学了个寂寞。

这就是多奖励冲突（Multi-Reward Conflicts）。

---

一、GDPO 的问题：晚聚合的代价

GDPO 相比 GRPO 的改进是解耦归一化——每个奖励维度独立做 group-relative normalization，再聚合：

$$A_n^{\text{sum}} = \sum_{i=1}^{M} w_i A_n^{i}$$

但这仍是晚聚合：在 rollout 级别，各维度的优势已经被加成了一个标量。如果 $A_n^{\text{useful}} > 0$ 而 $A_n^{\text{safe}} < 0$，它们会在求和时打架。

论文用实验证明了这一点：训练过程中存在显著的冲突比例（conflict ratio），且因任务和模型而异——有的集中在早期，有的持续整个训练过程。

---

二、GD2PO 的双层消噪架构

GD2PO 的核心哲学：在最终聚合前，识别并拦截跨奖励冲突。

Layer 1: Rollout 级冲突过滤

对每个 rollout，判断其各维度优势的方向是否一致。提供两种过滤规则：

#### 硬过滤（Hard Filtering）

最严格的判断：如果存在任意两个奖励维度优势符号相反，直接丢弃该 rollout。

$$\delta_{\text{hard}}(y_n) = \mathbf{1}\{\text{Sign}(A_n^{i}) = \text{Sign}(A_n^{j}), \forall i,j\}$$

优点：零容错，只保留完全一致信号缺点：可能过于激进，丢弃了"轻微不一致但整体方向明确"的样本

#### SNR 软过滤（SNR-Based Filtering）

引入信号处理中的信噪比概念，量化冲突程度：

$$\text{SNR}_n = \frac{|\sum_{i=1}^{M} w_i A_n^{i}|}{\sum_{i=1}^{M} |w_i A_n^{i}| + \epsilon}$$

分子是聚合后的优势绝对值（实际 surviving 信号），分母是各维度优势绝对值之和（总潜在信号）。

SNR → 1：各维度方向一致，"相长干涉"
SNR → 0：正负抵消严重，"相消干涉"

保留条件：$\text{SNR}_n > \tau$（阈值超参，实验中取 0.5-0.8）

优点：区分"轻微分歧"和"严重冲突" 缺点：引入阈值超参

Layer 2: Query 级动态重加权

过滤后，不同 query 保留的 rollout 数量不同。如果某个 query 的 4 个 rollout 被过滤掉 3 个，只剩 1 个有效样本，那这个 query 提供的更新信号就不可靠。

GD2PO 的做法：用保留比例作为该 query 的更新权重：

$$\hat{\kappa}(x) = \frac{1}{G} \sum_{n=1}^{G} \delta(y_n)$$

保留比例越低 → 更新幅度越小（保守策略）保留比例越高 → 更新幅度越大（信任信号）

论文从理论上分析了这一点：保留 rollouts 的期望和方差满足

$$\frac{|\mathbb{E}[g_\delta(x)]|}{\sqrt{\text{Var}[g_\delta(x)]}} \approx \sqrt{\kappa(x)} \frac{|\mu_x|}{\sigma_x}$$

信噪比随保留数量的平方根增长——所以低保留比例的 query 确实应该被降权。

---

三、完整目标函数

$$\mathcal{J}_{\text{GD}^2\text{PO}} = \mathbb{E}_{x, \mathcal{G}(x)} \left[ \frac{1}{G} \hat{\kappa}(x) \sum_{n=1}^{G} \frac{1}{|y_n|} \sum_{t=1}^{|y_n|} \gamma_n^{t}\left(\theta, \delta(y_n) \cdot \sum_{i=1}^{M} w_i A_n^{i}\right) \right]$$

三个关键组件： 1. $\delta(y_n)$ —— rollout 级过滤掩码 2. $\hat{\kappa}(x)$ —— query 级保留比例重加权 3. $\gamma_n^t$ —— 标准 PPO/GRPO 裁剪 surrogate

计算开销：几乎为零。只是多了符号判断和 SNR 计算，不需要额外训练参数。

---

四、实验：工具调用 + 有用性-安全性对齐

任务设置

任务	奖励维度	数据集
工具调用（双奖励）	Correctness + Length	API-Bank
工具调用（三奖励）	Correctness + Format + Length	API-Bank
有用性-安全性对齐	Useful + Harmless	HH-RLHF / PKU-SafeRLHF / Alpaca

基线

GRPO：直接求和奖励后做 group normalization
GDPO：解耦归一化后再聚合
GD2PO-Hard：硬过滤 + query 重加权
GD2PO-SNR：SNR 过滤 + query 重加权

关键结果

两奖励工具调用（Qwen2.5-3B）：

Method	Correct Acc.	Length Rew.	Overall
GRPO	61.24	0.99	1.602
GDPO	61.57	1.00	1.616
GD2PO-Hard	62.88	1.00	1.629
GD2PO-SNR	62.35	1.00	1.624

GD2PO-Hard 在 Correct Acc. 上提升 1.31-1.74 pp，且 Length Reward 保持满分——没有牺牲辅助目标。

有用性-安全性对齐（Qwen2.5-7B）：

Method	Overall Avg
GRPO	5.425
GDPO	5.600
GD2PO-Hard	5.703
GD2PO-SNR	5.667

提升 0.10-0.28，且有用性和安全性同时改善（没有此消彼长）。

三奖励工具调用：

当奖励维度增加到 3 个时，GD2PO-SNR 反超 Hard 变体。这说明：

两奖励：符号判断足够，Hard 更直接有效
三奖励+：需要 SNR 区分"轻微分歧"和"严重冲突"

消融实验

Query 级重加权的作用：

Method	Correct Acc.
GDPO	61.57
Hard w/o QR	62.51
Hard	62.88
SNR w/o QR	62.21
SNR	62.78

过滤本身就有提升（+0.6-0.9），加上 query 重加权后进一步提升（+0.3-0.5）。两者互补。

SNR 阈值敏感性：

$\tau$ 在 0.3-0.8 范围内都优于 GDPO，$\tau=0.5$ 时效果最佳。方法对阈值选择相对鲁棒。

---

五、训练动态洞察

论文分析了训练过程中的冲突比例动态：

1. 冲突普遍存在：所有模型和任务都出现非零冲突比例 2. 动态变化：有些模型冲突集中在早期快速下降，有些则持续存在或后期达到峰值 3. 维度增加 → 冲突增加：三奖励设置的早期冲突比例高于双奖励 4. 有用性-安全性冲突最持久：反映这两个目标之间的根本性张力

这些观察说明：多奖励冲突不是边缘现象，而是普遍存在的训练动态。GD2PO 的过滤机制有广泛的适用价值。

---

六、与相关工作的关系

方法	层级	策略
Reward re-weighting	全局	固定或动态调整奖励权重
Gradient coordination	梯度	对齐/平衡各维度梯度
GDPO	优势	解耦归一化，但晚聚合
GD2PO	Rollout + Query	过滤冲突样本 + 动态重加权
DAPO	Group	过滤全对/全错的 query group

GD2PO 的独特位置：在 DAPO 的动态采样思想和 GDPO 的多奖励解耦之间架桥，把"过滤低质量信号"从单奖励场景推广到多奖励场景。

---

七、局限与思考

1. 阈值超参：SNR 过滤依赖 $\tau$，虽然实验证明鲁棒，但最优值因任务而异。未来可以探索自适应阈值。

2. 过滤的代价：被过滤的 rollout 是否包含潜在有用信号？论文的 Low-Conflict Half vs High-Conflict Half 对比实验支持了过滤的有效性，但极端情况下可能过度剪枝。

3. 与 Pareto 优化的关系：GD2PO 不是寻找 Pareto 前沿，而是提升单点优化的稳定性。对于需要显式权衡的场景，可能需要与 Pareto 方法结合。

4. LLM 特定性：冲突过滤基于符号判断或 SNR，假设优势方向有意义。在更复杂的策略空间（如连续控制）中可能需要调整。

---

八、一句话总结

> GD2PO 是多奖励 RL 的「信号消噪器」——在优势聚合前拦截跨维度冲突，让模型从「噪音中的弱信号」变成「干净的强信号」中学习。

它不需要新架构、不需要额外训练参数，只是对 GDPO 流程加了两个轻量判断。但正是这两个判断，让多奖励对齐的训练效率和最终效果都上了新台阶。

---

参考文献

Liu, H., Liu, Y., Ni, J., et al. (2026). GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization. arXiv:2606.16771.

#多奖励优化 #强化学习 #LLM对齐 #Qwen #GRPO #GDPO

#强化学习 #LLM对齐 #Qwen #GRPO #GDPO #多奖励优化 #小凯

GD2PO：多奖励强化学习的「信号消噪器」

GD2PO：多奖励强化学习的「信号消噪器」

核心问题：多奖励 = 多噪音

一、GDPO 的问题：晚聚合的代价

二、GD2PO 的双层消噪架构

Layer 1: Rollout 级冲突过滤

Layer 2: Query 级动态重加权

三、完整目标函数

四、实验：工具调用 + 有用性-安全性对齐

任务设置

基线

关键结果

消融实验

五、训练动态洞察

六、与相关工作的关系

七、局限与思考

八、一句话总结

🌟 智谱 GLM-5 已上线