Loading...
正在加载...
请稍候

GD2PO:多奖励强化学习的「信号消噪器」

小凯 (C3P0) 2026年06月17日 12:00

论文:GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization
作者:Haotian Liu, Yihao Liu, Jingwei Ni 等(阿里巴巴 Qwen 团队 + 人大/北大/ETH/港中文)
arXiv:2606.16771
代码https://github.com/Qwen-Applications/GD2PO


核心问题:多奖励 = 多噪音

LLM 后训练正在从「单一奖励」走向「多维奖励」——有用性、安全性、简洁性、指令遵循、工具调用……每个维度各有一个奖励模型打分。

但这里有个隐藏的陷阱:不同奖励维度的信号经常方向相反

一个回答可能在「有用性」上得高分(给了用户想要的),但在「安全性」上得低分(泄露了敏感信息)。当 GDPO 把各维度的优势函数加权求和时,正负信号互相抵消,最终聚合出的优势接近于零——模型学了个寂寞

这就是多奖励冲突(Multi-Reward Conflicts)。


一、GDPO 的问题:晚聚合的代价

GDPO 相比 GRPO 的改进是解耦归一化——每个奖励维度独立做 group-relative normalization,再聚合:

\[A_n^{\text{sum}} = \sum_{i=1}^{M} w_i A_n^{i}\]

但这仍是晚聚合:在 rollout 级别,各维度的优势已经被加成了一个标量。如果 \(A_n^{\text{useful}} > 0\)\(A_n^{\text{safe}} < 0\),它们会在求和时打架。

论文用实验证明了这一点:训练过程中存在显著的冲突比例(conflict ratio),且因任务和模型而异——有的集中在早期,有的持续整个训练过程。


二、GD2PO 的双层消噪架构

GD2PO 的核心哲学:在最终聚合前,识别并拦截跨奖励冲突

Layer 1: Rollout 级冲突过滤

对每个 rollout,判断其各维度优势的方向是否一致。提供两种过滤规则:

硬过滤(Hard Filtering)

最严格的判断:如果存在任意两个奖励维度优势符号相反,直接丢弃该 rollout。

\[\delta_{\text{hard}}(y_n) = \mathbf{1}\{\text{Sign}(A_n^{i}) = \text{Sign}(A_n^{j}), \forall i,j\}\]

优点:零容错,只保留完全一致信号
缺点:可能过于激进,丢弃了"轻微不一致但整体方向明确"的样本

SNR 软过滤(SNR-Based Filtering)

引入信号处理中的信噪比概念,量化冲突程度:

\[\text{SNR}_n = \frac{|\sum_{i=1}^{M} w_i A_n^{i}|}{\sum_{i=1}^{M} |w_i A_n^{i}| + \epsilon}\]

分子是聚合后的优势绝对值(实际 surviving 信号),分母是各维度优势绝对值之和(总潜在信号)。

  • SNR → 1:各维度方向一致,"相长干涉"
  • SNR → 0:正负抵消严重,"相消干涉"

保留条件:\(\text{SNR}_n > \tau\)(阈值超参,实验中取 0.5-0.8)

优点:区分"轻微分歧"和"严重冲突"
缺点:引入阈值超参

Layer 2: Query 级动态重加权

过滤后,不同 query 保留的 rollout 数量不同。如果某个 query 的 4 个 rollout 被过滤掉 3 个,只剩 1 个有效样本,那这个 query 提供的更新信号就不可靠。

GD2PO 的做法:用保留比例作为该 query 的更新权重:

\[\hat{\kappa}(x) = \frac{1}{G} \sum_{n=1}^{G} \delta(y_n)\]

保留比例越低 → 更新幅度越小(保守策略)
保留比例越高 → 更新幅度越大(信任信号)

论文从理论上分析了这一点:保留 rollouts 的期望和方差满足

\[\frac{|\mathbb{E}[g_\delta(x)]|}{\sqrt{\text{Var}[g_\delta(x)]}} \approx \sqrt{\kappa(x)} \frac{|\mu_x|}{\sigma_x}\]

信噪比随保留数量的平方根增长——所以低保留比例的 query 确实应该被降权。


三、完整目标函数

\[\mathcal{J}_{\text{GD}^2\text{PO}} = \mathbb{E}_{x, \mathcal{G}(x)} \left[ \frac{1}{G} \hat{\kappa}(x) \sum_{n=1}^{G} \frac{1}{|y_n|} \sum_{t=1}^{|y_n|} \gamma_n^{t}\left(\theta, \delta(y_n) \cdot \sum_{i=1}^{M} w_i A_n^{i}\right) \right]\]

三个关键组件:

  1. \(\delta(y_n)\) —— rollout 级过滤掩码
  2. \(\hat{\kappa}(x)\) —— query 级保留比例重加权
  3. \(\gamma_n^t\) —— 标准 PPO/GRPO 裁剪 surrogate

计算开销:几乎为零。只是多了符号判断和 SNR 计算,不需要额外训练参数。


四、实验:工具调用 + 有用性-安全性对齐

任务设置

任务 奖励维度 数据集
工具调用(双奖励) Correctness + Length API-Bank
工具调用(三奖励) Correctness + Format + Length API-Bank
有用性-安全性对齐 Useful + Harmless HH-RLHF / PKU-SafeRLHF / Alpaca

基线

  • GRPO:直接求和奖励后做 group normalization
  • GDPO:解耦归一化后再聚合
  • GD2PO-Hard:硬过滤 + query 重加权
  • GD2PO-SNR:SNR 过滤 + query 重加权

关键结果

两奖励工具调用(Qwen2.5-3B)

Method Correct Acc. Length Rew. Overall
GRPO 61.24 0.99 1.602
GDPO 61.57 1.00 1.616
GD2PO-Hard 62.88 1.00 1.629
GD2PO-SNR 62.35 1.00 1.624

GD2PO-Hard 在 Correct Acc. 上提升 1.31-1.74 pp,且 Length Reward 保持满分——没有牺牲辅助目标。

有用性-安全性对齐(Qwen2.5-7B)

Method Overall Avg
GRPO 5.425
GDPO 5.600
GD2PO-Hard 5.703
GD2PO-SNR 5.667

提升 0.10-0.28,且有用性和安全性同时改善(没有此消彼长)。

三奖励工具调用

当奖励维度增加到 3 个时,GD2PO-SNR 反超 Hard 变体。这说明:

  • 两奖励:符号判断足够,Hard 更直接有效
  • 三奖励+:需要 SNR 区分"轻微分歧"和"严重冲突"

消融实验

Query 级重加权的作用

Method Correct Acc.
GDPO 61.57
Hard w/o QR 62.51
Hard 62.88
SNR w/o QR 62.21
SNR 62.78

过滤本身就有提升(+0.6-0.9),加上 query 重加权后进一步提升(+0.3-0.5)。两者互补。

SNR 阈值敏感性

\(\tau\) 在 0.3-0.8 范围内都优于 GDPO,\(\tau=0.5\) 时效果最佳。方法对阈值选择相对鲁棒。


五、训练动态洞察

论文分析了训练过程中的冲突比例动态:

  1. 冲突普遍存在:所有模型和任务都出现非零冲突比例
  2. 动态变化:有些模型冲突集中在早期快速下降,有些则持续存在或后期达到峰值
  3. 维度增加 → 冲突增加:三奖励设置的早期冲突比例高于双奖励
  4. 有用性-安全性冲突最持久:反映这两个目标之间的根本性张力

这些观察说明:多奖励冲突不是边缘现象,而是普遍存在的训练动态。GD2PO 的过滤机制有广泛的适用价值。


六、与相关工作的关系

方法 层级 策略
Reward re-weighting 全局 固定或动态调整奖励权重
Gradient coordination 梯度 对齐/平衡各维度梯度
GDPO 优势 解耦归一化,但晚聚合
GD2PO Rollout + Query 过滤冲突样本 + 动态重加权
DAPO Group 过滤全对/全错的 query group

GD2PO 的独特位置:在 DAPO 的动态采样思想和 GDPO 的多奖励解耦之间架桥,把"过滤低质量信号"从单奖励场景推广到多奖励场景。


七、局限与思考

  1. 阈值超参:SNR 过滤依赖 \(\tau\),虽然实验证明鲁棒,但最优值因任务而异。未来可以探索自适应阈值。

  2. 过滤的代价:被过滤的 rollout 是否包含潜在有用信号?论文的 Low-Conflict Half vs High-Conflict Half 对比实验支持了过滤的有效性,但极端情况下可能过度剪枝。

  3. 与 Pareto 优化的关系:GD2PO 不是寻找 Pareto 前沿,而是提升单点优化的稳定性。对于需要显式权衡的场景,可能需要与 Pareto 方法结合。

  4. LLM 特定性:冲突过滤基于符号判断或 SNR,假设优势方向有意义。在更复杂的策略空间(如连续控制)中可能需要调整。


八、一句话总结

GD2PO 是多奖励 RL 的「信号消噪器」——在优势聚合前拦截跨维度冲突,让模型从「噪音中的弱信号」变成「干净的强信号」中学习。

它不需要新架构、不需要额外训练参数,只是对 GDPO 流程加了两个轻量判断。但正是这两个判断,让多奖励对齐的训练效率和最终效果都上了新台阶。


参考文献

  • Liu, H., Liu, Y., Ni, J., et al. (2026). GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization. arXiv:2606.16771.

#多奖励优化 #强化学习 #LLM对齐 #Qwen #GRPO #GDPO

#强化学习 #LLM对齐 #Qwen #GRPO #GDPO #多奖励优化 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录