Beyond Pairs：基于有向无环偏好图的 Direct Preference Optimization 推广

> 2026 年 5 月，Liu 等人揭示了标准 DPO 在处理多 rollout 偏好数据时的结构性信息损失，并提出了 GraphDPO。该框架将成对比较推广至有向无环偏好图，通过 Plackett-Luce 启发的图结构目标函数聚合图邻域监督，强制传递性约束，同时通过等价类构造处理质量相同的响应。尽管利用全图结构，GraphDPO 通过高效的 log-sum-exp 聚合保持线性 per-prompt 复杂度。实验表明，GraphDPO 在推理和程序合成任务上全面优于标准 DPO 和列表排序方法。

---

1. 背景：DPO 的信息瓶颈

1.1 多 Rollout 场景的数据结构

实际对齐训练中，每个 prompt 通常产生多个 rollout：

$$\{y_1, y_2, \ldots, y_N\} \sim \pi_{\text{ref}}(\cdot | x)$$

这些响应天然形成全序或偏序关系。

1.2 标准 DPO 的信息损失

DPO 将多 rollout 数据折叠为独立成对比较：

原始结构	DPO 处理	信息损失
全序/偏序	C(N,2) 个独立对	传递性约束丢失
等价关系（质量相同）	强制胜负判定	虚假梯度引入
全局一致性	局部成对优化	冲突可能

> 具体示例：8 个 rollouts 产生 28 个成对比较，但传递性（A>B>C → A>C）被显式丢弃。

---

2. GraphDPO：方法

2.1 偏好图构造

图元素	定义	语义
节点	$V = \{y_1, \ldots, y_N\}$	候选响应
有向边	$(y_i, y_j) \in E$ iff $y_i \succ y_j$	支配关系
传递闭包	自动蕴含	逻辑一致性
等价类	$\{y_i : y_i \sim y_j\}$	质量相同的响应

2.2 图结构优化目标

GraphDPO 优化 Plackett-Luce 启发的图目标：

$$\mathcal{L}_{\text{GraphDPO}} = -\sum_{(i,j) \in E} \log \sigma\left(\beta \log \frac{\pi_\theta(y_i|x)}{\pi_{\text{ref}}(y_i|x)} - \beta \log \frac{\pi_\theta(y_j|x)}{\pi_{\text{ref}}(y_j|x)}\right)$$

> 与 DPO 的兼容性：当图为链式结构（仅相邻比较）时，GraphDPO 退化为标准 DPO。

2.3 等价类构造

关系类型	图表示	损失处理
严格偏好 $y_i \succ y_j$	层间有向边	正常损失
等价 $y_i \sim y_j$	层内无向边/同层	零损失

> 关键设计：防止质量相同响应之间的虚假梯度。

2.4 计算效率

通过 log-sum-exp 技巧实现高效聚合：

方法	Per-prompt 复杂度	空间复杂度
全图暴力	$O(N^2)$	$O(N^2)$
GraphDPO	$O(N)$	$O(N)$

> 线性复杂度：尽管利用全图结构，通过邻域聚合的数学技巧保持线性。

---

3. Ground-Truth 锚定与退火调度

3.1 训练不稳定性问题

早期训练中，低质量 rollouts 占主导，排序信号噪声大。

3.2 锚定机制

组件	功能
验证解插入	将 ground-truth 解作为图中最优节点
退火调度	早期强锚定，逐步放松

训练阶段	锚定强度	监督来源
早期	高	主要依赖验证解
中期	中	混合
晚期	低	主要依赖模型自主排序

---

4. 实验结果

4.1 任务配置

任务	领域	评估重点
推理任务	数学/逻辑	正确性
程序合成	代码生成	功能正确性 + 效率

4.2 性能对比

方法	相对表现	信息利用
标准 DPO	基准	成对，无传递性
列表排序	稍好	列表级，部分传递性
GraphDPO	最优	全图，完整传递性

4.3 消融分析

组件	贡献
图结构（vs 成对）	显著
等价类构造	中等
Ground-truth 锚定	训练稳定性

---

5. 理论分析

5.1 信息论视角

标准 DPO 的信息量：

$$I_{\text{DPO}} = \sum_{\text{pairs}} I(y_w \succ y_l)$$

GraphDPO 的信息量：

$$I_{\text{GraphDPO}} = I_{\text{DPO}} + I_{\text{transitivity}} + I_{\text{equivalence}}$$

> 信息增益：传递性约束和等价关系提供了额外的结构化信息。

5.2 优化稳定性

GraphDPO 的图结构提供了额外的正则化：

传递性约束防止循环偏好（A>B>C>A）
等价类消除虚假梯度方向
邻域聚合降低单对噪声的影响

---

6. 与相关工作的联系

6.1 与 Rubric-Grounded RL（Round 19）

Rubric-Grounded RL 用多维评分替代二元奖励。GraphDPO 用图结构替代成对比较——两者都从"更丰富的数据结构"中获得优势。

6.2 与 ExpThink（Round 25）

ExpThink 追踪个人最佳作为动态标准。GraphDPO 的偏好图可以整合这些个人最佳作为主导节点。

6.3 与 Prune-OPD（Round 18）

Prune-OPD 根据兼容性截断蒸馏轨迹。GraphDPO 可以整合兼容性作为边权重——高兼容性对之间的偏好关系更可靠。

---

7. 局限性与未来方向

7.1 动态图更新

当前偏好图基于静态排序。探索在线更新：

随着模型能力提升重新评估 rollout 质量
增量更新图结构而非重建

7.2 与在线 RL 的整合

GraphDPO 目前主要用于离线数据。与在线 RL 结合：

PPO/GRPO 中的实时图构建
探索-利用权衡在图结构中的形式化

7.3 多维偏好图

当偏好涉及多维度（正确性、简洁性、可读性）时：

多维图结构
Pareto 最优前沿在图中的表示

7.4 不确定性加权

整合 Round 17 的不确定性轮廓：

高不确定性 rollout 的边权重降低
形成"置信度感知"的偏好图

---

8. 结论

GraphDPO 揭示了标准 DPO 在处理多 rollout 数据时的结构性信息损失，并通过偏好图提供了原则性的解决方案。其核心贡献在于：

1. 图结构建模：捕获成对方法丢失的传递性和等价关系 2. 等价类构造：消除质量相同响应之间的虚假梯度 3. 线性复杂度：高效的 log-sum-exp 聚合 4. 退火锚定：稳定的早期训练 5. 实证优势：推理和程序合成上的性能提升

在 LLM 对齐日益依赖多 rollout 数据的背景下，GraphDPO 代表了从"成对思维"向"结构化思维"的重要演进。

---

论文详情

项目	内容
标题	Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph
作者	Ning Liu, Chuanneng Sun, Kristina Klinkner, Shervin Malmasi
arXiv ID	2605.08037
日期	2026-05-08
核心贡献	GraphDPO；图结构偏好优化；Plackett-Luce 目标；等价类构造；传递性利用；线性复杂度；退火锚定
关键结果	推理和程序合成上优于标准 DPO 和列表排序；全面利用多 rollout 偏好结构

#Research #GraphDPO #PreferenceOptimization #Alignment #Transitivity #智柴 🔬

Beyond Pairs：基于有向无环偏好图的 Direct Preference Optimization 推广

Beyond Pairs：基于有向无环偏好图的 Direct Preference Optimization 推广

1. 背景：DPO 的信息瓶颈

1.1 多 Rollout 场景的数据结构

1.2 标准 DPO 的信息损失

2. GraphDPO：方法

2.1 偏好图构造

2.2 图结构优化目标

2.3 等价类构造

2.4 计算效率

3. Ground-Truth 锚定与退火调度

3.1 训练不稳定性问题

3.2 锚定机制

4. 实验结果

4.1 任务配置

4.2 性能对比

4.3 消融分析

5. 理论分析

5.1 信息论视角

5.2 优化稳定性

6. 与相关工作的联系

6.1 与 Rubric-Grounded RL（Round 19）

6.2 与 ExpThink（Round 25）

6.3 与 Prune-OPD（Round 18）

7. 局限性与未来方向

7.1 动态图更新

7.2 与在线 RL 的整合

7.3 多维偏好图

7.4 不确定性加权

8. 结论

论文详情

🌟 智谱 GLM-5 已上线