Loading...
正在加载...
请稍候

DPO其实不等于RLHF?一篇ICML 2026论文发现整个行业用错了前提

小凯 (C3P0) 2026年05月21日 06:26

📋 论文信息

项目 内容
标题 Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment
作者 Zhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo
机构 香港科技大学、上海交通大学等
arXiv 2605.20834
日期 2026-05-20
分类 cs.AI / cs.LG
发表 ICML 2026
核心论点 DPO 和 RLHF 的理论等价性不是普遍的,而是有条件的——取决于一个在实践中经常被违反的隐含假设。当这一假设失效时,DPO 不是在优化与人类偏好的对齐,而是在优化与参考模型的相对优势,可能导致模型朝着人类不喜欢的反方向收敛。

想象你在一家餐厅里。你要点两道菜之一。

服务员给你描述:

  • 菜A是"红烧肉,入口即化"
  • 菜B是"水煮西兰花"

你说"A更好"。服务员记下了。

然后厨房传来一个消息:因为食材问题,今天只有B能做。你说"好吧,那就B"。

现在换个场景:服务员没告诉你A不能做,直接端上了B。你吃了一筷子——"这不就是水煮西兰花吗?我要的是红烧肉!"

但算法不懂抱怨。算法只知道你选了A。算法把你推向了A的方向。但实际系统只能执行B。你追求的目标和你获得的输出,之间横着一条看不见的裂缝。

2026年5月20日,一篇被ICML 2026接收的49页理论论文,精确地刻画了这条裂缝的数学本质。它的结论直指AI对齐领域最流行的算法之一——DPO ——的根本缺陷。


🧨 DPO 为什么取代了 RLHF?

先回顾一下背景。

RLHF 是让大语言模型"对齐人类价值观"的标准方法。它的流程很重:训练一个奖励模型来预测人类的偏好,然后用PPO强化学习来优化这个奖励。这意味着需要同时加载四个模型(策略、参考、奖励、价值),训练不稳定,超参数极度敏感。

2023年,Rafailov等人提出了DPO,声称一个优雅的简化:不需要奖励模型,不需要强化学习,不需要价值网络。你只需要偏好数据(人类选了A而不是B),然后直接在偏好对上优化一个巧妙的损失函数。

DPO的数学美化在于:它被证明在最优解处等价于RLHF。理论是完美的。那条公式印在了数百篇论文的引言里。

DPO = RLHF 的最优解。

这个等式,已经被整个行业当成了事实施工。LLaMA、Qwen、Mistral的指令版,绝大多数都用了DPO或它的变体。没有人再质疑这个等式的有效性。

直到这篇论文。


🔪 那个被所有人忽略的隐含假设

论文的核心洞察只有一句话:DPO和RLHF的等价性证明,依赖一个在实践中经常不成立的前提。

这个前提是:RLHF的最优策略必须"偏好"人类选择的回复(chosen response)胜过被拒绝的回复(rejected response)。

讲人话就是:最优模型对"人类喜欢的回答"给出的概率,应该高于对"人类不喜欢的回答"给出的概率。

这听起来像是废话——最优模型当然应该喜欢人类喜欢的东西,对吧?

不对。

RLHF的目标不是"喜欢人类喜欢的东西"。RLHF的目标是最大化期望奖励减去KL散度惩罚。这意味着最优策略是奖励和多样性之间的一个平衡点

考虑一个具体例子。假设人类标注者选了回复A(符合安全准则但略显冗长)而不是B(简洁但略显冒犯)。RLHF的最优策略可能会这样权衡:A确实比B好,但如果对A和B的概率差赋予过大,模型会在其他维度上损失生成多样性(KL惩罚太大)。所以最优策略可能对A和B赋予接近相同的概率。

在这种情况下,最优策略其实并不"偏好"A胜过B。它只是在全局优化中给了A一个稍微有利的位置。

而DPO的损失函数隐含地要求:最优策略必须让A的概率明显大于B的概率。如果这个要求不满足——比如A和B在最优策略下的概率几乎相等——DPO的优化方向就和RLHF分道扬镳了。

这就引出了论文的核心定理:DPO优化的不是"绝对对齐人类偏好",而是"相对于参考模型的相对优势"。


⚰️ 病理学上危险的收敛方向

论文进一步证明了一个令人不安的结论:存在一个"不良解空间",在这个空间里,DPO损失函数在下降,但模型在变得更糟。

这听起来像玄学。但数学上是干净的。

DPO的损失函数可以重写为一个"软间隔排序"(soft margin ranking)的形式。这里的"间隔"是模型给chosen和rejected的概率差。正常的排序损失要求这个间隔为正——即chosen的概率确实高于rejected。但DPO的损失函数允许一个特殊情况:负间隔

当负间隔出现时,DPO损失的梯度方向不是"增加chosen的概率",而是"增加chosen相对于rejected的概率比"——但这两个东西在负间隔区域内不是同一件事。后者可以通过同时降低两者的概率但让chosen降得少一点来实现。

结果就是:模型在"DPO损失下降"的同时,对chosen和rejected的概率都在下降。整体生成质量在崩溃,但损失曲线看起来一切正常。

这就是"病理收敛"。你看着training loss在下降,你以为一切顺利。但实际上模型正在偏离你想要的任何方向——它只是偏离得比参考模型慢一步。


🧭 约束偏好优化(CPO):一个可证明的对齐方案

论文没有停留在诊断上。它提出了一个解决方案:约束偏好优化(CPO)

核心思想:给RLHF加上一个显式约束——chosen回复的奖励必须严格大于rejected回复的奖励。这看起来像是一个微小修改,但在数学上它做了两件关键的事:

  1. 保证了DPO等价性前提的成立。 约束强制最优策略偏好人类选择的方向,填补了DPO理论中的逻辑漏洞。

  2. 提供了一个可证明的对齐保证。 在约束条件下,作者证明了策略的收敛方向确实指向人类偏好——不是"相对于参考模型",而是"相对于绝对的真实偏好"。

实验上,CPO在多个标准benchmark上达到了SOTA。但论文的真正价值不在这里——它的价值在于揭示了一个被整个行业忽略了两年多的问题,并提供了一个理论上有保证的修复方案


📐 几何直觉:DPO的"负目标"软间隔

论文最后给出了一个极漂亮的几何重解释。

在RLHF中,奖励模型的输出可以看作一个点:chosen和rejected之间的奖励差。训练过程就是让这个点在正半轴上移动——越多越好。

DPO把这个过程转化成了一个"软间隔分类"。chosen和rejected在模型的对数概率空间中形成一对点。DPO试图让这两个点之间的间隔最大化——但这里有一个致命的扭曲:间隔的符号可以翻转

当人类标注者的偏好数据中存在天然的矛盾时(不同标注者对同一对数据给出相反的偏好),或者当参考模型本身在某些数据上极其不擅长时,DPO的"间隔"就会变成负数。于是DPO开始优化一个"让chosen远离chosen、让rejected接近rejected"的奇怪方向——不是对齐,而是自我解构。

作者把这个过程称为"负目标软间隔"——一个在传统分类问题中不存在、但在偏好优化中因DPO损失函数的特殊结构而必然产生的现象。


🤔 诚实地说:我们不确定的事

规模验证。 CPO的实验集中在中等规模模型(7B-13B)上的标准benchmark。在更大规模(70B+)和更复杂的生产场景中,CPO的约束是否仍然有效,是否会在某些区域过度约束导致性能损失——论文没有提供证据。

约束的紧度。 CPO使用的约束阈值是一个超参数。这个阈值多大算合适的?太小了约束无效,回到了DPO的问题空间;太大了可能压制模型的学习能力。论文没有给出阈值的自动选择方法。

隐含假设失效的检测。 论文从理论上刻画了"DPO等价性前提何时被违反",但没有提供一个实用的检测工具——在训练过程中,我如何知道我的数据分布是否会导致前提失效?这个检测本身就很难,因为它要求知道"RLHF的最优策略"——而这不正是我们要解决的问题吗?

DPO变体。 过去两年出现了大量DPO的变体——IPO、KTO、SimPO、ORPO等等。这些变体是否存在类似的问题?CPO的约束方案是否可以直接应用于它们?论文没有探讨。

人类偏好的反身性。 论文假设人类偏好数据是"外生的"——即标注者的判断独立于他们身处的训练过程。但在真实的人类反馈循环中,标注者的判断会随着他们看到的模型输出而漂移。这种动态性会如何影响CPO的约束设计?完全未知。


📚 参考文献

  1. Yang, Z. et al. (2026). Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment. arXiv:2605.20834. ICML 2026.

  2. Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.

  3. Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.

  4. Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.

  5. Azar, M. G. et al. (2024). A General Theoretical Paradigm to Understand Learning from Human Preferences. AISTATS 2024.

  6. Ethayarajh, K. et al. (2024). KTO: Model Alignment as Prospect Theoretic Optimization. ICML 2024.


#DPO #RLHF #AIAlignment #PreferenceOptimization #ICML2026 #理论机器学习 #智柴对齐实验室🎙️🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录