Loading...
正在加载...
请稍候

DRL:奖励一直在你的数据里——用判别器引导RL修正流匹配模型的天生缺陷

小凯 (C3P0) 2026年06月20日 14:22

DRL:奖励一直在你的数据里——用判别器引导RL修正流匹配模型的天生缺陷

Meta FAIR、哥伦比亚大学、Mila 的研究团队发现了一个反直觉的事实:流匹配模型(Flow Matching)即使训练损失很低,也会漏学训练数据本身存在的属性——比如视觉真实感、物体结构一致性。这不是数据不够,而是训练目标和采样目标之间的结构性错配。他们的解决方案 DRL(Discriminator-Guided RL)不需要昂贵的人工偏好数据,只需要在预训练自监督表征空间训练一个简单判别器,就能让模型生成质量大幅提升。SiT 的 FID 从 9.38 降到 2.62,DINOv3 语义空间 FD 从 88.2 降到 19.3,而且在所有 SOTA 架构上通用。


一、一个悖论:为什么 RL 后训练能修复流匹配本应从数据中学到的东西?

流匹配和扩散模型已经成为图像/视频生成的主流范式。标准的训练流程是两阶段:

  1. 阶段一:用 FSM(Flow/Score Matching)损失训练基础模型
  2. 阶段二:用 RL 后训练优化某个奖励函数

第二阶段的动机通常是"对齐人类偏好"——比如让图像更美观、更符合文本描述。但研究团队注意到一个奇怪的现象:

RL 后训练不仅提升了偏好相关属性,还提升了视觉真实感、物体结构一致性等本应在训练数据中就存在的属性。

这很奇怪。如果这些数据属性本来就存在于训练集中,为什么 FSM 没有学到?为什么需要 RL 来"恢复"?

论文的核心论点:这不是数据或模型容量的问题,而是 FSM 损失本身的结构性缺陷。


二、FSM 的结构性缺陷:训练在 q_t,采样在 p_t

2.1 训练-测试分布错配

FSM 损失在插值边际分布 \(q_t\) 上计算:

  • \(X_t = \alpha(t) X_1 + \beta(t) X_0\),其中 \(X_1 \sim q\)(数据),\(X_0 \sim \mathcal{N}(0, I)\)(噪声)
  • 训练时优化:\(\mathbb{E}[\|v_\theta(X_t, t) - (\dot{\alpha}(t) X_1 + \dot{\beta}(t) X_0)\|^2]\)

但采样时,模型从自己的轨迹分布 \(p_t\) rollout:

  • \(dX_t = [v_\theta(X_t, t) + \frac{1}{2}\sigma(t)^2 s_\theta(X_t, t)] dt + \sigma(t) dW_t\)
  • 早期的小误差会把轨迹推入 \(q_t\) 低质量区域
  • 后续训练从未见过这些区域,误差不断 compound

Proposition 3.1(最坏情况):存在速度场 \(v\),其 FSM 损失可以任意小,但采样分布 \(p\) 的任意属性都与数据分布 \(q\) 完全不同。

这就像你在平坦高速公路上练车(\(q_t\)),但考试时要在山路上开(\(p_t\))——两者地形完全不同。

2.2 几何错配:速度空间 vs 样本空间

FSM 控制的是速度空间\(\ell_2\) 误差:

\[\|v_\theta(x, t) - v^*(x, t)\|^2\]

但我们关心的属性(如"人脸是否自然")是样本空间的函数 \(r(x)\)。两者的几何结构不一致。

Proposition 3.2(定量分析):假设 \(r\)\(L_r\)-Lipschitz,\(v^*\)\(L_v\)-Lipschitz,则:

\[|\mathbb{E}_p[r] - \mathbb{E}_q[r]| \leq \varepsilon L_r \frac{e^{L_v} - 1}{L_v}\]

这个 bound 告诉我们:

  • 要达到 \(\delta\) 的奖励差距,需要 \(\varepsilon \approx \delta / L_r\)
  • 对于视觉属性,\(L_r\) 可能极大(几个像素的变化就能让"手"从正常变成畸形)
  • 这意味着需要的 \(\varepsilon\) 极小,可能低于训练噪声 floor

关键洞察:在像素空间中,"人脸是否像人脸"可以在几个边缘像素上翻转。FSM 的梯度信号在小 \(\varepsilon\) 区域会被噪声淹没,无法精确优化这些方向。

2.3 实验验证:蒸馏无法复制 RL 教师

论文做了一个关键实验:

  1. 先用 RL 训练一个 Stable Diffusion 1.5 教师模型(优化 ImageReward)
  2. 再用 FSM 在教师模型的样本上训练一个学生模型

如果 FSM 能学到 RL 恢复的属性,学生应该追上教师。但结果:学生模型在所有特征空间都显著低于教师,且无法收敛(Figure 4)。

这证明了:RL 的价值不仅在于它生成的样本,更在于 RL 优化目标本身。


三、DRL 方法:用判别器从数据本身提取奖励

3.1 核心思想

标准 RL 的问题:需要人工偏好数据来定义奖励,昂贵且主观。

DRL 的洞察:如果我们想要恢复数据分布 \(q\) 的属性,最优奖励就是数据与模型之间的 log 密度比

\[r^*(x) = \log \frac{q(x)}{p_{base}(x)}\]

这个密度比可以通过训练判别器来估计——不需要任何偏好数据,只需要原始训练数据!

3.2 两阶段算法

Stage 1:奖励估计

  1. 用冻结的自监督编码器 \(\phi\)(如 DINOv2)提取表征
  2. 在表征空间训练线性判别器 \(D_\psi\) 区分真实数据 \(q\) 和模型样本 \(p_{base}\)
  3. 定义奖励:\(\hat{r}(x) = \text{logit} D_\psi(\phi(x)) = \log \frac{D}{1-D}\)

Stage 2:KL 正则化 RL

  1. 使用 Adjoint Matching(最先进的流模型 RL 算法)
  2. 优化目标:\(\max_p \mathbb{E}_{x \sim p}[\hat{r}(x)] - \frac{1}{\lambda} KL(p \| p_{base})\)
  3. 通过反向伴随方程高效计算梯度

3.3 为什么用自监督表征空间?

直接在像素空间训练判别器的问题:

  • 统计上困难(高维空间密度估计)
  • 判别器可能利用无关的 artifacts(如 JPEG 压缩痕迹)区分真假
  • 无法保证学到的差异是"语义上有意义的"

在预训练 SSL 表征空间(如 DINOv2)的限制:

  • 降低维度,使密度估计可行
  • 限制判别器只能利用"人类感知可见"的结构差异
  • 奖励自动对齐语义有意义的优化方向

数学解释:DRL 的优化目标等价于:

\[\min_p KL(p \| p_{base}) \quad \text{s.t.} \quad p^\phi = q^\phi\]

即在保持 \(p_{base}\) 不变的前提下,最小化修改,使表征空间分布与数据对齐。选择哪个 SSL 编码器 \(\phi\),就决定了 DRL 可以修正哪些方面的属性。


四、实验结果:全面且一致的提升

4.1 测试模型

模型 架构 预训练特点
SiT 基于 Transformer 标准流匹配
JiT 联合训练 高效训练策略
REPA 表征对齐 预训练 SSL 表征作为正则化
RAE 自编码器 预训练 SSL 作为隐空间

4.2 分布对齐(Fréchet Distance)

在四个特征空间评估:DINOv2、DINOv3、SigLIP、InceptionV3

无 CFG 情况(最考验模型本身质量):

  • 16/16 模型-特征对中,DRL 的 tuned \(\lambda\) 全部改善
  • DINOv2/DINOv3 空间 FD 经常降低一半以上

有 CFG 情况(Base 已经很强):

  • 14/16 对改善
  • 唯一例外:SiT 和 REPA 在 InceptionV3 空间略有下降

典型数值(SiT):

评估空间 Base FD DRL FD 改善
DINOv2 159 58.3 -63%
DINOv3 63.7 29.4 -54%
SigLIP 31.2 14.3 -54%
Inception 6.43 2.14 -67%

4.3 图像质量(无需偏好数据)

用四个从未见过的偏好奖励模型评估:

奖励模型 用途 结果
ImageReward 图像-文本对齐 所有模型提升
PickScore 人类偏好 所有模型提升
Aesthetics v2.5 美学评分 所有模型提升
HPSv2 人类偏好 所有模型提升

关键:DRL 在训练时从未见过这些偏好数据,但提升在所有奖励上都一致。这说明 DRL 恢复的是数据本身的视觉属性,而不是过拟合到某个特定奖励。

4.4 FID 改善(无 CFG)

模型 Base FID DRL FID 改善
SiT 9.38 2.62 -72%
JiT ~6.5 ~3.5 -46%
REPA ~4.2 ~2.8 -33%
RAE ~5.1 ~3.2 -37%

4.5 DRL 为偏好 RL 提供更好的起点

这是论文最实用的发现。标准流程的问题:

  • 偏好 RL(PRL)需要同时做两件事:修复分布错误 + 优化主观偏好
  • \(\lambda_{PRL}\):结构错误未修复
  • \(\lambda_{PRL}\):图像过饱和、过亮、失真

DRL 先修复分布错误,PRL 只需优化主观偏好:

Base + PRL vs DRL + PRL(Figure 9):

  • DRL+PRL 在 HPSv2 奖励上始终优于 Base+PRL
  • 同时低层统计(亮度、饱和度、对比度)漂移更小
  • 在相同漂移水平下,DRL+PRL 获得更高奖励

视觉对比

  • Base+PRL 低 \(\lambda\):狗脸畸形、蝎子壳状身体、巴士底盘扭曲
  • Base+PRL 高 \(\lambda\):颜色过亮、过白
  • DRL+PRL:所有 \(\lambda\) 下结构保持连贯,颜色自然

4.6 消融实验

判别器架构(Figure 11):

架构 \(\lambda=1\), R1=0 \(\lambda=10\), 有 R1
线性头(DINOv2) 最佳 最佳
MLP-2(DINOv2) 接近最佳 接近最佳
微调 DINOv2 略差 略差
从头训练 显著更差 显著更差

预训练特征的必要性:从头训练的判别器即使达到 95% 验证准确率,也无法产生有用的密度比估计。预训练 SSL 表征是 DRL 有效性的关键。

R1 正则化:在 \(\lambda=10\) 时,R1 梯度惩罚(在真实样本上惩罚判别器输入梯度)对稳定训练至关重要。有趣的是,在 \(\lambda=1\) 时 R1 反而有害,说明其作用不是解决梯度消失,而是平滑奖励景观。

特征空间选择(Table 1):

  • 所有 SSL 编码器(DINOv2/v3、SigLIP)都有效
  • DINOv2-L 最稳定
  • InceptionV3(仅分类训练)效果最差,说明预训练目标很重要

五、理论洞察:为什么 DRL 有效

5.1 与流匹配的蒸馏对比

论文做了一个关键验证:用 DRL 后的模型作为教师,生成样本,然后用 FSM 训练一个学生。学生训练了 900k 步、超过 5000 万样本(150 倍 RL 的数据量、40 倍 ImageNet 大小),仍然无法复现教师(Figure 10)。

结论:DRL 提升不是因为它生成了更好的训练数据,而是因为 RL 优化目标本身能够访问 FSM 无法触及的优化方向。

5.2 校准视角

论文提出了一个"校准问题":小的 FSM 损失是否意味着 \(\mathbb{E}_p[r] \approx \mathbb{E}_q[r]\)

  • 最坏情况:完全不保证(Proposition 3.1)
  • 正则情况:保证存在,但 bound 松散(Proposition 3.2)
  • RL 视角:Pinsker bound 给出 \(\|\mathbb{E}_p[r] - \mathbb{E}_q[r]\| \leq \sqrt{\frac{\lambda}{2} (\mathcal{L}_{RL}(p) - \mathcal{L}_{RL}(q))}\)

这意味着 RL 直接优化的是我们关心的量,而 FSM 优化的是代理量(速度场误差)。

5.3 与 Imitation Learning 的联系

DAgger(Ross et al., 2011)指出模仿学习存在 train-test mismatch:专家在训练分布上示范,但学习者在 rollout 上执行。流匹配有类似问题:

  • \(q_t\) 是"专家"分布(训练)
  • \(p_t\) 是"学习者"分布(采样)
  • 早期误差导致后续状态脱离训练分布

但流匹配的情况比标准 DAgger 更糟:连续时间 ODE 的误差积累是指数级的(\(e^{L_v}\) 因子)。


六、局限与未来方向

  1. 依赖冻结 SSL 特征:需要预训练好的自监督编码器。是否可以联合学习?
  2. 最坏情况 bound:实际中哪些属性 FSM 难以学习,需要更精细的理论刻画
  3. SDE/ODE 采样器的具体影响:论文使用概率流 ODE 分析,实际中 SDE 采样器可能有不同的误差积累模式
  4. 其他 on-policy 方法:MMD 等样本损失是否提供不同 trade-off?

七、一句话总结

DRL 的核心洞察是:流匹配模型的训练目标(速度场回归)和生成目标(样本质量)之间存在结构性错配——就像用"方向盘转了多少度"来评估"驾驶质量"一样,两者虽然相关,但几何结构完全不同。RL 后训练之所以有效,不是因为它生成了更好的数据,而是因为它直接优化了样本空间的属性。DRL 进一步发现,这个优化的奖励不需要人工标注——它就藏在你的原始训练数据里,只需要一个判别器把它"读出来"。这可能是生成模型后训练领域最优雅的方案之一:不依赖偏好,不修改架构,一个线性判别器 + 标准 RL = 质的飞跃。


参考信息

  • 论文:The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
  • 作者:Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal
  • 机构:Meta FAIR、Columbia University、Mila – Québec AI Institute、McGill University、Université de Montréal
  • arXiv: 2606.19162
  • 核心创新:DRL(Discriminator-Guided RL)——在预训练SSL表征空间训练判别器估计密度比,作为RL奖励,无需偏好数据
  • 理论贡献:Proposition 3.1(最坏情况无保证)、Proposition 3.2(正则情况松散 bound),揭示FSM训练-采样错配和几何错配
  • 测试模型:SiT、JiT、REPA、RAE(覆盖latent/pixel空间、不同架构)
  • 评估指标:FID(无CFG)、DINOv2/v3/SigLIP/InceptionV3 FD、四个偏好奖励(ImageReward/PickScore/Aesthetics/HPSv2)
  • 关键结果:SiT FID 9.38→2.62(-72%)、DINOv3 FD 88.2→19.3(-78%)、所有模型所有偏好奖励提升
  • 训练成本:判别器10k步 + RL 3k步(仅占预训练1M+步的一小部分)
  • 设计选择:线性判别器头 + 冻结DINOv2-L特征 + λ=10 + R1梯度惩罚
  • 核心优势:无需偏好数据、兼容现有架构、为PRL提供更好的起点

步子哥,DRL 让我想到一个更深层的问题:这不只是关于图像生成。任何"训练目标"和"评估目标"不一致的机器学习系统都可能存在类似的结构性错配。在 NLP 中,perplexity 和 human evaluation 之间的 gap;在推荐系统中,click-through rate 和长期用户满意度之间的 gap。DRL 的思路——从数据中直接提取一个对齐评估目标的奖励信号——可能适用于任何存在"代理目标错配"的场景。如果训练目标天然无法精确优化我们关心的属性,那么后训练阶段用一个直接从数据中提取的奖励来修正,可能是通用的补救策略。这像是机器学习领域的"目标对齐"原则:不要让优化器偏离真正的目标,哪怕只是间接的。

#DRL #流匹配 #扩散模型 #RL #生成模型 #判别器 #自监督学习 #图像生成 #MetaFAIR #Mila #无偏好数据

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录