DRL：奖励一直在你的数据里——用判别器引导RL修正流匹配模型的天生缺陷

> Meta FAIR、哥伦比亚大学、Mila 的研究团队发现了一个反直觉的事实：流匹配模型（Flow Matching）即使训练损失很低，也会漏学训练数据本身存在的属性——比如视觉真实感、物体结构一致性。这不是数据不够，而是训练目标和采样目标之间的结构性错配。他们的解决方案 DRL（Discriminator-Guided RL）不需要昂贵的人工偏好数据，只需要在预训练自监督表征空间训练一个简单判别器，就能让模型生成质量大幅提升。SiT 的 FID 从 9.38 降到 2.62，DINOv3 语义空间 FD 从 88.2 降到 19.3，而且在所有 SOTA 架构上通用。

---

一、一个悖论：为什么 RL 后训练能修复流匹配本应从数据中学到的东西？

流匹配和扩散模型已经成为图像/视频生成的主流范式。标准的训练流程是两阶段：

1. 阶段一：用 FSM（Flow/Score Matching）损失训练基础模型 2. 阶段二：用 RL 后训练优化某个奖励函数

第二阶段的动机通常是"对齐人类偏好"——比如让图像更美观、更符合文本描述。但研究团队注意到一个奇怪的现象：

RL 后训练不仅提升了偏好相关属性，还提升了视觉真实感、物体结构一致性等本应在训练数据中就存在的属性。

这很奇怪。如果这些数据属性本来就存在于训练集中，为什么 FSM 没有学到？为什么需要 RL 来"恢复"？

论文的核心论点：这不是数据或模型容量的问题，而是 FSM 损失本身的结构性缺陷。

---

二、FSM 的结构性缺陷：训练在 q_t，采样在 p_t

2.1 训练-测试分布错配

FSM 损失在插值边际分布 $q_t$ 上计算：

$X_t = \alpha(t) X_1 + \beta(t) X_0$，其中 $X_1 \sim q$（数据），$X_0 \sim \mathcal{N}(0, I)$（噪声）
训练时优化：$\mathbb{E}[\|v_\theta(X_t, t) - (\dot{\alpha}(t) X_1 + \dot{\beta}(t) X_0)\|^2]$

但采样时，模型从自己的轨迹分布 $p_t$ rollout：

$dX_t = [v_\theta(X_t, t) + \frac{1}{2}\sigma(t)^2 s_\theta(X_t, t)] dt + \sigma(t) dW_t$
早期的小误差会把轨迹推入 $q_t$ 低质量区域
后续训练从未见过这些区域，误差不断 compound

Proposition 3.1（最坏情况）：存在速度场 $v$，其 FSM 损失可以任意小，但采样分布 $p$ 的任意属性都与数据分布 $q$ 完全不同。

这就像你在平坦高速公路上练车（$q_t$），但考试时要在山路上开（$p_t$）——两者地形完全不同。

2.2 几何错配：速度空间 vs 样本空间

FSM 控制的是速度空间的 $\ell_2$ 误差： $$\|v_\theta(x, t) - v^*(x, t)\|^2$$

但我们关心的属性（如"人脸是否自然"）是样本空间的函数 $r(x)$。两者的几何结构不一致。

Proposition 3.2（定量分析）：假设 $r$ 是 $L_r$-Lipschitz，$v^*$ 是 $L_v$-Lipschitz，则： $$|\mathbb{E}_p[r] - \mathbb{E}_q[r]| \leq \varepsilon L_r \frac{e^{L_v} - 1}{L_v}$$

这个 bound 告诉我们：

要达到 $\delta$ 的奖励差距，需要 $\varepsilon \approx \delta / L_r$
对于视觉属性，$L_r$ 可能极大（几个像素的变化就能让"手"从正常变成畸形）
这意味着需要的 $\varepsilon$ 极小，可能低于训练噪声 floor

关键洞察：在像素空间中，"人脸是否像人脸"可以在几个边缘像素上翻转。FSM 的梯度信号在小 $\varepsilon$ 区域会被噪声淹没，无法精确优化这些方向。

2.3 实验验证：蒸馏无法复制 RL 教师

论文做了一个关键实验： 1. 先用 RL 训练一个 Stable Diffusion 1.5 教师模型（优化 ImageReward） 2. 再用 FSM 在教师模型的样本上训练一个学生模型

如果 FSM 能学到 RL 恢复的属性，学生应该追上教师。但结果：学生模型在所有特征空间都显著低于教师，且无法收敛（Figure 4）。

这证明了：RL 的价值不仅在于它生成的样本，更在于 RL 优化目标本身。

---

三、DRL 方法：用判别器从数据本身提取奖励

3.1 核心思想

标准 RL 的问题：需要人工偏好数据来定义奖励，昂贵且主观。

DRL 的洞察：如果我们想要恢复数据分布 $q$ 的属性，最优奖励就是数据与模型之间的 log 密度比： $$r^*(x) = \log \frac{q(x)}{p_{base}(x)}$$

这个密度比可以通过训练判别器来估计——不需要任何偏好数据，只需要原始训练数据！

3.2 两阶段算法

Stage 1：奖励估计 1. 用冻结的自监督编码器 $\phi$（如 DINOv2）提取表征 2. 在表征空间训练线性判别器 $D_\psi$ 区分真实数据 $q$ 和模型样本 $p_{base}$ 3. 定义奖励：$\hat{r}(x) = \text{logit} D_\psi(\phi(x)) = \log \frac{D}{1-D}$

Stage 2：KL 正则化 RL 1. 使用 Adjoint Matching（最先进的流模型 RL 算法） 2. 优化目标：$\max_p \mathbb{E}_{x \sim p}[\hat{r}(x)] - \frac{1}{\lambda} KL(p \| p_{base})$ 3. 通过反向伴随方程高效计算梯度

3.3 为什么用自监督表征空间？

直接在像素空间训练判别器的问题：

统计上困难（高维空间密度估计）
判别器可能利用无关的 artifacts（如 JPEG 压缩痕迹）区分真假
无法保证学到的差异是"语义上有意义的"

在预训练 SSL 表征空间（如 DINOv2）的限制：

降低维度，使密度估计可行
限制判别器只能利用"人类感知可见"的结构差异
奖励自动对齐语义有意义的优化方向

数学解释：DRL 的优化目标等价于： $$\min_p KL(p \| p_{base}) \quad \text{s.t.} \quad p^\phi = q^\phi$$

即在保持 $p_{base}$ 不变的前提下，最小化修改，使表征空间分布与数据对齐。选择哪个 SSL 编码器 $\phi$，就决定了 DRL 可以修正哪些方面的属性。

---

四、实验结果：全面且一致的提升

4.1 测试模型

模型	架构	预训练特点
SiT	基于 Transformer	标准流匹配
JiT	联合训练	高效训练策略
REPA	表征对齐	预训练 SSL 表征作为正则化
RAE	自编码器	预训练 SSL 作为隐空间

4.2 分布对齐（Fréchet Distance）

在四个特征空间评估：DINOv2、DINOv3、SigLIP、InceptionV3

无 CFG 情况（最考验模型本身质量）：

16/16 模型-特征对中，DRL 的 tuned $\lambda$ 全部改善
DINOv2/DINOv3 空间 FD 经常降低一半以上

有 CFG 情况（Base 已经很强）：

14/16 对改善
唯一例外：SiT 和 REPA 在 InceptionV3 空间略有下降

典型数值（SiT）：

评估空间	Base FD	DRL FD	改善
DINOv2	159	58.3	-63%
DINOv3	63.7	29.4	-54%
SigLIP	31.2	14.3	-54%
Inception	6.43	2.14	-67%

4.3 图像质量（无需偏好数据）

用四个从未见过的偏好奖励模型评估：

奖励模型	用途	结果
ImageReward	图像-文本对齐	所有模型提升
PickScore	人类偏好	所有模型提升
Aesthetics v2.5	美学评分	所有模型提升
HPSv2	人类偏好	所有模型提升

关键：DRL 在训练时从未见过这些偏好数据，但提升在所有奖励上都一致。这说明 DRL 恢复的是数据本身的视觉属性，而不是过拟合到某个特定奖励。

4.4 FID 改善（无 CFG）

模型	Base FID	DRL FID	改善
SiT	9.38	2.62	-72%
JiT	~6.5	~3.5	-46%
REPA	~4.2	~2.8	-33%
RAE	~5.1	~3.2	-37%

4.5 DRL 为偏好 RL 提供更好的起点

这是论文最实用的发现。标准流程的问题：

偏好 RL（PRL）需要同时做两件事：修复分布错误 + 优化主观偏好
小 $\lambda_{PRL}$：结构错误未修复
大 $\lambda_{PRL}$：图像过饱和、过亮、失真

DRL 先修复分布错误，PRL 只需优化主观偏好：

Base + PRL vs DRL + PRL（Figure 9）：

DRL+PRL 在 HPSv2 奖励上始终优于 Base+PRL
同时低层统计（亮度、饱和度、对比度）漂移更小
在相同漂移水平下，DRL+PRL 获得更高奖励

视觉对比：

Base+PRL 低 $\lambda$：狗脸畸形、蝎子壳状身体、巴士底盘扭曲
Base+PRL 高 $\lambda$：颜色过亮、过白
DRL+PRL：所有 $\lambda$ 下结构保持连贯，颜色自然

4.6 消融实验

判别器架构（Figure 11）：

架构	$\lambda=1$, R1=0	$\lambda=10$, 有 R1
线性头（DINOv2）	最佳	最佳
MLP-2（DINOv2）	接近最佳	接近最佳
微调 DINOv2	略差	略差
从头训练	显著更差	显著更差

预训练特征的必要性：从头训练的判别器即使达到 95% 验证准确率，也无法产生有用的密度比估计。预训练 SSL 表征是 DRL 有效性的关键。

R1 正则化：在 $\lambda=10$ 时，R1 梯度惩罚（在真实样本上惩罚判别器输入梯度）对稳定训练至关重要。有趣的是，在 $\lambda=1$ 时 R1 反而有害，说明其作用不是解决梯度消失，而是平滑奖励景观。

特征空间选择（Table 1）：

所有 SSL 编码器（DINOv2/v3、SigLIP）都有效
DINOv2-L 最稳定
InceptionV3（仅分类训练）效果最差，说明预训练目标很重要

---

五、理论洞察：为什么 DRL 有效

5.1 与流匹配的蒸馏对比

论文做了一个关键验证：用 DRL 后的模型作为教师，生成样本，然后用 FSM 训练一个学生。学生训练了 900k 步、超过 5000 万样本（150 倍 RL 的数据量、40 倍 ImageNet 大小），仍然无法复现教师（Figure 10）。

结论：DRL 提升不是因为它生成了更好的训练数据，而是因为 RL 优化目标本身能够访问 FSM 无法触及的优化方向。

5.2 校准视角

论文提出了一个"校准问题"：小的 FSM 损失是否意味着 $\mathbb{E}_p[r] \approx \mathbb{E}_q[r]$？

最坏情况：完全不保证（Proposition 3.1）
正则情况：保证存在，但 bound 松散（Proposition 3.2）
RL 视角：Pinsker bound 给出 $\|\mathbb{E}_p[r] - \mathbb{E}_q[r]\| \leq \sqrt{\frac{\lambda}{2} (\mathcal{L}_{RL}(p) - \mathcal{L}_{RL}(q))}$

这意味着 RL 直接优化的是我们关心的量，而 FSM 优化的是代理量（速度场误差）。

5.3 与 Imitation Learning 的联系

DAgger（Ross et al., 2011）指出模仿学习存在 train-test mismatch：专家在训练分布上示范，但学习者在 rollout 上执行。流匹配有类似问题：

$q_t$ 是"专家"分布（训练）
$p_t$ 是"学习者"分布（采样）
早期误差导致后续状态脱离训练分布

但流匹配的情况比标准 DAgger 更糟：连续时间 ODE 的误差积累是指数级的（$e^{L_v}$ 因子）。

---

六、局限与未来方向

1. 依赖冻结 SSL 特征：需要预训练好的自监督编码器。是否可以联合学习？ 2. 最坏情况 bound：实际中哪些属性 FSM 难以学习，需要更精细的理论刻画 3. SDE/ODE 采样器的具体影响：论文使用概率流 ODE 分析，实际中 SDE 采样器可能有不同的误差积累模式 4. 其他 on-policy 方法：MMD 等样本损失是否提供不同 trade-off？

---

七、一句话总结

DRL 的核心洞察是：流匹配模型的训练目标（速度场回归）和生成目标（样本质量）之间存在结构性错配——就像用"方向盘转了多少度"来评估"驾驶质量"一样，两者虽然相关，但几何结构完全不同。RL 后训练之所以有效，不是因为它生成了更好的数据，而是因为它直接优化了样本空间的属性。DRL 进一步发现，这个优化的奖励不需要人工标注——它就藏在你的原始训练数据里，只需要一个判别器把它"读出来"。这可能是生成模型后训练领域最优雅的方案之一：不依赖偏好，不修改架构，一个线性判别器 + 标准 RL = 质的飞跃。

---

参考信息

论文：The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
作者：Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal
机构：Meta FAIR、Columbia University、Mila – Québec AI Institute、McGill University、Université de Montréal
arXiv: 2606.19162
核心创新：DRL（Discriminator-Guided RL）——在预训练SSL表征空间训练判别器估计密度比，作为RL奖励，无需偏好数据
理论贡献：Proposition 3.1（最坏情况无保证）、Proposition 3.2（正则情况松散 bound），揭示FSM训练-采样错配和几何错配
测试模型：SiT、JiT、REPA、RAE（覆盖latent/pixel空间、不同架构）
评估指标：FID（无CFG）、DINOv2/v3/SigLIP/InceptionV3 FD、四个偏好奖励（ImageReward/PickScore/Aesthetics/HPSv2）
关键结果：SiT FID 9.38→2.62（-72%）、DINOv3 FD 88.2→19.3（-78%）、所有模型所有偏好奖励提升
训练成本：判别器10k步 + RL 3k步（仅占预训练1M+步的一小部分）
设计选择：线性判别器头 + 冻结DINOv2-L特征 + λ=10 + R1梯度惩罚
核心优势：无需偏好数据、兼容现有架构、为PRL提供更好的起点

---

*步子哥，DRL 让我想到一个更深层的问题：这不只是关于图像生成。任何"训练目标"和"评估目标"不一致的机器学习系统都可能存在类似的结构性错配。在 NLP 中，perplexity 和 human evaluation 之间的 gap；在推荐系统中，click-through rate 和长期用户满意度之间的 gap。DRL 的思路——从数据中直接提取一个对齐评估目标的奖励信号——可能适用于任何存在"代理目标错配"的场景。如果训练目标天然无法精确优化我们关心的属性，那么后训练阶段用一个直接从数据中提取的奖励来修正，可能是通用的补救策略。这像是机器学习领域的"目标对齐"原则：不要让优化器偏离真正的目标，哪怕只是间接的。*

#DRL #流匹配 #扩散模型 #RL #生成模型 #判别器 #自监督学习 #图像生成 #MetaFAIR #Mila #无偏好数据

DRL：奖励一直在你的数据里——用判别器引导RL修正流匹配模型的天生缺陷

DRL：奖励一直在你的数据里——用判别器引导RL修正流匹配模型的天生缺陷

一、一个悖论：为什么 RL 后训练能修复流匹配本应从数据中学到的东西？

二、FSM 的结构性缺陷：训练在 q_t，采样在 p_t

2.1 训练-测试分布错配

2.2 几何错配：速度空间 vs 样本空间

2.3 实验验证：蒸馏无法复制 RL 教师

三、DRL 方法：用判别器从数据本身提取奖励

3.1 核心思想

3.2 两阶段算法

3.3 为什么用自监督表征空间？

四、实验结果：全面且一致的提升

4.1 测试模型

4.2 分布对齐（Fréchet Distance）

4.3 图像质量（无需偏好数据）

4.4 FID 改善（无 CFG）

4.5 DRL 为偏好 RL 提供更好的起点

4.6 消融实验

五、理论洞察：为什么 DRL 有效

5.1 与流匹配的蒸馏对比

5.2 校准视角

5.3 与 Imitation Learning 的联系

六、局限与未来方向

七、一句话总结

🌟 智谱 GLM-5 已上线