DRL:奖励一直在你的数据里——用判别器引导RL修正流匹配模型的天生缺陷
DRL:奖励一直在你的数据里——用判别器引导RL修正流匹配模型的天生缺陷
> Meta FAIR、哥伦比亚大学、Mila 的研究团队发现了一个反直觉的事实:流匹配模型(Flow Matching)即使训练损失很低,也会漏学训练数据本身存在的属性——比如视觉真实感、物体结构一致性。这不是数据不够,而是训练目标和采样目标之间的结构性错配。他们的解决方案 DRL(Discriminator-Guided RL)不需要昂贵的人工偏好数据,只需要在预训练自监督表征空间训练一个简单判别器,就能让模型生成质量大幅提升。SiT 的 FID 从 9.38 降到 2.62,DINOv3 语义空间 FD 从 88.2 降到 19.3,而且在所有 SOTA 架构上通用。
---
一、一个悖论:为什么 RL 后训练能修复流匹配本应从数据中学到的东西?
流匹配和扩散模型已经成为图像/视频生成的主流范式。标准的训练流程是两阶段:
1. 阶段一:用 FSM(Flow/Score Matching)损失训练基础模型 2. 阶段二:用 RL 后训练优化某个奖励函数
第二阶段的动机通常是"对齐人类偏好"——比如让图像更美观、更符合文本描述。但研究团队注意到一个奇怪的现象:
RL 后训练不仅提升了偏好相关属性,还提升了视觉真实感、物体结构一致性等本应在训练数据中就存在的属性。
这很奇怪。如果这些数据属性本来就存在于训练集中,为什么 FSM 没有学到?为什么需要 RL 来"恢复"?
论文的核心论点:这不是数据或模型容量的问题,而是 FSM 损失本身的结构性缺陷。
---
二、FSM 的结构性缺陷:训练在 q_t,采样在 p_t
2.1 训练-测试分布错配
FSM 损失在插值边际分布 $q_t$ 上计算:
- $X_t = \alpha(t) X_1 + \beta(t) X_0$,其中 $X_1 \sim q$(数据),$X_0 \sim \mathcal{N}(0, I)$(噪声)
- 训练时优化:$\mathbb{E}[\|v_\theta(X_t, t) - (\dot{\alpha}(t) X_1 + \dot{\beta}(t) X_0)\|^2]$
- $dX_t = [v_\theta(X_t, t) + \frac{1}{2}\sigma(t)^2 s_\theta(X_t, t)] dt + \sigma(t) dW_t$
- 早期的小误差会把轨迹推入 $q_t$ 低质量区域
- 后续训练从未见过这些区域,误差不断 compound
这就像你在平坦高速公路上练车($q_t$),但考试时要在山路上开($p_t$)——两者地形完全不同。
2.2 几何错配:速度空间 vs 样本空间
FSM 控制的是速度空间的 $\ell_2$ 误差: $$\|v_\theta(x, t) - v^*(x, t)\|^2$$
但我们关心的属性(如"人脸是否自然")是样本空间的函数 $r(x)$。两者的几何结构不一致。
Proposition 3.2(定量分析):假设 $r$ 是 $L_r$-Lipschitz,$v^*$ 是 $L_v$-Lipschitz,则: $$|\mathbb{E}_p[r] - \mathbb{E}_q[r]| \leq \varepsilon L_r \frac{e^{L_v} - 1}{L_v}$$
这个 bound 告诉我们:
- 要达到 $\delta$ 的奖励差距,需要 $\varepsilon \approx \delta / L_r$
- 对于视觉属性,$L_r$ 可能极大(几个像素的变化就能让"手"从正常变成畸形)
- 这意味着需要的 $\varepsilon$ 极小,可能低于训练噪声 floor
2.3 实验验证:蒸馏无法复制 RL 教师
论文做了一个关键实验: 1. 先用 RL 训练一个 Stable Diffusion 1.5 教师模型(优化 ImageReward) 2. 再用 FSM 在教师模型的样本上训练一个学生模型
如果 FSM 能学到 RL 恢复的属性,学生应该追上教师。但结果:学生模型在所有特征空间都显著低于教师,且无法收敛(Figure 4)。
这证明了:RL 的价值不仅在于它生成的样本,更在于 RL 优化目标本身。
---
三、DRL 方法:用判别器从数据本身提取奖励
3.1 核心思想
标准 RL 的问题:需要人工偏好数据来定义奖励,昂贵且主观。
DRL 的洞察:如果我们想要恢复数据分布 $q$ 的属性,最优奖励就是数据与模型之间的 log 密度比: $$r^*(x) = \log \frac{q(x)}{p_{base}(x)}$$
这个密度比可以通过训练判别器来估计——不需要任何偏好数据,只需要原始训练数据!
3.2 两阶段算法
Stage 1:奖励估计 1. 用冻结的自监督编码器 $\phi$(如 DINOv2)提取表征 2. 在表征空间训练线性判别器 $D_\psi$ 区分真实数据 $q$ 和模型样本 $p_{base}$ 3. 定义奖励:$\hat{r}(x) = \text{logit} D_\psi(\phi(x)) = \log \frac{D}{1-D}$
Stage 2:KL 正则化 RL 1. 使用 Adjoint Matching(最先进的流模型 RL 算法) 2. 优化目标:$\max_p \mathbb{E}_{x \sim p}[\hat{r}(x)] - \frac{1}{\lambda} KL(p \| p_{base})$ 3. 通过反向伴随方程高效计算梯度
3.3 为什么用自监督表征空间?
直接在像素空间训练判别器的问题:
- 统计上困难(高维空间密度估计)
- 判别器可能利用无关的 artifacts(如 JPEG 压缩痕迹)区分真假
- 无法保证学到的差异是"语义上有意义的"
- 降低维度,使密度估计可行
- 限制判别器只能利用"人类感知可见"的结构差异
- 奖励自动对齐语义有意义的优化方向
即在保持 $p_{base}$ 不变的前提下,最小化修改,使表征空间分布与数据对齐。选择哪个 SSL 编码器 $\phi$,就决定了 DRL 可以修正哪些方面的属性。
---
四、实验结果:全面且一致的提升
4.1 测试模型
| 模型 | 架构 | 预训练特点 |
|---|---|---|
| SiT | 基于 Transformer | 标准流匹配 |
| JiT | 联合训练 | 高效训练策略 |
| REPA | 表征对齐 | 预训练 SSL 表征作为正则化 |
| RAE | 自编码器 | 预训练 SSL 作为隐空间 |
4.2 分布对齐(Fréchet Distance)
在四个特征空间评估:DINOv2、DINOv3、SigLIP、InceptionV3
无 CFG 情况(最考验模型本身质量):
- 16/16 模型-特征对中,DRL 的 tuned $\lambda$ 全部改善
- DINOv2/DINOv3 空间 FD 经常降低一半以上
- 14/16 对改善
- 唯一例外:SiT 和 REPA 在 InceptionV3 空间略有下降
| 评估空间 | Base FD | DRL FD | 改善 |
|---|---|---|---|
| DINOv2 | 159 | 58.3 | -63% |
| DINOv3 | 63.7 | 29.4 | -54% |
| SigLIP | 31.2 | 14.3 | -54% |
| Inception | 6.43 | 2.14 | -67% |
4.3 图像质量(无需偏好数据)
用四个从未见过的偏好奖励模型评估:
| 奖励模型 | 用途 | 结果 |
|---|---|---|
| ImageReward | 图像-文本对齐 | 所有模型提升 |
| PickScore | 人类偏好 | 所有模型提升 |
| Aesthetics v2.5 | 美学评分 | 所有模型提升 |
| HPSv2 | 人类偏好 | 所有模型提升 |
4.4 FID 改善(无 CFG)
| 模型 | Base FID | DRL FID | 改善 |
|---|---|---|---|
| SiT | 9.38 | 2.62 | -72% |
| JiT | ~6.5 | ~3.5 | -46% |
| REPA | ~4.2 | ~2.8 | -33% |
| RAE | ~5.1 | ~3.2 | -37% |
4.5 DRL 为偏好 RL 提供更好的起点
这是论文最实用的发现。标准流程的问题:
- 偏好 RL(PRL)需要同时做两件事:修复分布错误 + 优化主观偏好
- 小 $\lambda_{PRL}$:结构错误未修复
- 大 $\lambda_{PRL}$:图像过饱和、过亮、失真
Base + PRL vs DRL + PRL(Figure 9):
- DRL+PRL 在 HPSv2 奖励上始终优于 Base+PRL
- 同时低层统计(亮度、饱和度、对比度)漂移更小
- 在相同漂移水平下,DRL+PRL 获得更高奖励
- Base+PRL 低 $\lambda$:狗脸畸形、蝎子壳状身体、巴士底盘扭曲
- Base+PRL 高 $\lambda$:颜色过亮、过白
- DRL+PRL:所有 $\lambda$ 下结构保持连贯,颜色自然
4.6 消融实验
判别器架构(Figure 11):
| 架构 | $\lambda=1$, R1=0 | $\lambda=10$, 有 R1 |
|---|---|---|
| 线性头(DINOv2) | 最佳 | 最佳 |
| MLP-2(DINOv2) | 接近最佳 | 接近最佳 |
| 微调 DINOv2 | 略差 | 略差 |
| 从头训练 | 显著更差 | 显著更差 |
R1 正则化:在 $\lambda=10$ 时,R1 梯度惩罚(在真实样本上惩罚判别器输入梯度)对稳定训练至关重要。有趣的是,在 $\lambda=1$ 时 R1 反而有害,说明其作用不是解决梯度消失,而是平滑奖励景观。
特征空间选择(Table 1):
- 所有 SSL 编码器(DINOv2/v3、SigLIP)都有效
- DINOv2-L 最稳定
- InceptionV3(仅分类训练)效果最差,说明预训练目标很重要
五、理论洞察:为什么 DRL 有效
5.1 与流匹配的蒸馏对比
论文做了一个关键验证:用 DRL 后的模型作为教师,生成样本,然后用 FSM 训练一个学生。学生训练了 900k 步、超过 5000 万样本(150 倍 RL 的数据量、40 倍 ImageNet 大小),仍然无法复现教师(Figure 10)。
结论:DRL 提升不是因为它生成了更好的训练数据,而是因为 RL 优化目标本身能够访问 FSM 无法触及的优化方向。
5.2 校准视角
论文提出了一个"校准问题":小的 FSM 损失是否意味着 $\mathbb{E}_p[r] \approx \mathbb{E}_q[r]$?
- 最坏情况:完全不保证(Proposition 3.1)
- 正则情况:保证存在,但 bound 松散(Proposition 3.2)
- RL 视角:Pinsker bound 给出 $\|\mathbb{E}_p[r] - \mathbb{E}_q[r]\| \leq \sqrt{\frac{\lambda}{2} (\mathcal{L}_{RL}(p) - \mathcal{L}_{RL}(q))}$
5.3 与 Imitation Learning 的联系
DAgger(Ross et al., 2011)指出模仿学习存在 train-test mismatch:专家在训练分布上示范,但学习者在 rollout 上执行。流匹配有类似问题:
- $q_t$ 是"专家"分布(训练)
- $p_t$ 是"学习者"分布(采样)
- 早期误差导致后续状态脱离训练分布
---
六、局限与未来方向
1. 依赖冻结 SSL 特征:需要预训练好的自监督编码器。是否可以联合学习? 2. 最坏情况 bound:实际中哪些属性 FSM 难以学习,需要更精细的理论刻画 3. SDE/ODE 采样器的具体影响:论文使用概率流 ODE 分析,实际中 SDE 采样器可能有不同的误差积累模式 4. 其他 on-policy 方法:MMD 等样本损失是否提供不同 trade-off?
---
七、一句话总结
DRL 的核心洞察是:流匹配模型的训练目标(速度场回归)和生成目标(样本质量)之间存在结构性错配——就像用"方向盘转了多少度"来评估"驾驶质量"一样,两者虽然相关,但几何结构完全不同。RL 后训练之所以有效,不是因为它生成了更好的数据,而是因为它直接优化了样本空间的属性。DRL 进一步发现,这个优化的奖励不需要人工标注——它就藏在你的原始训练数据里,只需要一个判别器把它"读出来"。这可能是生成模型后训练领域最优雅的方案之一:不依赖偏好,不修改架构,一个线性判别器 + 标准 RL = 质的飞跃。
---
参考信息
- 论文:The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
- 作者:Nicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal
- 机构:Meta FAIR、Columbia University、Mila – Québec AI Institute、McGill University、Université de Montréal
- arXiv: 2606.19162
- 核心创新:DRL(Discriminator-Guided RL)——在预训练SSL表征空间训练判别器估计密度比,作为RL奖励,无需偏好数据
- 理论贡献:Proposition 3.1(最坏情况无保证)、Proposition 3.2(正则情况松散 bound),揭示FSM训练-采样错配和几何错配
- 测试模型:SiT、JiT、REPA、RAE(覆盖latent/pixel空间、不同架构)
- 评估指标:FID(无CFG)、DINOv2/v3/SigLIP/InceptionV3 FD、四个偏好奖励(ImageReward/PickScore/Aesthetics/HPSv2)
- 关键结果:SiT FID 9.38→2.62(-72%)、DINOv3 FD 88.2→19.3(-78%)、所有模型所有偏好奖励提升
- 训练成本:判别器10k步 + RL 3k步(仅占预训练1M+步的一小部分)
- 设计选择:线性判别器头 + 冻结DINOv2-L特征 + λ=10 + R1梯度惩罚
- 核心优势:无需偏好数据、兼容现有架构、为PRL提供更好的起点
*步子哥,DRL 让我想到一个更深层的问题:这不只是关于图像生成。任何"训练目标"和"评估目标"不一致的机器学习系统都可能存在类似的结构性错配。在 NLP 中,perplexity 和 human evaluation 之间的 gap;在推荐系统中,click-through rate 和长期用户满意度之间的 gap。DRL 的思路——从数据中直接提取一个对齐评估目标的奖励信号——可能适用于任何存在"代理目标错配"的场景。如果训练目标天然无法精确优化我们关心的属性,那么后训练阶段用一个直接从数据中提取的奖励来修正,可能是通用的补救策略。这像是机器学习领域的"目标对齐"原则:不要让优化器偏离真正的目标,哪怕只是间接的。*
#DRL #流匹配 #扩散模型 #RL #生成模型 #判别器 #自监督学习 #图像生成 #MetaFAIR #Mila #无偏好数据
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens