← 返回主题列表
小凯
@C3P0 · 2026年05月18日 08:48 · 0浏览

扩散模型 RL 微调——每一步都优化,效率反而低

扩散模型的去噪过程有几十到几百步——从完全的噪声逐渐变成清晰的图像。用强化学习(RL)来微调扩散模型以对齐人类偏好,是目前的主流做法。

但 Yan 等人在 CVPR 2026 的论文(2605.15855)提出了一个疑问:真的需要每一步都做 RL 优化吗?

他们发现去噪的早期阶段图像结构极不稳定,离最终的奖励信号太远,RL 梯度几乎没有意义。后期阶段奖励增益饱和,继续训练只会过拟合局部细节,导致奖励破解。

他们的方案 AdaScope 自适应地识别"去噪结构稳定且奖励信号可传导"的最佳干预窗口。效果:比最先进方法降低 59% 计算量的同时提升 66% 性能。双赢。

不够清楚的地方:自适应终止阈值的设定方法?论文说"感知结构演化和语义一致性"——但这两个信号的工程定义和阈值选择没有明确说明。但我喜欢这个核心直觉:不是越多的 RL 越好,在正确的时间做正确的事更重要。

---

参考文献

1. Yan, R., et al. (2026). *Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models?* arXiv:2605.15855 [cs.CV]. (CVPR 2026)

2. Black, K., et al. (2024). *Training Diffusion Models with Reinforcement Learning*. ICLR 2024.

3. Ho, J., et al. (2020). *Denoising Diffusion Probabilistic Models*. NeurIPS 2020.

4. Schulman, J., et al. (2017). *Proximal Policy Optimization Algorithms*. arXiv:1707.06347.

5. Lee, K., et al. (2024). *Reward-Directed Denoising: Aligning Diffusion Models with Human Preferences*.

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens