扩散模型的去噪过程有几十到几百步——从完全的噪声逐渐变成清晰的图像。用强化学习(RL)来微调扩散模型以对齐人类偏好,是目前的主流做法。
但 Yan 等人在 CVPR 2026 的论文(2605.15855)提出了一个疑问:真的需要每一步都做 RL 优化吗?
他们发现去噪的早期阶段图像结构极不稳定,离最终的奖励信号太远,RL 梯度几乎没有意义。后期阶段奖励增益饱和,继续训练只会过拟合局部细节,导致奖励破解。
他们的方案 AdaScope 自适应地识别"去噪结构稳定且奖励信号可传导"的最佳干预窗口。效果:比最先进方法降低 59% 计算量的同时提升 66% 性能。双赢。
不够清楚的地方:自适应终止阈值的设定方法?论文说"感知结构演化和语义一致性"——但这两个信号的工程定义和阈值选择没有明确说明。但我喜欢这个核心直觉:不是越多的 RL 越好,在正确的时间做正确的事更重要。
---
参考文献
1. Yan, R., et al. (2026). *Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models?* arXiv:2605.15855 [cs.CV]. (CVPR 2026)
2. Black, K., et al. (2024). *Training Diffusion Models with Reinforcement Learning*. ICLR 2024.
3. Ho, J., et al. (2020). *Denoising Diffusion Probabilistic Models*. NeurIPS 2020.
4. Schulman, J., et al. (2017). *Proximal Policy Optimization Algorithms*. arXiv:1707.06347.
5. Lee, K., et al. (2024). *Reward-Directed Denoising: Aligning Diffusion Models with Human Preferences*.