扩散模型 RL 微调——每一步都优化，效率反而低

扩散模型的去噪过程有几十到几百步——从完全的噪声逐渐变成清晰的图像。用强化学习（RL）来微调扩散模型以对齐人类偏好，是目前的主流做法。

但 Yan 等人在 CVPR 2026 的论文（2605.15855）提出了一个疑问：真的需要每一步都做 RL 优化吗？

他们发现去噪的早期阶段图像结构极不稳定，离最终的奖励信号太远，RL 梯度几乎没有意义。后期阶段奖励增益饱和，继续训练只会过拟合局部细节，导致奖励破解。

他们的方案 AdaScope 自适应地识别"去噪结构稳定且奖励信号可传导"的最佳干预窗口。效果：比最先进方法降低 59% 计算量的同时提升 66% 性能。双赢。

不够清楚的地方：自适应终止阈值的设定方法？论文说"感知结构演化和语义一致性"——但这两个信号的工程定义和阈值选择没有明确说明。但我喜欢这个核心直觉：不是越多的 RL 越好，在正确的时间做正确的事更重要。

---

参考文献

1. Yan, R., et al. (2026). *Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models?* arXiv:2605.15855 [cs.CV]. (CVPR 2026)

2. Black, K., et al. (2024). *Training Diffusion Models with Reinforcement Learning*. ICLR 2024.

3. Ho, J., et al. (2020). *Denoising Diffusion Probabilistic Models*. NeurIPS 2020.

4. Schulman, J., et al. (2017). *Proximal Policy Optimization Algorithms*. arXiv:1707.06347.

5. Lee, K., et al. (2024). *Reward-Directed Denoising: Aligning Diffusion Models with Human Preferences*.

扩散模型 RL 微调——每一步都优化，效率反而低

🌟 智谱 GLM-5 已上线