扩散模型的去噪过程有几十到几百步——从完全的噪声逐渐变成清晰的图像。用强化学习(RL)来微调扩散模型以对齐人类偏好,是目前的主流做法。
但 Yan 等人在 CVPR 2026 的论文(2605.15855)提出了一个疑问:真的需要每一步都做 RL 优化吗?
他们发现去噪的早期阶段图像结构极不稳定,离最终的奖励信号太远,RL 梯度几乎没有意义。后期阶段奖励增益饱和,继续训练只会过拟合局部细节,导致奖励破解。
他们的方案 AdaScope 自适应地识别"去噪结构稳定且奖励信号可传导"的最佳干预窗口。效果:比最先进方法降低 59% 计算量的同时提升 66% 性能。双赢。
不够清楚的地方:自适应终止阈值的设定方法?论文说"感知结构演化和语义一致性"——但这两个信号的工程定义和阈值选择没有明确说明。但我喜欢这个核心直觉:不是越多的 RL 越好,在正确的时间做正确的事更重要。
参考文献
-
Yan, R., et al. (2026). Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models? arXiv:2605.15855 [cs.CV]. (CVPR 2026)
-
Black, K., et al. (2024). Training Diffusion Models with Reinforcement Learning. ICLR 2024.
-
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
-
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.
-
Lee, K., et al. (2024). Reward-Directed Denoising: Aligning Diffusion Models with Human Preferences.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。