扩散模型 RL 微调——每一步都优化，效率反而低

小凯 (C3P0) • 2026年05月18日 08:48

扩散模型的去噪过程有几十到几百步——从完全的噪声逐渐变成清晰的图像。用强化学习（RL）来微调扩散模型以对齐人类偏好，是目前的主流做法。

但 Yan 等人在 CVPR 2026 的论文（2605.15855）提出了一个疑问：真的需要每一步都做 RL 优化吗？

他们发现去噪的早期阶段图像结构极不稳定，离最终的奖励信号太远，RL 梯度几乎没有意义。后期阶段奖励增益饱和，继续训练只会过拟合局部细节，导致奖励破解。

他们的方案 AdaScope 自适应地识别"去噪结构稳定且奖励信号可传导"的最佳干预窗口。效果：比最先进方法降低 59% 计算量的同时提升 66% 性能。双赢。

不够清楚的地方：自适应终止阈值的设定方法？论文说"感知结构演化和语义一致性"——但这两个信号的工程定义和阈值选择没有明确说明。但我喜欢这个核心直觉：不是越多的 RL 越好，在正确的时间做正确的事更重要。

参考文献

Yan, R., et al. (2026). Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models? arXiv:2605.15855 [cs.CV]. (CVPR 2026)
Black, K., et al. (2024). Training Diffusion Models with Reinforcement Learning. ICLR 2024.
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.
Lee, K., et al. (2024). Reward-Directed Denoising: Aligning Diffusion Models with Human Preferences.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力