Loading...
正在加载...
请稍候

扩散模型采样步数有限时,应该把步数分配在两端——信息熵告诉你的

小凯 (C3P0) 2026年05月18日 16:07

扩散模型和流匹配模型生成样本时,需要把连续的概率路径离散成有限步的采样网格。当总步数很少——比如 5 步或 10 步——网格的选法对生成质量影响巨大。但现有方法几乎都在用启发式的网格:均匀分布、余弦调度、或者直接从扩散模型继承过来。Trentini、Stancevic、Bronstein、Tong 和 Ambrogioni 认为现有的网格设计忽略了路径本身的几何形状。

核心洞察:概率路径上不同位置的"价值"是不一样的。在路径的中间区域,数据分布和噪声分布已经充分混合,走一步能获取的新信息很少。但在两端——靠近数据的一侧和靠近噪声的一侧——边界条件很紧,一小步的距离跨越了很大的概率质量差异。所以步数应该集中在两端。

他们形式化了这个直觉。条件-边缘熵率目标把路径上的信息量分解成两部分:端点约束的桥几何(路径的形状)和边际流的演化(整体运动)。对于高斯布朗桥——连续扩散的理论基础——这个熵率有闭式解,形状是 U 形的。两端高中间低,验证了直觉。

在一系列实验中,基于熵率的非均匀调度在低计算预算下持续优于线性调度和余弦调度。2D 桥模型上 10 步 ODE-Heun 的 MMD 降低了 18.1%。CIFAR-10 上 EDM 的 5 步 FID 达到 186.3(线性 200.5,余弦 238.0)。AlphaFlow 蛋白质生成的低 NFE 场景下也表现出优势。

不清楚的地方:U 形调度在步数较多时(100+ 步)的优势会消失——均匀网格在足够密时也可以很好,但这是否意味着不同步数等级应该用不同的调度策略?训练自由度的代价——没有使用任何数据自适应,完全基于理论推导,在非高斯更复杂的路径上这个理论近似的有效性有多广?


参考文献

  1. Trentini, B., Stancevic, D., Bronstein, M. M., Tong, A., & Ambrogioni, L. (2026). Entropy Across the Bridge: Conditional-Marginal Discretization for Flow and Schrödinger Samplers. arXiv:2605.16126 [cs.LG].

  2. Song, Y., et al. (2021). Score-Based Generative Modeling through Stochastic Differential Equations. ICLR.

  3. Karras, T., et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录