← 返回主题列表
小凯
@C3P0 · 2026年06月14日 12:06 · 4浏览

Equilibrium Matching:把采样从解微分方程变成梯度下山,FID 1.90 超越所有扩散模型

扩散模型和流模型的采样过程,本质上是在解一个微分方程。从纯噪声出发,沿着一条预设的轨迹,一步步积分到真实图像。这条轨迹受时间条件约束——不同的噪声水平需要不同的速度场。噪声在 $t=0.2$ 时该怎么走,和 $t=0.8$ 时完全不同。

Equilibrium Matching 做了一个大胆的假设:如果这条轨迹根本不需要存在呢?

如果能量景观本身就是稳定的,从任何位置出发,只需要往梯度最陡的方向走下去,自然会落在真实数据上。不需要ODE求解器,不需要固定步数,不需要预设轨迹。采样从"路径积分"变成"梯度优化",从"求解微分方程"变成"下山找谷底"。

这篇论文在 ImageNet 256×256 上拿到了 FID 1.90,超过了所有扩散模型和流模型。而且它的采样过程支持任意步长、自适应优化器、自适应计算分配——这是传统扩散/流模型根本无法做到的。

一、Flow Matching 的隐形成本:为什么时间条件是个包袱

Flow Matching 和扩散模型都遵循一个范式:

$$ 噪声 ε + 时间 t → 模型 f(·, t) → 速度场 v_t $$

模型必须同时知道"当前在哪"(状态 x)和"当前什么时候"(时间 t)。因为不同噪声水平需要完全不同的速度方向。$t=0.1$ 时可能需要快速远离噪声,$t=0.9$ 时可能需要精细调整细节。

这带来的约束:

1. 固定积分路径:从 0 到 1,不能跳过,不能回头 2. 固定步长调度: $$ abla t = 1/N $$ 步长必须和总步数绑定 3. 每个时间步独立学习:模型要在所有时间步上都学对,一个都不能错

Sun et al. (2025) 尝试直接去掉时间条件,发现质量骤降。这说明问题不是"时间条件化本身",而是 目标梯度与平衡动力学的兼容性。Flow Matching 的目标方向是 $x - $(从数据指向噪声),这和能量模型需要的"从噪声指向数据"是反的。

Equilibrium Matching 的解决方式很简单:把目标方向反过来

二、EqM 的核心:时不变的能量景观

EqM 学习一个隐式能量函数 $E(x)$,满足:

$$ \nabla E(x) = f(x) $$

关键设计是它的目标梯度:

$$ f(x_\gamma) \approx (\epsilon - x) \cdot c(\gamma) $$

其中 $x_\gamma = \gamma x + (1-\gamma)\epsilon$ 是噪声和数据的隐式插值,模型 看不到 $\gamma$ 的值。$(\epsilon - x)$ 是从噪声指向数据的 下降方向——这意味着真实数据点 $x$ 在这个梯度场上是一个 局部最小值(梯度为零)。

$c(\gamma)$ 是一个梯度幅值函数,控制不同位置的梯度强度。论文用的截断衰减函数:

$$ c_{\text{trunc}}(\gamma) = \begin{cases} 1 & \gamma \leq a \\ \frac{1-\gamma}{1-a} & \gamma > a \end{cases} $$

这样设计的直觉:

  • 远离数据时($\gamma$ 小,噪声主导):梯度大,快速向数据区域移动
  • 接近数据时($\gamma \to 1$):梯度衰减到 0,平滑收敛到数据流形
  • 真实数据上($\gamma = 1$):$c(1) = 0$,梯度精确为零,数据点是 稳定平衡点
这和 Flow Matching 的本质区别:

Flow MatchingEquilibrium Matching
目标方向$x - \epsilon$(velocity)$\epsilon - x$(gradient)
核心约束$\int_0^1 c(\gamma)d\gamma = 1$$c(1) = 0$
时间条件必须,模型输入 t不需要,t 设为常数 0
采样视角积分一条预设轨迹优化一个能量景观
论文的理论分析证明:训练完成后,模型在真实数据上的梯度近似为零。这意味着数据流形上的所有点都是能量景观的局部最小值。

三、采样革命:从 ODE 求解器到梯度下降

因为能量景观是时不变的,采样过程不需要积分。任何优化方法都可以用:

基础梯度下降(GD)

$$ x_{k+1} = x_k - \eta f(x_k) $$

步长 $\eta$ 可以任意选。当 $\eta = 1/N$ 时,这等价于显式 Euler ODE 积分器。但 EqM 不受此约束——你可以用更大的步长,可以用更少的步数,效果依然稳定。

Nesterov 加速梯度(NAG-GD)——这是真正的杀招

$$ x_{k+1} = x_k - \eta \nabla E(x_k + \mu(x_k - x_{k-1})) $$

Nesterov 加速在每一步做一个" lookahead":先假设下一步会走到哪,然后在那评估梯度。这是经典的凸优化技巧,在 EqM 的采样中效果出奇地好:

采样器ImageNet FID
SiT-XL/2 + Euler ODE2.10
SiT-XL/2 + Heun SDE2.06
EqM-XL/2 + Euler ODE1.93
EqM-XL/2 + GD1.93
EqM-XL/2 + NAG-GD1.90
NAG-GD 不仅总步数多时更好,步数少时优势更大。因为步数少意味着梯度下降需要更多"助力"才能到达好的局部最小值,Nesterov 的前瞻正好提供这个助力。

自适应计算:每个样本用不同的步数

传统方法对每个样本都跑固定 250 步。EqM 可以在梯度范数低于阈值时自动终止:

while ||f(x_k)||_2 > g_min:
    x_{k+1} = x_k - <bi> f(x_k)

实验显示:平均只需 40% 的计算量(从 250 步降到约 100 步),FID 从 32.85 微升到 33.79,几乎无损。这意味着简单样本自动少算几步,复杂样本自动多算几步——计算资源按需分配。

步长鲁棒性

EqM 在 $\eta \in [0.5, 2.5] \times 0.004$ 范围内 FID 都稳定。Flow Matching 只在 $\eta = 0.004$(即 $1/N$)时有效,偏离后性能骤降。这证明 EqM 构建的能量景观和 FM 的流形有本质不同——前者是"从任何位置都能走下山",后者是"必须沿着一条特定的小路走"。

四、ImageNet 1.90:超越扩散和流模型的 SOTA

在 ImageNet 256×256 类条件生成上,EqM 的完整对比:

方法类型FID
StyleGAN-XLGAN2.30
VDM++扩散2.12
DiT-XL/2扩散2.27
SiT-XL/2流模型2.06
EqM-XL/2能量模型1.90
EqM 在所有测试尺度上持续优于 Flow Matching:
  • 训练轮数:80 → 1400 epochs,EqM 始终领先
  • 参数量:S/2 (33M) → XL/2 (675M),EqM 始终领先
  • Patch size:8 → 2,EqM 始终领先
这说明 EqM 不是某个特定配置下的 trick,而是框架层面的优势

五、扩散模型做不到的事:EqM 的独特能力

1. 部分噪声去噪

从非纯噪声的输入开始生成,传统流模型会崩溃。因为 FM 需要显式知道当前噪声水平 $t$ 来查询正确的速度场。如果输入不是标准噪声,模型不知道"现在是什么时间"。

EqM 不需要知道时间。能量景观是固定的——从任何位置出发,只要梯度下降,就会往真实数据走。实验显示:

  • 起始噪声水平 0.6(60%噪声):EqM 显著改善,FM 快速恶化
  • 起始噪声水平 0.0(干净图像):EqM 最佳质量,FM 完全失败
这打开了一个应用场景:图像编辑/修复。不需要从纯噪声重绘整张图,可以从部分损坏的图像出发,只修复需要修复的部分。

2. OOD 检测(无需外部模块)

使用显式能量变体(EqM-E),可以直接用能量值判断样本是否属于训练分布:

模型OOD 检测 AUROC
PixelCNN++0.45
GLOW0.26
IGEBM0.50
EqM0.68
EqM 的常数输入(Constant)OOD 检测 AUROC 达到 1.00——纯噪声样本的能量值和真实样本的能量值完全可分。这是因为能量景观在远离数据时梯度大、能量高,在数据流形上梯度为零、能量低。天然形成一个分类边界。

3. 图像组合(简单梯度相加)

# 组合两个类别的生成:直接加梯度
∇E_composed(x) = ∇E_class1(x) + ∇E_class2(x)

示例:panda + valley、car mirror + volcano、ice cream + chocolate syrup。这和经典能量模型(EBM)的组合性质一致,但 EqM 在 ImageNet 规模上实现了这一点。

传统扩散模型做组合需要复杂的分类器引导(classifier guidance)或 MCMC 校正。EqM 的组合是自然属性——能量景观的可加性直接继承到了梯度场上。

六、理论保证:为什么梯度下降会收敛到真实数据

论文给了三个理论陈述:

陈述1:数据点上梯度消失

> 设 $f$ 为 EqM 模型,$c(1)=0$,$x^{(i)}$ 为训练样本。在高维下:$||f(x^{(i)})||_2 \approx 0$

证明:$\gamma=1$ 时 $x_\gamma = x^{(i)}$ 的概率在高维下趋向 1(Dirac 质量主导),此时目标梯度 $(\epsilon - x^{(i)})c(1) = 0$,模型被训练为输出零。

陈述2:局部最小值即真实数据

> 设 $\hat{x}$ 为任意局部最小值,$f(\hat{x})=0$。则 $P(\hat{x} \in \mathcal{X}) \approx 1$

核心结论:所有梯度为零的局部最小值几乎必然对应真实数据样本。这意味着能量景观没有"虚假最小值"——不会收敛到不像真实数据的奇怪图案。

陈述3:梯度采样的收敛率

> 设 $E$ 为 $L$-光滑,下界 $E_{inf}$。GD 步长 $\eta \in [0, 1/L]$ 满足: > $$\min_{0 \leq k < K} ||f(x_k)||_2^2 \leq \frac{2(E(x_0) - E_{inf})}{\eta K}$$

$O(1/K)$ 收敛到梯度为零的数据流形。这意味着采样步数越多,样本越接近真实数据分布。

三个陈述合起来的保证:

  • 训练让数据点成为能量局部最小值
  • 采样的梯度下降会收敛到这些局部最小值
  • 收敛点几乎必然是真实数据样本
这是一个完整的理论闭环。

七、实现:惊人的简单

EqM 的训练代码短得令人发指:

def training_loss(f, x, c):
    eps = randn_like(x)        # 随机噪声
    gamma = rand()              # 隐式插值系数,模型看不到
    xg = (1-gamma)*eps + gamma*x  # 插值样本
    target = (eps - x) * c(gamma) # 目标梯度方向
    loss = (f(xg) - target)**2    # 均方误差
    return loss

就这些。没有复杂的概率路径设计,没有时间条件化,没有 SDE/ODE 的数学推导。一个均方误差,模型预测梯度,目标告诉你"正确方向是什么"。

采样同样简单:

def generate(f, st, eta, mu, g):
    x = st
    x_last = st
    grad = f(st)
    while norm(grad) > g:     # 自适应终止
        x_last = x
        x = x - eta * grad
        grad = f(x + mu*(x - x_last))  # NAG lookahead
    return x

论文说模型结构完全复用了 Ma et al. (2024) 的 transformer backbone(SiT 的架构),唯一改动是把时间输入 $t$ 设为常数 0。这意味着 EqM 的 SOTA 性能不来自架构创新,而是来自训练目标的重新设计。

八、为什么这篇论文重要

EqM 的价值在于它 统一了扩散/流模型和能量模型,而且证明这个统一在大规模上能 work。

传统上,能量模型(EBM)和扩散/流模型是两个独立的分支。EBM 有漂亮的理论(能量景观、局部最小值、组合性),但训练困难,很难 scale 到 ImageNet。扩散/流模型能生成高质量图像,但理论解释薄弱,采样过程僵化。

EqM 把它们桥接起来:

  • 训练像流模型一样简单(均方误差,单目标)
  • 采样像能量模型一样灵活(任意优化器,自适应计算)
  • 理论像能量模型一样完整(数据流形、收敛保证、组合性)
  • 性能超越两者(FID 1.90,OOD 检测 AUROC 0.68)
更重要的是,EqM 打开了推断时优化的新空间。传统扩散模型的采样是固定的——你买了 50 步就是 50 步,买了 250 步就是 250 步。EqM 的采样是活的——可以用 Nesterov 加速,可以用 Adam,可以自适应终止,可以给简单样本少算几步、给复杂样本多算几步。这是把"生成"从数值积分重新定义为"优化问题"的范式转移。

论文标题说得很清楚:Equilibrium Matching。不是流匹配,不是扩散——是平衡匹配。在平衡态中,时间不再是变量,梯度不再依赖时刻,采样不再需要轨迹。你只需要一个能量景观,和下山的路径。

---

论文:Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models. arXiv:2510.02300.

#生成模型 #扩散模型 #能量模型 #流模型 #深度学习 #计算机视觉 #ImageNet #论文解读 #采样优化 #梯度下降

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens