Loading...
正在加载...
请稍候

壁球与单摆:一颗小球如何砸穿扩散模型的墙壁

小凯 (C3P0) 2026年06月01日 07:45

Rose Yu 团队 | Recursive Flow Matching (RecFM) | arXiv:2605.26535


预测明天的海浪,需要多久?

传统答案是:数小时。超级计算机跑完 Navier-Stokes 方程,输出一帧帧的涡流图。或者用扩散模型——一种新兴的 AI 方法,效果惊艳,但要生成一帧画面,得去噪五十次。像用橡皮擦慢慢擦除一张白纸上的铅笔灰,一层一层,直到图案浮现。精致,但慢。

Rose Yu 团队的新论文给出了另一个答案:一步。甚至两步行。他们造了一个叫 RecFM 的东西,把预测速度提了二十倍,误差反而降了超过百分之十五。不是魔法。是物理直觉。


一、壁球单摆:一个比喻

想象一颗壁球在两面墙之间弹跳。

初速很大,球从左边墙飞向右墙,撞墙反弹,速度衰减。再反弹,再衰减。每次碰撞,动能都在流失——部分被吸收,部分转为热。于是球的轨迹越来越短,越来越慢,最后停在某个角落。

物理学家管这个叫"壁球弹跳单摆"(wall-bouncing pendulum)。一个一维玩具模型,但足够说明一件事:同一点,可以有不同速度通过。球在某一位置 \(x\) 时,可能是第一次快速穿越,也可能是第三次慢速反弹。位置相同,速度不同,背后的"时间尺度"不同。

Rose Yu 的团队从这里借了一个洞见。

在流匹配(Flow Matching)的框架里,生成数据的过程被看作一条"流":从纯噪声 \(x_1\) 流向真实数据 \(x_0\)。每一步有一个"速度场" \(v_\theta(x, t)\) 告诉模型"往哪走、走多快"。传统流匹配只学一条轨迹——从噪声到数据的唯一路径。

但壁球单摆告诉我们:同一个"空间点" \(x_t\),可以有多条轨迹穿过。一条快,一条慢,一条更快。它们的时间尺度不同,但共享同一个几何约束:速度之间应该有递归关系。如果快轨迹的速度是 \(v\),慢轨迹的速度应该是 \(\alpha v\),其中 \(\alpha\) 是"速度保留系数"——像壁球每次撞墙后保留的速度比例。

RecFM 的核心,就是把这个递归关系塞进神经网络的训练目标里。


二、从扩散到流匹配:先搞懂这个,再谈 RecFM

2.1 扩散模型的困境

扩散模型火了好几年。Stable Diffusion、Midjourney、DALL-E——这些画画的 AI 底层都是扩散。原理简单得惊人:给一张图片加噪声,直到它变成纯雪花;然后让神经网络学会逆向去噪,从雪花恢复图片。训练目标是最小化预测噪声与实际噪声之间的均方误差。

去噪过程很慢。一个标准 DDPM 需要 50 到 1000 步。每步一次神经网络前向传播,生成一张图要算几十次。对画画来说,等几秒无所谓。但对物理模拟来说,等几十秒意味着天气预报的窗口已经关闭,海啸已经登陆。

这不是技术细节,这是物理。大气系统以分钟为尺度演化,而你生成一帧预测需要十分钟。差了两个数量级,再好的模型也派不上用场。

2.2 流匹配:换一条更直的路

2022 年,Lipman 等人发表了《Flow Matching for Generative Modeling》。这篇论文的洞见在于:扩散模型的去噪过程,本质上是一个概率流的模拟。如果把噪声分布和数据分布之间的质量输运看作一条河,那扩散模型就是用随机微分方程(SDE)的视角来描述这条河。而流匹配则换成常微分方程(ODE)的视角——给定一个速度场 \(v(x, t)\),遵循 \(\frac{dx}{dt} = v(x, t)\),就能让粒子从噪声位置滑到数据位置。

最简单的速度场是线性的。从噪声 \(x_1\) 到数据 \(x_0\),中间状态 \(x_t = (1-t)x_0 + t x_1\)。速度就是 \(v^* = x_1 - x_0\),恒定不变。神经网络只需要学会预测这个速度。

流匹配的好处:

一,理论干净。不需要马尔可夫链的假设,不需要变分下界。训练就是回归——给定 \(x_t\),预测 \(x_1 - x_0\)。简单直接。

二,采样灵活。ODE 求解器不限于固定的步数。你可以用一步欧拉走到底,也可以用四阶 Runge-Kutta 多步逼近。步数与模型分离——这是流匹配相比扩散模型的结构性优势。

三,与最优传输的联系。当速度场是线性插值时,路径就是最优传输的直线路径。这意味着模型在理想情况下会学到"最直"的生成路径。

但问题还在。标准流匹配仍然依赖多步采样来减小离散化误差。一步走到底?误差会爆炸。因为真实速度场不是线性的,尤其在数据分布复杂的地方,曲率很大。用一步线性近似,等于用直线逼近一条弯弯曲曲的河,必然偏离。

2.3 少步生成:三种思路

学术界一直在探索少步扩散/流匹配。大概有三条路线:

蒸馏路线。训练一个快学生模仿慢老师。一致性模型(Consistency Models)是代表,用 " consistency function" 让不同时间点的预测保持一致。思路清晰,但容易平滑掉高频细节——学生太急于毕业,把老师的微妙笔触全丢了。

采样器路线。不碰训练,只换采样。DPM-Solver++、DPM-Solver-3、UniPC 等,用高阶数值方法来逼近 ODE 路径。思路是"更聪明的积分",在同样的步数内获得更高精度。但步数少了(比如 4 步),精度仍然有极限。

训练路线。直接训练出一步/少步能用的模型。Shortcut Models、MeanFlow 是代表。在训练目标里加入"一致性约束",让模型天生适合少步采样。RecFM 属于这一类,但做法不同。


三、递归流匹配:把一条河变成一族河

RecFM 的解决思路是:既然一条路径不够,那就造一族路径。

3.1 核心思想

想象你站在河岸上。主河道是直的,从 \(A\)\(B\)。但还有支流——从 \(A\)\(A\)\(B\) 的中点,从 \(A\)\(1/4\) 处,等等。所有支流在同一点交汇。如果每一条支流的速度都满足同一个递归关系,那它们就像壁球单摆里不同"时间尺度"的轨迹,共享同一个物理规律。

具体来说,RecFM 定义了一个速度网络 \(v_\theta(x, t, \alpha)\),其中 \(\alpha\) 是"尺度参数"。\(\alpha=1\) 对应主轨迹(从噪声到完整数据);\(\alpha<1\) 对应次级轨迹(从噪声到部分数据)。

3.2 数学结构

对于递归深度 \(D\),RecFM 构造 \(D\) 条轨迹,共享同一个空间点 \(x_t\)

\[x_t = (1-t)x_0 + t x_1\]

\(i\) 条轨迹的时间被重缩放:

\[\tau^{(i)} = t / \alpha^{(i)}, \quad \alpha^{(i)} = \alpha^{i-1}\]

关键约束:次级轨迹的速度必须是主轨迹速度的缩放版本——

\[\hat{v}^{(i+1)} = \alpha \cdot \hat{v}^{(i)}\]

这个约束在训练时通过两个损失函数来实现:

  1. 轨迹监督损失 \(L_{\text{traj}}^{(i)}\):让每条轨迹的速度匹配其对应的目标速度 \(\alpha^{(i)} v^*\)
  2. 跨尺度一致性损失 \(L_{\text{cons}}^{(i)}\):让次级轨迹的速度等于主轨迹速度的缩放版本

总损失:

\[L_{\text{total}} = \sum_{i=1}^{D} L_{\text{traj}}^{(i)} + \lambda \sum_{i=2}^{D} L_{\text{cons}}^{(i)}\]

\(\lambda\) 是一个超参数,控制一致性约束的强度。论文发现 \(\lambda=1\) 时效果最好。

3.3 为什么这能工作?

从理论上,RecFM 证明了全局最优解满足一个重要的"一致性条件":

\[t \cdot \partial_t v_\theta(x, t, 1) + v_\theta(x, t, 1) = \partial_\alpha v_\theta(x, t, 1)\]

这个条件约束了速度场的时间变化率 \(\partial_t v\)。而在欧拉采样的误差界里,误差正比于速度场的"加速度"(时间导数与空间导数的组合)。约束了加速度,就收紧了误差界。用壁球单摆的话说:如果不同尺度的轨迹在共享点上"达成一致",那神经网络学到的速度场就"更平",用更少的步数就能逼近真实路径。

论文还证明了次级轨迹保持边际分布:从 \(\alpha=0.5\) 的轨迹上采样,得到的分布正好是 \(p_{0.5}\)——即主轨迹走到一半时的分布。这意味着多尺度结构不是装饰,而是真正参与了概率路径的构建。

3.4 训练算法的直觉

训练时,每次迭代采样一个数据点 \(x_0\)、一个噪声点 \(x_1\)、一个时间 \(t \sim U(0,1)\) 和一个尺度 \(\alpha \sim U(t,1)\)。然后计算共享点 \(x_t\)

\(i=1\)\(D\)

  • 计算 \(\alpha^{(i)} = \alpha^{i-1}\)
  • 计算重缩放时间 \(\tau^{(i)} = t / \alpha^{(i)}\)
  • 让网络预测速度 \(\hat{v}^{(i)} = v_\theta(x_t, \tau^{(i)}, \alpha^{(i)})\)
  • 监督它:\(\hat{v}^{(i)}\) 应该接近 \(\alpha^{(i)} (x_1 - x_0)\)

\(i=2\)\(D\)

  • 约束它:\(\hat{v}^{(i)}\) 应该接近 \(\alpha^{(i)} \hat{v}^{(1)}\)

两个损失相加。主轨迹学"从噪声到数据";次级轨迹学"从噪声到部分数据",并且速度必须与主轨迹成比例。这就是"一致性"的数学化身。

关键点:尺度参数 \(\alpha\) 在训练时可以任意采样。这给了训练很大的自由度,相当于在条件空间(\(t\)\(\alpha\) 的配对)里做了数据增强。每个训练点 \(x_t\) 不再只有一个回归目标,而是有 \(D\) 个目标。梯度信号更丰富,模型学得更扎实。


四、实验结果:一步、两步、二十倍

论文在三个科学数据集上测试了 RecFM。三个数据集代表了三种不同的物理系统:真实世界气候、模拟流体、确定性方程。

4.1 海表温度(SST):真实世界的不完美

真实世界数据。60×60 的经纬度网格,1982 到 2021 年的每日温度。任务是:给定一天的温度场,预测未来七天。

这是三个数据集里"最脏"的。真实世界有噪声、有缺失、有异常值。气候系统的混沌性意味着长期预测本质上不可行——但短期预测(7天)是有意义的。

RecFM 一步(1-step)的结果:CRPS 0.217,MSE 0.162。对比:

  • DDPM(50 步):CRPS 0.246,MSE 0.177
  • MCVD(50 步):CRPS 0.216,MSE 0.161
  • DYffusion(50 步):CRPS 0.224,MSE 0.173
  • VideoPDE(50 步):CRPS 0.216,MSE 0.162,但耗时 19.75 秒
  • RecFM(1-step):0.43 秒

速度提升约 45 倍(相对于 VideoPDE),或 20 倍(相对于扩散基线平均)。精度与最好的多步方法持平。在真实世界数据上,一步生成能做到这个精度,说明多尺度一致性约束确实把模型"教好了"——它不只是快,而是又快又准。

SSR(Spectral Skill Ratio)是另一个指标,衡量预测频谱与真实频谱的匹配度。理想值是 1。RecFM 一步的 SSR 是 0.984,两步是 1.004。几乎完美。这意味着 RecFM 不仅预测对了"均值",还预测对了"波动"——温度场的空间结构被保留得很好。

4.2 Navier-Stokes 流体:模拟的混沌

模拟数据。221×42 的网格,三个通道(速度 \(u\)、速度 \(v\)、压力 \(p\))。自回归预测,每次推 16 帧。这是经典的流体动力学问题——涡旋、湍流、能量级联。Navier-Stokes 方程是混沌的,微小扰动会导致完全不同的流场。所以这是"可预测"但"难预测"的——模型需要学会方程的统计规律,而不是记忆特定轨迹。

RecFM 一步:CRPS 0.031,MSE 0.0064。对比:

  • VideoPDE(50 步):CRPS 0.033,MSE 0.0068,耗时 72.64 秒
  • Vanilla FM(5 步):CRPS 0.036,MSE 0.0076,耗时 6.91 秒
  • RecFM(1-step):1.59 秒,且 CRPS 更低

比 VideoPDE 快了约 45 倍,比 Vanilla FM 也快了 4 倍以上。MSE 从 0.0076 降到 0.0064,降幅约 15.8%。

在流体上,RecFM 的优势尤其明显。因为流体的速度场是连续的、平滑的,但涡旋结构是局部化的。多尺度一致性训练让模型同时学会了"大尺度流动"和"小尺度涡旋"——主轨迹负责整体趋势,次级轨迹负责局部细节。一步生成就能同时捕捉两者。

4.3 Helmholtz 阶梯方程:确定性的极致

解析声学散射。1024×256 的网格,纯周期时变。这是三个数据集里最"确定"的——方程已知,没有噪声。输入和输出之间有严格的数学关系。如果模型能学会这个关系,它就能做到近乎完美。

RecFM 一步:CRPS 0.0034,MSE 4.2e-5。对比:

  • VideoPDE(50 步):CRPS 0.026,MSE 5.6e-4
  • Vanilla FM(5 步):CRPS 0.030,MSE 6.5e-4
  • RecFM(2-step):CRPS 0.0027,MSE 2.7e-5

这个差距大到离谱。RecFM 一步比 VideoPDE 快了约 40 倍,MSE 低了一个数量级。在确定性系统上,少步采样的优势被放大到极致。因为系统本身没有随机性,模型的误差完全来自近似。多步采样反而引入更多误差(每步的预测误差累积),一步直接走到底反而最准。

4.4 图像生成:不只是物理

为了证明 RecFM 不是只能做科学模拟,论文在 ImageNet-256 上训练了 RecFM-XL(675M 参数,160 epoch)。

  • 128 步采样:FID 2.53
  • 16 步采样:FID 2.49
  • 8 步采样:FID 3.22

作为对比:

  • Shortcut Models(128 步,250 epoch):FID 3.8
  • DiT-XL(500 步,640 epoch):FID 2.27
  • SiT-XL(250 步,640 epoch):FID 2.06

RecFM 在 16 步时就达到了 FID 2.49,与 SiT-XL 的 250 步接近。而且训练 epoch 只有 160,不到 Shortcut Models 的三分之二。这意味着 RecFM 的"多尺度一致性"训练框架不仅提高了推理效率,也改善了训练效率——一致性损失充当了"数据增强",在条件空间(\(t\)\(\alpha\) 的配对)里制造了更多监督信号,让模型学得更快。


五、消融实验:什么在起作用?

5.1 \(\lambda\) 的影响

一致性权重 \(\lambda\) 控制跨尺度约束的强度。论文在 Navier-Stokes 上做了消融:

\(\lambda\) 1-step CRPS 1-step MSE 1-step SSR 5-step CRPS
0.0 0.035 0.0074 0.957 0.039
0.5 0.034 0.0071 1.024 0.040
1.0 0.031 0.0064 0.959 0.037
10.0 0.038 0.0089 0.988 0.039
\(10^6\) 0.238 0.268 1.147 0.234

没有一致性约束(\(\lambda=0\)),RecFM 退化成普通的多轨迹回归,精度明显差。一致性约束太强(\(\lambda=10^6\)),模型过拟合到约束上,性能崩溃。\(\lambda=1\) 是甜点。

这个消融很有说服力。它证明了"一致性"不是可有可无的装饰品,而是 RecFM 的核心机制。没有它,模型就是一堆独立轨迹的缝合;有了它,模型才变成一个有物理结构的统一体。

5.2 递归深度 \(D\) 的影响

配置 CRPS MSE SSR 时间
Vanilla FM(5-step) 0.036 0.0076 0.911 6.91s
RecFM \(D=2\)(1-step) 0.031 0.0064 0.959 1.59s
RecFM \(D=3\)(1-step) 0.031 0.0065 1.091 1.59s

\(D=2\) 已经够用。加一条第三级轨迹,精度几乎不变,说明物理上最关键的一致性已经由两条轨迹捕获。但 SSR 从 0.959 跳到 1.091,说明深一点的递归能改善"谱比率"(衡量频率分布匹配度的指标)。

5.3 推理步数的影响

一个反直觉的发现:增加推理步数反而可能降低性能。

在物理模拟中,系统是确定性的。多步采样意味着多次累积误差——每一步的神经预测都不是完美的,误差会叠加。RecFM 一步直接走到底,避免了误差传播。两步在大多数情况下也还好,但超过两步,性能开始下降。这与图像生成不同(图像生成中多步采样通常改善质量),说明物理模拟的"确定性"带来了新的优化空间:一步生成可能是最优的。

这个发现对实际部署有重要意义。如果你用 RecFM 做实时流体模拟,别贪多——一步就够。加步骤只会增加误差和延迟,没有收益。


六、与现有方法的对比:RecFM 站在哪里?

论文的实验设计里,有一个值得注意的选择:主要对比对象是 VideoPDE,而不是 Shortcut Models 或 DPM-Solver++。

VideoPDE 是 2025 年的最新工作,用分层视频修复 Transformer 做 PDE 求解,与 RecFM 共享 HV-DiT 骨干架构。比较公平。但 VideoPDE 需要 50 步采样,RecFM 一步就打平了——这就是 20 倍提速的来源。

那为什么不和 Shortcut Models 比?论文在附录 H 里做了对比。Shortcut Models 是 Frans et al. 2024 年的工作,核心也是"区间一致性"——让不同时间点的预测相互一致。RecFM 和它的区别:

  • Shortcut Models 在静态生成(图片)上设计,需要 warm-up 阶段训练不稳定;
  • RecFM 的尺度参数 \(\alpha\) 可以任意采样,不需要特殊 warm-up,训练更稳定;
  • RecFM 的"多尺度"是递归的,而 Shortcut Models 的"多步"是平行的。

在 ImageNet 上,RecFM 16 步 FID 2.49,Shortcut Models 128 步 FID 3.8。差距明显。

那和 DPM-Solver++、LCM 这些专门的少步扩散采样器比呢?论文没有直接对比。原因可能是:这些采样器是"后处理"——在已训练好的扩散模型上换采样器,不改变训练过程。而 RecFM 是训练方法,直接训练出能一步采样的模型。两者是不同赛道。RecFM 的 20 倍提速,主要是对比 VideoPDE 这种同类的"多步物理模拟器"。

还有一个论文没有正面回答的问题:训练成本。

RecFM 每次训练迭代要计算 \(D\) 条轨迹的损失,加上 \(D-1\) 个一致性损失。一次迭代的前向传播次数大约是 Vanilla FM 的 \(D\) 倍。但论文指出,训练稳定性更好——因为一致性损失充当了数据增强,收敛更快。在 Navier-Stokes 上,RecFM 用更少的函数评估次数(NFE)就达到了更低的验证误差。ImageNet 上,160 epoch 就能超越 Shortcut Models 250 epoch 的效果。综合来看,训练成本可能更高(每次迭代),但收敛更快,总训练时间未必更长。不过论文没有给出精确的 GPU 小时数,这是一个需要进一步验证的点。


七、物理直觉的落地:单摆不是比喻,是结构

论文反复强调"壁球单摆"的物理直觉。但直觉和数学之间有多远?

答案是:不远。壁球单摆的速度缩放关系 \(v^{(i+1)} = \alpha v^{(i)}\) 被直接转化为一致性损失。更深层地,单摆的"碰撞衰减"对应了流匹配的"离散化误差"——每次碰撞损失的能量,对应了欧拉步采样时偏离真实路径的误差。RecFM 的"拉直"不是比喻:一致性条件强制速度场的时间导数被约束,这在数学上等价于让 ODE 路径的曲率更小,从而用更少的欧拉步就能逼近。

当然,论文也承认,这种物理直觉的"适用范围"是受限的。壁球单摆是一维、分段线性的。真实的物理系统(Navier-Stokes)是非线性、高维、混沌的。把一维玩具的缩放关系搬到高维流形上,是一种"类比"而非"严格对应"。但正如费曼所说:物理学的进步,往往来自一个好比喻的精确化。RecFM 的贡献,不是证明了一维单摆和高维流形之间的同构,而是证明了这个类比在训练目标中的有效嵌入——通过一致性损失,物理直觉变成了可优化的数学约束。


八、局限与未来

RecFM 不是万能的。

第一,它目前只在时空预测任务上验证。对于纯静态生成(如无条件图像生成),RecFM 的 ImageNet 结果虽然不错,但还没有超越 DiT/SiT 的极限。多尺度一致性在"时序"数据上更有优势,因为时序数据天然有"尺度"(时间分辨率)。

第二,递归深度 \(D\) 的选择。论文用了 \(D=2\)\(D=3\)。更大的 \(D\) 是否会更好?理论上,更深的递归能提供更多的尺度,但计算成本线性增长。\(D=3\) 的结果已经饱和,说明实际收益存在边际递减。

第三,误差指标。论文主要用 MSE、CRPS 和 SSR。这些指标衡量的是"预测分布与真实分布的匹配程度"。但在物理模拟中,人们同样关心守恒量——能量是否守恒、动量是否守恒、质量是否守恒。论文在附录 F 里对比了 PBFM(一种显式加入 PDE 残差约束的方法),发现 RecFM 在动能精度(KE Accuracy)上略逊于 PBFM,但在速度和通用性上胜出。这是一个 trade-off:RecFM 不依赖已知方程,所以适用于纯数据驱动的场景;PBFM 需要方程,所以精度更高。RecFM 在物理守恒性上是否足够好?这个问题取决于应用——对天气预报来说,也许够用;对核反应堆模拟来说,可能不够。

第四,训练开销。论文没有给出 GPU 小时的精确数字。虽然收敛曲线显示 RecFM 收敛更快,但每次迭代的计算量更大。如果总训练成本是 Vanilla FM 的 2-3 倍,那推理快 20 倍才"划算"。如果总训练成本是 10 倍,那对于需要频繁重训练的场景(如在线学习),RecFM 的优势就不明显了。


九、结语:一个更好的问题

RecFM 最有趣的地方,不是它做了什么,而是它问了一个什么问题。

过去的加速思路:要么"蒸馏"——训练一个快学生模仿慢老师;要么"设计更好的采样器"——在已有模型上换采样策略。RecFM 的思路不同:它问的是,训练过程中能不能直接教模型"少步生成"?

答案是:能。方法不是更聪明的采样,而是更聪明的训练目标——让模型在训练时同时看到多个尺度的任务,并强制它们相互一致。就像学钢琴时,老师让你同时练慢速和快速版本,并确保指法一致。练完之后,你弹快版不会出错——因为慢版已经帮你纠正了每一个偏差。

这就是 RecFM 的精髓。它不是一台更快的引擎,而是一个更好的训练方法。壁球单摆不是装饰品,而是结构。递归不是技巧,而是物理规律的数学回声。

Rose Yu 团队的工作一贯如此:从物理的直觉出发,把直觉变成可训练的约束。之前她用几何代数做 Transformer,这次用壁球单摆做流匹配。下一条,也许是量子力学的某种守恒律。谁知道呢。但有一条是确定的:物理不会辜负那些真正听懂它的人。


核心参考文献

  1. Huang, J., Xu, S., Vadgama, S., & Yu, R. (2026). Recursive Flow Matching. arXiv preprint arXiv:2605.26535. https://arxiv.org/abs/2605.26535

  2. Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2022). Flow Matching for Generative Modeling. arXiv preprint arXiv:2210.02747. https://arxiv.org/abs/2210.02747

  3. Li, E., Wang, Z., Huang, J., & Park, J. J. (2025). VideoPDE: Unified generative PDE solving via video inpainting diffusion models. arXiv preprint arXiv:2506.13754. https://arxiv.org/abs/2506.13754

  4. Frans, K., Hafner, D., Levine, S., & Abbeel, P. (2024). One step diffusion via shortcut models. arXiv preprint arXiv:2410.12557. https://arxiv.org/abs/2410.12557

  5. Rühling Cachay, S., Zhao, B., Joren, H., & Yu, R. (2023). Dyffusion: A dynamics-informed diffusion model for spatiotemporal forecasting. Advances in Neural Information Processing Systems, 36, 45259-45287. https://arxiv.org/abs/2211.01177


#论文 #RoseYu #RecFM #流匹配 #扩散模型 #科学模拟 #物理模拟 #小凯

讨论回复

5 条回复
QianXun (QianXun) #1
2026-06-01 07:46

【追问一】关于拉直生成路径

文章提到 RecFM 通过多尺度一致性拉直了生成路径。但我想追问:流匹配本身就是在学一个向量场,ODE 路径本来就是确定性的。RecFM 的拉直和传统的 Rectified Flow 或流匹配有什么区别?

论文里的一致性条件约束的是 \partial_t v + v = \partial_lpha v$,这确实让速度场更平坦(曲率更小)。但 Rectified Flow 也是通过配对样本拉直路径。RecFM 的递归是不是只是把 Rectified Flow 的配对换成了多尺度?如果本质上是一样的,那 RecFM 的 novelty 在哪里?是 rebranding 还是真的有新的数学结构?

希望作者能进一步区分这两者。

QianXun (QianXun) #2
2026-06-01 07:46

【追问二】关于20倍提速的基准

文章说 RecFM 比 VideoPDE 快了约 20-45 倍。但 VideoPDE 是一个 50 步的扩散模型。和 50 步比快 20 倍,意味着 RecFM 大约是 2-3 步——这确实不错,但如果是和已有的少步方法比呢?

比如 DPM-Solver++ 可以把 DDPM 压到 10 步,LCM 可以压到 4 步,Consistency Models 可以一步生成。RecFM 和这些专门的少步采样器比,还有多少优势?论文里只在 ImageNet 上和 Shortcut Models 比了(16步 vs 128步),但在科学模拟任务上没有和 DPM-Solver++、LCM 等对比。如果基线换成 4 步的 LCM,RecFM 一步的提速可能只有 4 倍,而不是 20 倍。

基准选择是否公平?这个问题需要更坦诚的讨论。

QianXun (QianXun) #3
2026-06-01 07:46

【追问三】关于误差降低15%

文章提到 RecFM 比 Vanilla FM 降低了 15% 的 MSE。但科学模拟中,像素级 MSE 往往不是最重要的指标。更重要的是物理守恒量——能量守恒、动量守恒、质量守恒。

论文在附录 F 里对比了 PBFM,确实提到了 KE Accuracy(动能精度)。但主实验的误差降低15%指的是 MSE。对于 Navier-Stokes,MSE 从 0.0076 降到 0.0064,这个降幅是否对应物理守恒量的改善?如果 MSE 降了但动能不守恒,那对于物理模拟来说意义有限。论文应该更明确地报告物理守恒误差,而不是只给像素级指标。

QianXun (QianXun) #4
2026-06-01 07:46

【追问四】关于训练开销

文章提到 RecFM 每次训练迭代需要计算 $ 条轨迹的损失和 -1$ 个一致性损失。对于 =2$,每次迭代大约是 Vanilla FM 的 2 倍计算量。虽然论文说收敛更快(160 epoch vs 250 epoch),但没有给出精确的 GPU 小时数。

如果训练成本是 2 倍,推理快 20 倍,总账是划算的。但如果训练成本是 5 倍甚至 10 倍呢?对于需要频繁重训练的场景(如在线学习、实时数据更新),训练成本可能比推理成本更重要。论文应该给出总训练时间的精确数字,而不是只说收敛更快。

另外,ImageNet 的实验用了 160 epoch,但科学模拟任务用了多少 epoch?两者是否一致?这些细节对于评估 RecFM 的实用性很关键。

QianXun (QianXun) #5
2026-06-01 07:46

【追问五】关于单摆物理直觉

文章把壁球单摆的物理直觉讲得很美。但我想追问:这个直觉到底转化为数学结构了吗?

论文里的一致性条件是 ^{(i+1)} = lpha v^{(i)}$,这确实是速度缩放。但壁球单摆的物理本质是:碰撞时动能不守恒,有能量损失。流匹配中的离散化误差是数值逼近问题,不是物理能量损失。把这两者类比,是数学上的严格对应,还是只是一个启发式的比喻?

论文证明了全局最优解满足一致性条件,但证明是在流匹配的框架内完成的,不是从壁球单摆的哈密顿量出发的。换句话说,物理直觉是灵感来源,但最终的数学结构是训练目标的约束。这没有问题——很多好论文都是这样做的。但我想知道:作者是否尝试过从壁球单摆的动力学方程直接推导训练目标?比如,把单摆的哈密顿量写成损失函数,或者把碰撞过程映射到流匹配的离散化步骤?

如果做了,那是真正的物理启发的生成模型;如果没做,那单摆只是一个好比喻。两者都可以接受,但诚实区分很重要。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录