Rose Yu 团队 | Recursive Flow Matching (RecFM) | arXiv:2605.26535
预测明天的海浪,需要多久?
传统答案是:数小时。超级计算机跑完 Navier-Stokes 方程,输出一帧帧的涡流图。或者用扩散模型——一种新兴的 AI 方法,效果惊艳,但要生成一帧画面,得去噪五十次。像用橡皮擦慢慢擦除一张白纸上的铅笔灰,一层一层,直到图案浮现。精致,但慢。
Rose Yu 团队的新论文给出了另一个答案:一步。甚至两步行。他们造了一个叫 RecFM 的东西,把预测速度提了二十倍,误差反而降了超过百分之十五。不是魔法。是物理直觉。
一、壁球单摆:一个比喻
想象一颗壁球在两面墙之间弹跳。
初速很大,球从左边墙飞向右墙,撞墙反弹,速度衰减。再反弹,再衰减。每次碰撞,动能都在流失——部分被吸收,部分转为热。于是球的轨迹越来越短,越来越慢,最后停在某个角落。
物理学家管这个叫"壁球弹跳单摆"(wall-bouncing pendulum)。一个一维玩具模型,但足够说明一件事:同一点,可以有不同速度通过。球在某一位置 \(x\) 时,可能是第一次快速穿越,也可能是第三次慢速反弹。位置相同,速度不同,背后的"时间尺度"不同。
Rose Yu 的团队从这里借了一个洞见。
在流匹配(Flow Matching)的框架里,生成数据的过程被看作一条"流":从纯噪声 \(x_1\) 流向真实数据 \(x_0\)。每一步有一个"速度场" \(v_\theta(x, t)\) 告诉模型"往哪走、走多快"。传统流匹配只学一条轨迹——从噪声到数据的唯一路径。
但壁球单摆告诉我们:同一个"空间点" \(x_t\),可以有多条轨迹穿过。一条快,一条慢,一条更快。它们的时间尺度不同,但共享同一个几何约束:速度之间应该有递归关系。如果快轨迹的速度是 \(v\),慢轨迹的速度应该是 \(\alpha v\),其中 \(\alpha\) 是"速度保留系数"——像壁球每次撞墙后保留的速度比例。
RecFM 的核心,就是把这个递归关系塞进神经网络的训练目标里。
二、从扩散到流匹配:先搞懂这个,再谈 RecFM
2.1 扩散模型的困境
扩散模型火了好几年。Stable Diffusion、Midjourney、DALL-E——这些画画的 AI 底层都是扩散。原理简单得惊人:给一张图片加噪声,直到它变成纯雪花;然后让神经网络学会逆向去噪,从雪花恢复图片。训练目标是最小化预测噪声与实际噪声之间的均方误差。
去噪过程很慢。一个标准 DDPM 需要 50 到 1000 步。每步一次神经网络前向传播,生成一张图要算几十次。对画画来说,等几秒无所谓。但对物理模拟来说,等几十秒意味着天气预报的窗口已经关闭,海啸已经登陆。
这不是技术细节,这是物理。大气系统以分钟为尺度演化,而你生成一帧预测需要十分钟。差了两个数量级,再好的模型也派不上用场。
2.2 流匹配:换一条更直的路
2022 年,Lipman 等人发表了《Flow Matching for Generative Modeling》。这篇论文的洞见在于:扩散模型的去噪过程,本质上是一个概率流的模拟。如果把噪声分布和数据分布之间的质量输运看作一条河,那扩散模型就是用随机微分方程(SDE)的视角来描述这条河。而流匹配则换成常微分方程(ODE)的视角——给定一个速度场 \(v(x, t)\),遵循 \(\frac{dx}{dt} = v(x, t)\),就能让粒子从噪声位置滑到数据位置。
最简单的速度场是线性的。从噪声 \(x_1\) 到数据 \(x_0\),中间状态 \(x_t = (1-t)x_0 + t x_1\)。速度就是 \(v^* = x_1 - x_0\),恒定不变。神经网络只需要学会预测这个速度。
流匹配的好处:
一,理论干净。不需要马尔可夫链的假设,不需要变分下界。训练就是回归——给定 \(x_t\),预测 \(x_1 - x_0\)。简单直接。
二,采样灵活。ODE 求解器不限于固定的步数。你可以用一步欧拉走到底,也可以用四阶 Runge-Kutta 多步逼近。步数与模型分离——这是流匹配相比扩散模型的结构性优势。
三,与最优传输的联系。当速度场是线性插值时,路径就是最优传输的直线路径。这意味着模型在理想情况下会学到"最直"的生成路径。
但问题还在。标准流匹配仍然依赖多步采样来减小离散化误差。一步走到底?误差会爆炸。因为真实速度场不是线性的,尤其在数据分布复杂的地方,曲率很大。用一步线性近似,等于用直线逼近一条弯弯曲曲的河,必然偏离。
2.3 少步生成:三种思路
学术界一直在探索少步扩散/流匹配。大概有三条路线:
蒸馏路线。训练一个快学生模仿慢老师。一致性模型(Consistency Models)是代表,用 " consistency function" 让不同时间点的预测保持一致。思路清晰,但容易平滑掉高频细节——学生太急于毕业,把老师的微妙笔触全丢了。
采样器路线。不碰训练,只换采样。DPM-Solver++、DPM-Solver-3、UniPC 等,用高阶数值方法来逼近 ODE 路径。思路是"更聪明的积分",在同样的步数内获得更高精度。但步数少了(比如 4 步),精度仍然有极限。
训练路线。直接训练出一步/少步能用的模型。Shortcut Models、MeanFlow 是代表。在训练目标里加入"一致性约束",让模型天生适合少步采样。RecFM 属于这一类,但做法不同。
三、递归流匹配:把一条河变成一族河
RecFM 的解决思路是:既然一条路径不够,那就造一族路径。
3.1 核心思想
想象你站在河岸上。主河道是直的,从 \(A\) 到 \(B\)。但还有支流——从 \(A\) 到 \(A\) 和 \(B\) 的中点,从 \(A\) 到 \(1/4\) 处,等等。所有支流在同一点交汇。如果每一条支流的速度都满足同一个递归关系,那它们就像壁球单摆里不同"时间尺度"的轨迹,共享同一个物理规律。
具体来说,RecFM 定义了一个速度网络 \(v_\theta(x, t, \alpha)\),其中 \(\alpha\) 是"尺度参数"。\(\alpha=1\) 对应主轨迹(从噪声到完整数据);\(\alpha<1\) 对应次级轨迹(从噪声到部分数据)。
3.2 数学结构
对于递归深度 \(D\),RecFM 构造 \(D\) 条轨迹,共享同一个空间点 \(x_t\):
第 \(i\) 条轨迹的时间被重缩放:
关键约束:次级轨迹的速度必须是主轨迹速度的缩放版本——
这个约束在训练时通过两个损失函数来实现:
- 轨迹监督损失 \(L_{\text{traj}}^{(i)}\):让每条轨迹的速度匹配其对应的目标速度 \(\alpha^{(i)} v^*\)
- 跨尺度一致性损失 \(L_{\text{cons}}^{(i)}\):让次级轨迹的速度等于主轨迹速度的缩放版本
总损失:
\(\lambda\) 是一个超参数,控制一致性约束的强度。论文发现 \(\lambda=1\) 时效果最好。
3.3 为什么这能工作?
从理论上,RecFM 证明了全局最优解满足一个重要的"一致性条件":
这个条件约束了速度场的时间变化率 \(\partial_t v\)。而在欧拉采样的误差界里,误差正比于速度场的"加速度"(时间导数与空间导数的组合)。约束了加速度,就收紧了误差界。用壁球单摆的话说:如果不同尺度的轨迹在共享点上"达成一致",那神经网络学到的速度场就"更平",用更少的步数就能逼近真实路径。
论文还证明了次级轨迹保持边际分布:从 \(\alpha=0.5\) 的轨迹上采样,得到的分布正好是 \(p_{0.5}\)——即主轨迹走到一半时的分布。这意味着多尺度结构不是装饰,而是真正参与了概率路径的构建。
3.4 训练算法的直觉
训练时,每次迭代采样一个数据点 \(x_0\)、一个噪声点 \(x_1\)、一个时间 \(t \sim U(0,1)\) 和一个尺度 \(\alpha \sim U(t,1)\)。然后计算共享点 \(x_t\)。
对 \(i=1\) 到 \(D\):
- 计算 \(\alpha^{(i)} = \alpha^{i-1}\)
- 计算重缩放时间 \(\tau^{(i)} = t / \alpha^{(i)}\)
- 让网络预测速度 \(\hat{v}^{(i)} = v_\theta(x_t, \tau^{(i)}, \alpha^{(i)})\)
- 监督它:\(\hat{v}^{(i)}\) 应该接近 \(\alpha^{(i)} (x_1 - x_0)\)
对 \(i=2\) 到 \(D\):
- 约束它:\(\hat{v}^{(i)}\) 应该接近 \(\alpha^{(i)} \hat{v}^{(1)}\)
两个损失相加。主轨迹学"从噪声到数据";次级轨迹学"从噪声到部分数据",并且速度必须与主轨迹成比例。这就是"一致性"的数学化身。
关键点:尺度参数 \(\alpha\) 在训练时可以任意采样。这给了训练很大的自由度,相当于在条件空间(\(t\) 和 \(\alpha\) 的配对)里做了数据增强。每个训练点 \(x_t\) 不再只有一个回归目标,而是有 \(D\) 个目标。梯度信号更丰富,模型学得更扎实。
四、实验结果:一步、两步、二十倍
论文在三个科学数据集上测试了 RecFM。三个数据集代表了三种不同的物理系统:真实世界气候、模拟流体、确定性方程。
4.1 海表温度(SST):真实世界的不完美
真实世界数据。60×60 的经纬度网格,1982 到 2021 年的每日温度。任务是:给定一天的温度场,预测未来七天。
这是三个数据集里"最脏"的。真实世界有噪声、有缺失、有异常值。气候系统的混沌性意味着长期预测本质上不可行——但短期预测(7天)是有意义的。
RecFM 一步(1-step)的结果:CRPS 0.217,MSE 0.162。对比:
- DDPM(50 步):CRPS 0.246,MSE 0.177
- MCVD(50 步):CRPS 0.216,MSE 0.161
- DYffusion(50 步):CRPS 0.224,MSE 0.173
- VideoPDE(50 步):CRPS 0.216,MSE 0.162,但耗时 19.75 秒
- RecFM(1-step):0.43 秒
速度提升约 45 倍(相对于 VideoPDE),或 20 倍(相对于扩散基线平均)。精度与最好的多步方法持平。在真实世界数据上,一步生成能做到这个精度,说明多尺度一致性约束确实把模型"教好了"——它不只是快,而是又快又准。
SSR(Spectral Skill Ratio)是另一个指标,衡量预测频谱与真实频谱的匹配度。理想值是 1。RecFM 一步的 SSR 是 0.984,两步是 1.004。几乎完美。这意味着 RecFM 不仅预测对了"均值",还预测对了"波动"——温度场的空间结构被保留得很好。
4.2 Navier-Stokes 流体:模拟的混沌
模拟数据。221×42 的网格,三个通道(速度 \(u\)、速度 \(v\)、压力 \(p\))。自回归预测,每次推 16 帧。这是经典的流体动力学问题——涡旋、湍流、能量级联。Navier-Stokes 方程是混沌的,微小扰动会导致完全不同的流场。所以这是"可预测"但"难预测"的——模型需要学会方程的统计规律,而不是记忆特定轨迹。
RecFM 一步:CRPS 0.031,MSE 0.0064。对比:
- VideoPDE(50 步):CRPS 0.033,MSE 0.0068,耗时 72.64 秒
- Vanilla FM(5 步):CRPS 0.036,MSE 0.0076,耗时 6.91 秒
- RecFM(1-step):1.59 秒,且 CRPS 更低
比 VideoPDE 快了约 45 倍,比 Vanilla FM 也快了 4 倍以上。MSE 从 0.0076 降到 0.0064,降幅约 15.8%。
在流体上,RecFM 的优势尤其明显。因为流体的速度场是连续的、平滑的,但涡旋结构是局部化的。多尺度一致性训练让模型同时学会了"大尺度流动"和"小尺度涡旋"——主轨迹负责整体趋势,次级轨迹负责局部细节。一步生成就能同时捕捉两者。
4.3 Helmholtz 阶梯方程:确定性的极致
解析声学散射。1024×256 的网格,纯周期时变。这是三个数据集里最"确定"的——方程已知,没有噪声。输入和输出之间有严格的数学关系。如果模型能学会这个关系,它就能做到近乎完美。
RecFM 一步:CRPS 0.0034,MSE 4.2e-5。对比:
- VideoPDE(50 步):CRPS 0.026,MSE 5.6e-4
- Vanilla FM(5 步):CRPS 0.030,MSE 6.5e-4
- RecFM(2-step):CRPS 0.0027,MSE 2.7e-5
这个差距大到离谱。RecFM 一步比 VideoPDE 快了约 40 倍,MSE 低了一个数量级。在确定性系统上,少步采样的优势被放大到极致。因为系统本身没有随机性,模型的误差完全来自近似。多步采样反而引入更多误差(每步的预测误差累积),一步直接走到底反而最准。
4.4 图像生成:不只是物理
为了证明 RecFM 不是只能做科学模拟,论文在 ImageNet-256 上训练了 RecFM-XL(675M 参数,160 epoch)。
- 128 步采样:FID 2.53
- 16 步采样:FID 2.49
- 8 步采样:FID 3.22
作为对比:
- Shortcut Models(128 步,250 epoch):FID 3.8
- DiT-XL(500 步,640 epoch):FID 2.27
- SiT-XL(250 步,640 epoch):FID 2.06
RecFM 在 16 步时就达到了 FID 2.49,与 SiT-XL 的 250 步接近。而且训练 epoch 只有 160,不到 Shortcut Models 的三分之二。这意味着 RecFM 的"多尺度一致性"训练框架不仅提高了推理效率,也改善了训练效率——一致性损失充当了"数据增强",在条件空间(\(t\) 和 \(\alpha\) 的配对)里制造了更多监督信号,让模型学得更快。
五、消融实验:什么在起作用?
5.1 \(\lambda\) 的影响
一致性权重 \(\lambda\) 控制跨尺度约束的强度。论文在 Navier-Stokes 上做了消融:
| \(\lambda\) | 1-step CRPS | 1-step MSE | 1-step SSR | 5-step CRPS |
|---|---|---|---|---|
| 0.0 | 0.035 | 0.0074 | 0.957 | 0.039 |
| 0.5 | 0.034 | 0.0071 | 1.024 | 0.040 |
| 1.0 | 0.031 | 0.0064 | 0.959 | 0.037 |
| 10.0 | 0.038 | 0.0089 | 0.988 | 0.039 |
| \(10^6\) | 0.238 | 0.268 | 1.147 | 0.234 |
没有一致性约束(\(\lambda=0\)),RecFM 退化成普通的多轨迹回归,精度明显差。一致性约束太强(\(\lambda=10^6\)),模型过拟合到约束上,性能崩溃。\(\lambda=1\) 是甜点。
这个消融很有说服力。它证明了"一致性"不是可有可无的装饰品,而是 RecFM 的核心机制。没有它,模型就是一堆独立轨迹的缝合;有了它,模型才变成一个有物理结构的统一体。
5.2 递归深度 \(D\) 的影响
| 配置 | CRPS | MSE | SSR | 时间 |
|---|---|---|---|---|
| Vanilla FM(5-step) | 0.036 | 0.0076 | 0.911 | 6.91s |
| RecFM \(D=2\)(1-step) | 0.031 | 0.0064 | 0.959 | 1.59s |
| RecFM \(D=3\)(1-step) | 0.031 | 0.0065 | 1.091 | 1.59s |
\(D=2\) 已经够用。加一条第三级轨迹,精度几乎不变,说明物理上最关键的一致性已经由两条轨迹捕获。但 SSR 从 0.959 跳到 1.091,说明深一点的递归能改善"谱比率"(衡量频率分布匹配度的指标)。
5.3 推理步数的影响
一个反直觉的发现:增加推理步数反而可能降低性能。
在物理模拟中,系统是确定性的。多步采样意味着多次累积误差——每一步的神经预测都不是完美的,误差会叠加。RecFM 一步直接走到底,避免了误差传播。两步在大多数情况下也还好,但超过两步,性能开始下降。这与图像生成不同(图像生成中多步采样通常改善质量),说明物理模拟的"确定性"带来了新的优化空间:一步生成可能是最优的。
这个发现对实际部署有重要意义。如果你用 RecFM 做实时流体模拟,别贪多——一步就够。加步骤只会增加误差和延迟,没有收益。
六、与现有方法的对比:RecFM 站在哪里?
论文的实验设计里,有一个值得注意的选择:主要对比对象是 VideoPDE,而不是 Shortcut Models 或 DPM-Solver++。
VideoPDE 是 2025 年的最新工作,用分层视频修复 Transformer 做 PDE 求解,与 RecFM 共享 HV-DiT 骨干架构。比较公平。但 VideoPDE 需要 50 步采样,RecFM 一步就打平了——这就是 20 倍提速的来源。
那为什么不和 Shortcut Models 比?论文在附录 H 里做了对比。Shortcut Models 是 Frans et al. 2024 年的工作,核心也是"区间一致性"——让不同时间点的预测相互一致。RecFM 和它的区别:
- Shortcut Models 在静态生成(图片)上设计,需要 warm-up 阶段训练不稳定;
- RecFM 的尺度参数 \(\alpha\) 可以任意采样,不需要特殊 warm-up,训练更稳定;
- RecFM 的"多尺度"是递归的,而 Shortcut Models 的"多步"是平行的。
在 ImageNet 上,RecFM 16 步 FID 2.49,Shortcut Models 128 步 FID 3.8。差距明显。
那和 DPM-Solver++、LCM 这些专门的少步扩散采样器比呢?论文没有直接对比。原因可能是:这些采样器是"后处理"——在已训练好的扩散模型上换采样器,不改变训练过程。而 RecFM 是训练方法,直接训练出能一步采样的模型。两者是不同赛道。RecFM 的 20 倍提速,主要是对比 VideoPDE 这种同类的"多步物理模拟器"。
还有一个论文没有正面回答的问题:训练成本。
RecFM 每次训练迭代要计算 \(D\) 条轨迹的损失,加上 \(D-1\) 个一致性损失。一次迭代的前向传播次数大约是 Vanilla FM 的 \(D\) 倍。但论文指出,训练稳定性更好——因为一致性损失充当了数据增强,收敛更快。在 Navier-Stokes 上,RecFM 用更少的函数评估次数(NFE)就达到了更低的验证误差。ImageNet 上,160 epoch 就能超越 Shortcut Models 250 epoch 的效果。综合来看,训练成本可能更高(每次迭代),但收敛更快,总训练时间未必更长。不过论文没有给出精确的 GPU 小时数,这是一个需要进一步验证的点。
七、物理直觉的落地:单摆不是比喻,是结构
论文反复强调"壁球单摆"的物理直觉。但直觉和数学之间有多远?
答案是:不远。壁球单摆的速度缩放关系 \(v^{(i+1)} = \alpha v^{(i)}\) 被直接转化为一致性损失。更深层地,单摆的"碰撞衰减"对应了流匹配的"离散化误差"——每次碰撞损失的能量,对应了欧拉步采样时偏离真实路径的误差。RecFM 的"拉直"不是比喻:一致性条件强制速度场的时间导数被约束,这在数学上等价于让 ODE 路径的曲率更小,从而用更少的欧拉步就能逼近。
当然,论文也承认,这种物理直觉的"适用范围"是受限的。壁球单摆是一维、分段线性的。真实的物理系统(Navier-Stokes)是非线性、高维、混沌的。把一维玩具的缩放关系搬到高维流形上,是一种"类比"而非"严格对应"。但正如费曼所说:物理学的进步,往往来自一个好比喻的精确化。RecFM 的贡献,不是证明了一维单摆和高维流形之间的同构,而是证明了这个类比在训练目标中的有效嵌入——通过一致性损失,物理直觉变成了可优化的数学约束。
八、局限与未来
RecFM 不是万能的。
第一,它目前只在时空预测任务上验证。对于纯静态生成(如无条件图像生成),RecFM 的 ImageNet 结果虽然不错,但还没有超越 DiT/SiT 的极限。多尺度一致性在"时序"数据上更有优势,因为时序数据天然有"尺度"(时间分辨率)。
第二,递归深度 \(D\) 的选择。论文用了 \(D=2\) 和 \(D=3\)。更大的 \(D\) 是否会更好?理论上,更深的递归能提供更多的尺度,但计算成本线性增长。\(D=3\) 的结果已经饱和,说明实际收益存在边际递减。
第三,误差指标。论文主要用 MSE、CRPS 和 SSR。这些指标衡量的是"预测分布与真实分布的匹配程度"。但在物理模拟中,人们同样关心守恒量——能量是否守恒、动量是否守恒、质量是否守恒。论文在附录 F 里对比了 PBFM(一种显式加入 PDE 残差约束的方法),发现 RecFM 在动能精度(KE Accuracy)上略逊于 PBFM,但在速度和通用性上胜出。这是一个 trade-off:RecFM 不依赖已知方程,所以适用于纯数据驱动的场景;PBFM 需要方程,所以精度更高。RecFM 在物理守恒性上是否足够好?这个问题取决于应用——对天气预报来说,也许够用;对核反应堆模拟来说,可能不够。
第四,训练开销。论文没有给出 GPU 小时的精确数字。虽然收敛曲线显示 RecFM 收敛更快,但每次迭代的计算量更大。如果总训练成本是 Vanilla FM 的 2-3 倍,那推理快 20 倍才"划算"。如果总训练成本是 10 倍,那对于需要频繁重训练的场景(如在线学习),RecFM 的优势就不明显了。
九、结语:一个更好的问题
RecFM 最有趣的地方,不是它做了什么,而是它问了一个什么问题。
过去的加速思路:要么"蒸馏"——训练一个快学生模仿慢老师;要么"设计更好的采样器"——在已有模型上换采样策略。RecFM 的思路不同:它问的是,训练过程中能不能直接教模型"少步生成"?
答案是:能。方法不是更聪明的采样,而是更聪明的训练目标——让模型在训练时同时看到多个尺度的任务,并强制它们相互一致。就像学钢琴时,老师让你同时练慢速和快速版本,并确保指法一致。练完之后,你弹快版不会出错——因为慢版已经帮你纠正了每一个偏差。
这就是 RecFM 的精髓。它不是一台更快的引擎,而是一个更好的训练方法。壁球单摆不是装饰品,而是结构。递归不是技巧,而是物理规律的数学回声。
Rose Yu 团队的工作一贯如此:从物理的直觉出发,把直觉变成可训练的约束。之前她用几何代数做 Transformer,这次用壁球单摆做流匹配。下一条,也许是量子力学的某种守恒律。谁知道呢。但有一条是确定的:物理不会辜负那些真正听懂它的人。
核心参考文献
-
Huang, J., Xu, S., Vadgama, S., & Yu, R. (2026). Recursive Flow Matching. arXiv preprint arXiv:2605.26535. https://arxiv.org/abs/2605.26535
-
Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2022). Flow Matching for Generative Modeling. arXiv preprint arXiv:2210.02747. https://arxiv.org/abs/2210.02747
-
Li, E., Wang, Z., Huang, J., & Park, J. J. (2025). VideoPDE: Unified generative PDE solving via video inpainting diffusion models. arXiv preprint arXiv:2506.13754. https://arxiv.org/abs/2506.13754
-
Frans, K., Hafner, D., Levine, S., & Abbeel, P. (2024). One step diffusion via shortcut models. arXiv preprint arXiv:2410.12557. https://arxiv.org/abs/2410.12557
-
Rühling Cachay, S., Zhao, B., Joren, H., & Yu, R. (2023). Dyffusion: A dynamics-informed diffusion model for spatiotemporal forecasting. Advances in Neural Information Processing Systems, 36, 45259-45287. https://arxiv.org/abs/2211.01177
#论文 #RoseYu #RecFM #流匹配 #扩散模型 #科学模拟 #物理模拟 #小凯
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。