Physics in 2-Steps：2步扩散比50步更懂物理？

> 一个让扩散模型研究者脊背发凉的发现：把去噪步数从2增加到50，视频反而变得更不真实——不是画质，是物理。延世大学和NVIDIA的团队发现，去噪过程在细化纹理的同时，悄悄"擦掉"了正确的运动先验。原因藏在傅里叶变换的相位谱里。

---

一、一个反直觉的发现：少即是多

图像到视频（I2V）扩散模型已经能生成令人惊艳的视觉效果。但有一个长期被忽视的问题：视频看起来很美，但运动常常违反物理定律。

一个篮球撞向墙壁后应该反弹。但模型生成的视频里，球可能穿墙而过、或者粘在墙上、或者违反能量守恒地无限弹跳。

现有解决方案通常走两条路： 1. 外部物理模拟器：用传统物理引擎（如Blender、PyBullet）生成参考运动，再指导扩散模型。效果可以，但开销巨大。 2. 强化学习/奖励模型：训练一个物理一致性奖励模型（如WMReward），用强化学习或classifier-free guidance来优化。需要额外数据和训练。

这篇来自延世大学和NVIDIA的论文（arXiv:2606.06361，ICML 2026）发现了一个完全出乎意料的现象：

> 同一个模型，同样的输入，只跑2步去噪生成的视频，物理一致性反而比跑50步更好。

这不是画质vs物理的权衡——2步的画质确实粗糙（噪声多、纹理模糊），但它的运动轨迹是对的。50步把画质拉满了，却把运动搞错了。

---

二、根因：相位谱退化

2.1 傅里叶视角：运动和纹理住在不同"频段"

论文通过频谱分析找到了答案。

对视频做时空傅里叶变换，信息分布在两个维度：

幅度谱（Magnitude）：编码纹理、外观、细节
相位谱（Phase）：编码结构、运动轨迹、物体位置

关键发现：去噪过程主要破坏相位，幅度几乎不受影响。

指标	2步 → 50步变化
相位谱	下降约18%
幅度谱	相对稳定
物理一致性	显著下降

这意味着什么？扩散模型的去噪链在"细化"图像时，实际上是在优化幅度（让它看起来更清晰、更真实），但代价是相位被逐步腐蚀——而相位恰恰是物理运动的编码所在。

2.2 相位敏感度：为什么物理对相位如此脆弱？

论文做了相位corruption的敏感性实验：

相位corruption：对相位谱加入噪声，保持幅度不变
幅度corruption：对幅度谱加入噪声，保持相位不变

结果：相位corruption导致的光流畸变是幅度corruption的8.5倍。

物理运动对相位变化高度敏感，而视觉外观对幅度变化更敏感。扩散模型的去噪过程恰好是"保幅度、毁相位"——所以它越去噪，物理越差。

2.3 对照实验：不是模糊度的问题

有人可能会说：2步视频更"物理"是因为它更模糊，模糊掩盖了物理错误。

论文排除了这个解释：用高斯模糊把50步输出的模糊度匹配到2步水平，2步输出的Phase Temporal Correlation仍然显著更高。

> 相位损失是结构性的，不是频率伪影。

---

三、PhaseLock：两步走策略

基于这个发现，论文提出了PhaseLock——一个训练-free、模型无关的框架。

3.1 核心思想

不需要50步来建立物理。2步已经足够捕捉正确的运动先验。问题是如何在后续的视觉细化中保留这个先验。

PhaseLock 的流程：

Step 1：提取运动先验（2步）

跑2步去噪，得到粗糙但物理正确的潜在序列 $z_2$
计算帧间运动差：$\Delta_{phys} = z_2(t+1) - z_2(t)$
这个delta编码了物理上有效的运动演化

Step 2：锁定并引导（50步 + Guidance）

重新启动50步去噪
在每一步去噪中，加入 Latent Delta Guidance：

$$z_{t+1} = z_{t+1}^{denoise} + \lambda \cdot \Delta_{phys}$$

其中 $\lambda = 0.05$，线性衰减
这相当于"偏置"50步的去噪轨迹，让它不要偏离2步已经找到的物理正确路径

3.2 为什么是Latent Delta？

直接在像素空间做guidance会破坏纹理细节。在潜在空间（latent space）操作：

保留了扩散模型的去噪动态
delta本身编码的是运动信息，对纹理影响小
可以和任何基于latent的扩散模型无缝集成

---

四、实验：适配所有主流模型

4.1 测试模型

模型	类型	适配方式
CogVideoX	I2V 扩散模型	直接集成
Wan 2.1	I2V 扩散模型	直接集成
其他主流模型	基于latent的扩散	模型无关，即插即用

4.2 核心结果

指标	基线（50步）	+PhaseLock	提升
Physics-IQ	基准	-	+6.2（平均）
物理一致性	低	高	显著
视觉保真度	高	高（保持）	无损失
时间开销	1×	1.06×	几乎无增加
显存开销	1×	1.02×	几乎无增加

关键：PhaseLock在提升物理的同时，不牺牲视觉质量。 因为它不是在"约束"50步去噪让它变粗糙，而是在"引导"它沿着物理正确的方向细化。

4.3 定性对比

论文展示的场景包括：

流体位移：一杯水倾倒，基线可能让水流穿墙；PhaseLock让水流遵循重力
刚体掉落：一个球从桌上滚落，基线可能让球悬浮或无限弹跳；PhaseLock遵循牛顿定律
毛细流动：液体在细管中上升，基线可能违反表面张力；PhaseLock保持物理一致

一个特别直观的例子（项目主页展示）：

> 磁铁篮子实验：一个带磁铁的篮子 lowered 到一个橙色网球上方再 lifted。 > - 基线：球粘在磁铁上被一起提起来（网球是非磁性的！） > - PhaseLock：球正确地留在桌面上（物理正确）

4.4 效率对比

方法	时间开销	是否需要训练	是否需要外部模拟器
基线（50步）	1×	否	否
PhaseLock	1.06×	否	否
WMReward（外部guidance）	~5×	需要奖励模型	否
物理模拟器引导	>5×	否	需要

PhaseLock比同类外部guidance方法效率高5倍，而且不需要任何额外训练或外部工具。

4.5 消融实验

λ 值：0.05是最优值，太小则guidance不够，太大则影响纹理
步数选择：2步是最佳运动先验提取点，1步物理不够稳定，>2步相位开始退化
Latent空间 vs 像素空间：Latent space guidance显著优于像素空间（纹理保持更好）

---

五、为什么这个方法优雅

5.1 三个"不需要"

维度	传统方法	PhaseLock
训练	需要奖励模型/强化学习	不需要
外部工具	需要物理引擎	不需要
模型修改	需要fine-tune	不需要
数据标注	需要物理标注	不需要

5.2 本质：利用模型已有的知识

PhaseLock的深层洞察：I2V扩散模型在2步时已经"知道"正确的物理运动，只是没有足够的步数来打磨纹理。 50步的问题不是"学不到物理"，而是"忘记了已经知道的物理"。

这就像一个学生：

2步 = 学生快速写下正确答案的草稿（思路对，但字迹潦草）
50步 = 学生花大量时间把字迹写工整，但过程中把公式改错了
PhaseLock = 锁定草稿中的正确思路，然后在保持思路不变的前提下把字写工整

---

六、局限与讨论

6.1 适用范围

PhaseLock最适合：

有明显物理运动的场景（刚体、流体、碰撞）
基于latent的扩散模型（CogVideoX、Wan 2.1等）

可能不适用：

高度抽象/非物理运动（如风格化动画）
非latent-based的扩散模型
需要精确物理参数的场景（如工程仿真）

6.2 2步的"物理正确"有边界

论文承认：2步的运动先验虽然比50步更物理，但它仍然不完美。PhaseLock是在"相对提升"，不是"绝对解决"。对于复杂的多物体交互或精细的软体物理，2步先验可能不够。

6.3 和外部Guidance的关系

PhaseLock不替代WMReward等外部guidance，而是提供一种更轻量的基线选择。如果6.2点不够，可以叠加外部guidance。

---

七、结语：去噪的另一面

扩散模型的去噪过程被设计来"生成更好看的图像"。但这篇论文揭示了一个被忽视的维度：去噪在优化视觉保真度的同时，在潜在空间里做了一件坏事——腐蚀编码物理运动的相位信息。

这不是扩散模型的"bug"，而是其设计目标的副作用。模型被训练来生成"看起来真实的视频"，而不是"遵循物理定律的视频"。当优化目标只有视觉质量时，物理正确性就成了可牺牲的变量。

PhaseLock的优雅在于：它没有试图改变模型或增加外部约束，而是巧妙地利用了模型在不同去噪阶段的"知识差异"——2步时物理知识还在，50步时纹理知识充分。用前者引导后者，两全其美。

> "PhaseLock extracts Δphys from 2 steps and injects it back into the 50-step run, recovering both fidelity and physics."

1.06倍时间开销，6.2点物理提升。这可能是视频扩散模型领域最划算的trade-off之一。

---

参考

论文：Han et al., "Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them", arXiv:2606.06361 (ICML 2026)
机构：Yonsei University, NVIDIA
项目主页：https://dnwjddl.github.io/phaselock/
核心效果：+6.2 Physics-IQ, 1.06×时间, 1.02×显存
适配模型：CogVideoX, Wan 2.1 等

#视频生成 #扩散模型 #物理一致性 #相位谱 #I2V #CogVideoX #Wan2.1 #ICML2026 #训练-free