Physics in 2-Steps:2步扩散比50步更懂物理?
> 一个让扩散模型研究者脊背发凉的发现:把去噪步数从2增加到50,视频反而变得更不真实——不是画质,是物理。延世大学和NVIDIA的团队发现,去噪过程在细化纹理的同时,悄悄"擦掉"了正确的运动先验。原因藏在傅里叶变换的相位谱里。
---
一、一个反直觉的发现:少即是多
图像到视频(I2V)扩散模型已经能生成令人惊艳的视觉效果。但有一个长期被忽视的问题:视频看起来很美,但运动常常违反物理定律。
一个篮球撞向墙壁后应该反弹。但模型生成的视频里,球可能穿墙而过、或者粘在墙上、或者违反能量守恒地无限弹跳。
现有解决方案通常走两条路: 1. 外部物理模拟器:用传统物理引擎(如Blender、PyBullet)生成参考运动,再指导扩散模型。效果可以,但开销巨大。 2. 强化学习/奖励模型:训练一个物理一致性奖励模型(如WMReward),用强化学习或classifier-free guidance来优化。需要额外数据和训练。
这篇来自延世大学和NVIDIA的论文(arXiv:2606.06361,ICML 2026)发现了一个完全出乎意料的现象:
> 同一个模型,同样的输入,只跑2步去噪生成的视频,物理一致性反而比跑50步更好。
这不是画质vs物理的权衡——2步的画质确实粗糙(噪声多、纹理模糊),但它的运动轨迹是对的。50步把画质拉满了,却把运动搞错了。
---
二、根因:相位谱退化
2.1 傅里叶视角:运动和纹理住在不同"频段"
论文通过频谱分析找到了答案。
对视频做时空傅里叶变换,信息分布在两个维度:
- 幅度谱(Magnitude):编码纹理、外观、细节
- 相位谱(Phase):编码结构、运动轨迹、物体位置
| 指标 | 2步 → 50步变化 |
|---|---|
| 相位谱 | 下降约18% |
| 幅度谱 | 相对稳定 |
| 物理一致性 | 显著下降 |
2.2 相位敏感度:为什么物理对相位如此脆弱?
论文做了相位corruption的敏感性实验:
- 相位corruption:对相位谱加入噪声,保持幅度不变
- 幅度corruption:对幅度谱加入噪声,保持相位不变
物理运动对相位变化高度敏感,而视觉外观对幅度变化更敏感。扩散模型的去噪过程恰好是"保幅度、毁相位"——所以它越去噪,物理越差。
2.3 对照实验:不是模糊度的问题
有人可能会说:2步视频更"物理"是因为它更模糊,模糊掩盖了物理错误。
论文排除了这个解释:用高斯模糊把50步输出的模糊度匹配到2步水平,2步输出的Phase Temporal Correlation仍然显著更高。
> 相位损失是结构性的,不是频率伪影。
---
三、PhaseLock:两步走策略
基于这个发现,论文提出了PhaseLock——一个训练-free、模型无关的框架。
3.1 核心思想
不需要50步来建立物理。2步已经足够捕捉正确的运动先验。问题是如何在后续的视觉细化中保留这个先验。
PhaseLock 的流程:
Step 1:提取运动先验(2步)
- 跑2步去噪,得到粗糙但物理正确的潜在序列 $z_2$
- 计算帧间运动差:$\Delta_{phys} = z_2(t+1) - z_2(t)$
- 这个delta编码了物理上有效的运动演化
- 重新启动50步去噪
- 在每一步去噪中,加入 Latent Delta Guidance:
- 其中 $\lambda = 0.05$,线性衰减
- 这相当于"偏置"50步的去噪轨迹,让它不要偏离2步已经找到的物理正确路径
3.2 为什么是Latent Delta?
直接在像素空间做guidance会破坏纹理细节。在潜在空间(latent space)操作:
- 保留了扩散模型的去噪动态
- delta本身编码的是运动信息,对纹理影响小
- 可以和任何基于latent的扩散模型无缝集成
四、实验:适配所有主流模型
4.1 测试模型
| 模型 | 类型 | 适配方式 |
|---|---|---|
| CogVideoX | I2V 扩散模型 | 直接集成 |
| Wan 2.1 | I2V 扩散模型 | 直接集成 |
| 其他主流模型 | 基于latent的扩散 | 模型无关,即插即用 |
4.2 核心结果
| 指标 | 基线(50步) | +PhaseLock | 提升 |
|---|---|---|---|
| Physics-IQ | 基准 | - | +6.2(平均) |
| 物理一致性 | 低 | 高 | 显著 |
| 视觉保真度 | 高 | 高(保持) | 无损失 |
| 时间开销 | 1× | 1.06× | 几乎无增加 |
| 显存开销 | 1× | 1.02× | 几乎无增加 |
4.3 定性对比
论文展示的场景包括:
- 流体位移:一杯水倾倒,基线可能让水流穿墙;PhaseLock让水流遵循重力
- 刚体掉落:一个球从桌上滚落,基线可能让球悬浮或无限弹跳;PhaseLock遵循牛顿定律
- 毛细流动:液体在细管中上升,基线可能违反表面张力;PhaseLock保持物理一致
> 磁铁篮子实验:一个带磁铁的篮子 lowered 到一个橙色网球上方再 lifted。 > - 基线:球粘在磁铁上被一起提起来(网球是非磁性的!) > - PhaseLock:球正确地留在桌面上(物理正确)
4.4 效率对比
| 方法 | 时间开销 | 是否需要训练 | 是否需要外部模拟器 |
|---|---|---|---|
| 基线(50步) | 1× | 否 | 否 |
| PhaseLock | 1.06× | 否 | 否 |
| WMReward(外部guidance) | ~5× | 需要奖励模型 | 否 |
| 物理模拟器引导 | >5× | 否 | 需要 |
4.5 消融实验
- λ 值:0.05是最优值,太小则guidance不够,太大则影响纹理
- 步数选择:2步是最佳运动先验提取点,1步物理不够稳定,>2步相位开始退化
- Latent空间 vs 像素空间:Latent space guidance显著优于像素空间(纹理保持更好)
五、为什么这个方法优雅
5.1 三个"不需要"
| 维度 | 传统方法 | PhaseLock |
|---|---|---|
| 训练 | 需要奖励模型/强化学习 | 不需要 |
| 外部工具 | 需要物理引擎 | 不需要 |
| 模型修改 | 需要fine-tune | 不需要 |
| 数据标注 | 需要物理标注 | 不需要 |
5.2 本质:利用模型已有的知识
PhaseLock的深层洞察:I2V扩散模型在2步时已经"知道"正确的物理运动,只是没有足够的步数来打磨纹理。 50步的问题不是"学不到物理",而是"忘记了已经知道的物理"。
这就像一个学生:
- 2步 = 学生快速写下正确答案的草稿(思路对,但字迹潦草)
- 50步 = 学生花大量时间把字迹写工整,但过程中把公式改错了
- PhaseLock = 锁定草稿中的正确思路,然后在保持思路不变的前提下把字写工整
六、局限与讨论
6.1 适用范围
PhaseLock最适合:
- 有明显物理运动的场景(刚体、流体、碰撞)
- 基于latent的扩散模型(CogVideoX、Wan 2.1等)
- 高度抽象/非物理运动(如风格化动画)
- 非latent-based的扩散模型
- 需要精确物理参数的场景(如工程仿真)
6.2 2步的"物理正确"有边界
论文承认:2步的运动先验虽然比50步更物理,但它仍然不完美。PhaseLock是在"相对提升",不是"绝对解决"。对于复杂的多物体交互或精细的软体物理,2步先验可能不够。
6.3 和外部Guidance的关系
PhaseLock不替代WMReward等外部guidance,而是提供一种更轻量的基线选择。如果6.2点不够,可以叠加外部guidance。
---
七、结语:去噪的另一面
扩散模型的去噪过程被设计来"生成更好看的图像"。但这篇论文揭示了一个被忽视的维度:去噪在优化视觉保真度的同时,在潜在空间里做了一件坏事——腐蚀编码物理运动的相位信息。
这不是扩散模型的"bug",而是其设计目标的副作用。模型被训练来生成"看起来真实的视频",而不是"遵循物理定律的视频"。当优化目标只有视觉质量时,物理正确性就成了可牺牲的变量。
PhaseLock的优雅在于:它没有试图改变模型或增加外部约束,而是巧妙地利用了模型在不同去噪阶段的"知识差异"——2步时物理知识还在,50步时纹理知识充分。用前者引导后者,两全其美。
> "PhaseLock extracts Δphys from 2 steps and injects it back into the 50-step run, recovering both fidelity and physics."
1.06倍时间开销,6.2点物理提升。这可能是视频扩散模型领域最划算的trade-off之一。
---
参考
- 论文:Han et al., "Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them", arXiv:2606.06361 (ICML 2026)
- 机构:Yonsei University, NVIDIA
- 项目主页:https://dnwjddl.github.io/phaselock/
- 核心效果:+6.2 Physics-IQ, 1.06×时间, 1.02×显存
- 适配模型:CogVideoX, Wan 2.1 等
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens