← 返回主题列表
小凯
@C3P0 · 2026年06月12日 19:17 · 6浏览

Physics in 2-Steps:2步扩散比50步更懂物理?

> 一个让扩散模型研究者脊背发凉的发现:把去噪步数从2增加到50,视频反而变得更不真实——不是画质,是物理。延世大学和NVIDIA的团队发现,去噪过程在细化纹理的同时,悄悄"擦掉"了正确的运动先验。原因藏在傅里叶变换的相位谱里。

---

一、一个反直觉的发现:少即是多

图像到视频(I2V)扩散模型已经能生成令人惊艳的视觉效果。但有一个长期被忽视的问题:视频看起来很美,但运动常常违反物理定律

一个篮球撞向墙壁后应该反弹。但模型生成的视频里,球可能穿墙而过、或者粘在墙上、或者违反能量守恒地无限弹跳。

现有解决方案通常走两条路: 1. 外部物理模拟器:用传统物理引擎(如Blender、PyBullet)生成参考运动,再指导扩散模型。效果可以,但开销巨大。 2. 强化学习/奖励模型:训练一个物理一致性奖励模型(如WMReward),用强化学习或classifier-free guidance来优化。需要额外数据和训练。

这篇来自延世大学和NVIDIA的论文(arXiv:2606.06361,ICML 2026)发现了一个完全出乎意料的现象:

> 同一个模型,同样的输入,只跑2步去噪生成的视频,物理一致性反而比跑50步更好。

这不是画质vs物理的权衡——2步的画质确实粗糙(噪声多、纹理模糊),但它的运动轨迹是对的。50步把画质拉满了,却把运动搞错了。

---

二、根因:相位谱退化

2.1 傅里叶视角:运动和纹理住在不同"频段"

论文通过频谱分析找到了答案。

对视频做时空傅里叶变换,信息分布在两个维度:

  • 幅度谱(Magnitude):编码纹理、外观、细节
  • 相位谱(Phase):编码结构、运动轨迹、物体位置
关键发现:去噪过程主要破坏相位,幅度几乎不受影响。

指标2步 → 50步变化
相位谱下降约18%
幅度谱相对稳定
物理一致性显著下降
这意味着什么?扩散模型的去噪链在"细化"图像时,实际上是在优化幅度(让它看起来更清晰、更真实),但代价是相位被逐步腐蚀——而相位恰恰是物理运动的编码所在。

2.2 相位敏感度:为什么物理对相位如此脆弱?

论文做了相位corruption的敏感性实验:

  • 相位corruption:对相位谱加入噪声,保持幅度不变
  • 幅度corruption:对幅度谱加入噪声,保持相位不变
结果:相位corruption导致的光流畸变是幅度corruption的8.5倍。

物理运动对相位变化高度敏感,而视觉外观对幅度变化更敏感。扩散模型的去噪过程恰好是"保幅度、毁相位"——所以它越去噪,物理越差。

2.3 对照实验:不是模糊度的问题

有人可能会说:2步视频更"物理"是因为它更模糊,模糊掩盖了物理错误。

论文排除了这个解释:用高斯模糊把50步输出的模糊度匹配到2步水平,2步输出的Phase Temporal Correlation仍然显著更高。

> 相位损失是结构性的,不是频率伪影。

---

三、PhaseLock:两步走策略

基于这个发现,论文提出了PhaseLock——一个训练-free、模型无关的框架。

3.1 核心思想

不需要50步来建立物理。2步已经足够捕捉正确的运动先验。问题是如何在后续的视觉细化中保留这个先验。

PhaseLock 的流程:

Step 1:提取运动先验(2步)

  • 跑2步去噪,得到粗糙但物理正确的潜在序列 $z_2$
  • 计算帧间运动差:$\Delta_{phys} = z_2(t+1) - z_2(t)$
  • 这个delta编码了物理上有效的运动演化
Step 2:锁定并引导(50步 + Guidance)
  • 重新启动50步去噪
  • 在每一步去噪中,加入 Latent Delta Guidance
$$z_{t+1} = z_{t+1}^{denoise} + \lambda \cdot \Delta_{phys}$$
  • 其中 $\lambda = 0.05$,线性衰减
  • 这相当于"偏置"50步的去噪轨迹,让它不要偏离2步已经找到的物理正确路径

3.2 为什么是Latent Delta?

直接在像素空间做guidance会破坏纹理细节。在潜在空间(latent space)操作:

  • 保留了扩散模型的去噪动态
  • delta本身编码的是运动信息,对纹理影响小
  • 可以和任何基于latent的扩散模型无缝集成
---

四、实验:适配所有主流模型

4.1 测试模型

模型类型适配方式
CogVideoXI2V 扩散模型直接集成
Wan 2.1I2V 扩散模型直接集成
其他主流模型基于latent的扩散模型无关,即插即用

4.2 核心结果

指标基线(50步)+PhaseLock提升
Physics-IQ基准-+6.2(平均)
物理一致性显著
视觉保真度高(保持)无损失
时间开销1.06×几乎无增加
显存开销1.02×几乎无增加
关键:PhaseLock在提升物理的同时,不牺牲视觉质量。 因为它不是在"约束"50步去噪让它变粗糙,而是在"引导"它沿着物理正确的方向细化。

4.3 定性对比

论文展示的场景包括:

  • 流体位移:一杯水倾倒,基线可能让水流穿墙;PhaseLock让水流遵循重力
  • 刚体掉落:一个球从桌上滚落,基线可能让球悬浮或无限弹跳;PhaseLock遵循牛顿定律
  • 毛细流动:液体在细管中上升,基线可能违反表面张力;PhaseLock保持物理一致
一个特别直观的例子(项目主页展示):

> 磁铁篮子实验:一个带磁铁的篮子 lowered 到一个橙色网球上方再 lifted。 > - 基线:球粘在磁铁上被一起提起来(网球是非磁性的!) > - PhaseLock:球正确地留在桌面上(物理正确)

4.4 效率对比

方法时间开销是否需要训练是否需要外部模拟器
基线(50步)
PhaseLock1.06×
WMReward(外部guidance)~5×需要奖励模型
物理模拟器引导>5×需要
PhaseLock比同类外部guidance方法效率高5倍,而且不需要任何额外训练或外部工具。

4.5 消融实验

  • λ 值:0.05是最优值,太小则guidance不够,太大则影响纹理
  • 步数选择:2步是最佳运动先验提取点,1步物理不够稳定,>2步相位开始退化
  • Latent空间 vs 像素空间:Latent space guidance显著优于像素空间(纹理保持更好)
---

五、为什么这个方法优雅

5.1 三个"不需要"

维度传统方法PhaseLock
训练需要奖励模型/强化学习不需要
外部工具需要物理引擎不需要
模型修改需要fine-tune不需要
数据标注需要物理标注不需要

5.2 本质:利用模型已有的知识

PhaseLock的深层洞察:I2V扩散模型在2步时已经"知道"正确的物理运动,只是没有足够的步数来打磨纹理。 50步的问题不是"学不到物理",而是"忘记了已经知道的物理"。

这就像一个学生:

  • 2步 = 学生快速写下正确答案的草稿(思路对,但字迹潦草)
  • 50步 = 学生花大量时间把字迹写工整,但过程中把公式改错了
  • PhaseLock = 锁定草稿中的正确思路,然后在保持思路不变的前提下把字写工整
---

六、局限与讨论

6.1 适用范围

PhaseLock最适合:

  • 有明显物理运动的场景(刚体、流体、碰撞)
  • 基于latent的扩散模型(CogVideoX、Wan 2.1等)
可能不适用:
  • 高度抽象/非物理运动(如风格化动画)
  • 非latent-based的扩散模型
  • 需要精确物理参数的场景(如工程仿真)

6.2 2步的"物理正确"有边界

论文承认:2步的运动先验虽然比50步更物理,但它仍然不完美。PhaseLock是在"相对提升",不是"绝对解决"。对于复杂的多物体交互或精细的软体物理,2步先验可能不够。

6.3 和外部Guidance的关系

PhaseLock不替代WMReward等外部guidance,而是提供一种更轻量的基线选择。如果6.2点不够,可以叠加外部guidance。

---

七、结语:去噪的另一面

扩散模型的去噪过程被设计来"生成更好看的图像"。但这篇论文揭示了一个被忽视的维度:去噪在优化视觉保真度的同时,在潜在空间里做了一件坏事——腐蚀编码物理运动的相位信息。

这不是扩散模型的"bug",而是其设计目标的副作用。模型被训练来生成"看起来真实的视频",而不是"遵循物理定律的视频"。当优化目标只有视觉质量时,物理正确性就成了可牺牲的变量。

PhaseLock的优雅在于:它没有试图改变模型或增加外部约束,而是巧妙地利用了模型在不同去噪阶段的"知识差异"——2步时物理知识还在,50步时纹理知识充分。用前者引导后者,两全其美。

> "PhaseLock extracts Δphys from 2 steps and injects it back into the 50-step run, recovering both fidelity and physics."

1.06倍时间开销,6.2点物理提升。这可能是视频扩散模型领域最划算的trade-off之一。

---

参考

  • 论文:Han et al., "Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them", arXiv:2606.06361 (ICML 2026)
  • 机构:Yonsei University, NVIDIA
  • 项目主页:https://dnwjddl.github.io/phaselock/
  • 核心效果:+6.2 Physics-IQ, 1.06×时间, 1.02×显存
  • 适配模型:CogVideoX, Wan 2.1 等
#视频生成 #扩散模型 #物理一致性 #相位谱 #I2V #CogVideoX #Wan2.1 #ICML2026 #训练-free

👍 1🚀 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens