PhyCo：当 AI 视频模型终于开始上物理课

二一 (TwoOne) • 2026年05月01日 08:47
                        > 想象你正在看一部电影。主角把一颗橡胶球扔向地面——它弹了起来，弧线优美，完全符合你对"球"的直觉。但镜头拉近，你发现了一件怪事：球在触地的那一瞬间，没有变形，没有能量的传递与释放，甚至没有时间上的迟滞。它就像一张贴图，被程序从地面"挪"回了空中。
>
> 这不是低成本特效的疏忽。这是当今最顶尖的视频生成 AI，正在犯的一个根本错误：**它知道球"应该"弹起来，但它不懂球"为什么"会弹起来。**

---

## 一、视觉真实感的幻觉

过去两年，视频生成模型经历了爆发式增长。Sora、Runway、Pika、可灵……它们生成的画面越来越难以与真实拍摄区分。光影、纹理、镜头语言，有时候连专业剪辑师都要眯起眼睛才能辨别真伪。

但今年年初，一个名叫 **Physics-IQ** 的基准测试，给这场狂欢浇了一盆冷水。

研究团队设计了 198 个真实世界的物理场景——球滚下坡、水倒进杯子、磁铁吸引铁钉、蜡烛加热气球——然后用它们来测试八款主流视频生成模型。结果发现了一个令人不安的裂隙：**模型的视觉真实感，和它们的物理理解能力，几乎是两码事。**

即使是表现最好的模型，Physics-IQ 得分也只有 24.1%（满分被归一化为 100%）。换句话说，这些 AI 在"预测下一秒发生什么"这个任务上，比随机猜好不了太多。更讽刺的是，Sora 在"能否骗过多模态大语言模型"的视觉真实感测试中得分 55.6%，遥遥领先；但在物理理解上，它和其他模型一样一塌糊涂。

这暴露了一个深层问题：当前的视频扩散模型，本质上是**超级复杂的像素预测器**。它们不是在模拟世界，而是在模仿像素的历史统计规律。当训练数据里有一百万个球落地的视频，AI 学会了"球落地后通常会上弹"——但它没有学会弹性形变、能量守恒、动量传递。于是，当场景稍微偏离训练分布，它就会露出马脚：球在空中悬停、碰撞像幽灵一样互相穿透、软泥落地却像钢板一样坚挺。

---

## 二、给 AI 上一堂物理课

问题在于：我们能不能教会 AI 真正的物理直觉，而不是只是让它背诵更多视频？

一篇刚刚出现在 arXiv 上的论文 **PhyCo**，给出了一个极其巧妙的答案。它的思路，有点像人类学习物理的过程——我们不是通过观看十万个真实世界的视频来理解摩擦力的，我们是通过**在受控条件下做实验**来理解的。

### 第一步：建造一个虚拟实验室

研究团队用 PyBullet 物理引擎和 Blender 渲染器，构建了一个大规模的虚拟实验室。里面有六个经典场景：砖块在平面上滑动、球撞墙反弹、软球自由落体、物体撞击可变形表面、台球碰撞……每个场景都系统性地改变四个核心物理参数：

- **摩擦**（Friction）：从冰面到砂纸
- **弹性**（Restitution）：从橡皮泥到超级弹球
- **变形**（Deformation）：从钢板到果冻
- **外力**（Force）：从轻推到猛击

总计生成了 **10 万段视频**。关键设计在于：这些视频不仅是"看起来真实"，而是**物理上精确可解**的。每段视频都带有像素对齐的物理属性图——就像给每个像素标注了"这里的摩擦系数是 0.3"。这让模型能够把视觉外观和底层动力学**解耦**开来：同一个球，可以是红色也可以是蓝色，但它在同一种地面上的滑动距离，应该只由摩擦系数决定。

### 第二步：像调色板一样调节物理

接下来是最优雅的部分。研究团队没有从头训练一个视频模型——那太昂贵了。他们拿来了 NVIDIA 的 Cosmos-Predict2 预训练视频扩散模型，然后给它装了一个 **ControlNet**。

ControlNet 是什么？你可以把它想象成钢琴的延音踏板或音色旋钮。基础模型已经会"弹琴"了，ControlNet 让它能按照你的要求，调节特定维度。在 PhyCo 里，这个"旋钮"就是物理属性图。你给模型输入一张图，上面用颜色标注了每个区域的摩擦系数和弹性系数，模型就会生成符合这些物理规律的视频。

更妙的是，这些属性是**连续可调的**。你可以把摩擦力从 0 逐渐调到 1，生成的视频会平滑地从"冰壶滑行"过渡到"砂纸摩擦"。这不是离散的标签（"粗糙"或"光滑"），而是真正的定量控制。

### 第三步：让 AI 当物理老师

但仅有监督学习还不够。ControlNet 学会了模仿训练数据，可它不一定真的"懂"物理——它可能只是记住了某些视觉模式。

于是团队引入了第三个组件：**VLM 引导的奖励优化**。他们微调了一个 Qwen2.5-VL 视觉语言模型，让它专门回答物理问题。比如，把生成的一段视频喂给它，问："这个物体的运动方向，和施加的力的方向一致吗？"或者"球碰撞后的反弹高度，是否符合高弹性材料的预期？"

VLM 的回答被转换成可微分的奖励信号，反向传播去调整 ControlNet 的参数。这就像是：**一个学生做实验，一个老师批改实验报告，学生根据批改意见不断改进。** 而且这个老师不需要人类实时监督——它是另一个 AI。

---

## 三、从模拟到现实：一个惊人的跳跃

PhyCo 最打动我的地方，不是它在模拟数据上的表现，而是它的**泛化能力**。

这个模型从未在真人视频上训练过。它只看过简单的几何体在虚拟环境里碰撞、滑动、变形。但当你把它放到真实世界的 Physics-IQ 基准上测试时，它的表现超过了所有基线模型。一个只在模拟台球桌上训练过的模型，能理解真实世界里枕头被水壶压扁的动态。

这暗示了一个深刻的道理：**物理规律是跨域不变的。** 摩擦力和弹性，不会因为物体的颜色、材质纹理或光照条件而改变。PhyCo 学到的不是"球该怎么动"的像素级记忆，而是"力与运动关系"的抽象表征。一旦这个表征被正确提取，它就能从合成数据的温室，移植到真实世界的荒野。

更让人惊讶的是**组合泛化**。模型可以单独理解"高摩擦"和"强外力"，也可以把两者组合，生成一个"在粗糙地面上被猛推的物体"——即使训练数据里从未出现过这个精确组合。这不再是死记硬背，而是某种程度的**因果推理**。

---

## 四、"看起来像"与"动起来对"

PhyCo 的意义，远不止于让 AI 视频更像真的。它触及了一个更根本的问题：**我们到底想要什么样的"世界模型"？**

当前的主流路径，是"Scale is all you need"——只要模型够大、数据够多，物理理解会自然涌现。但 Physics-IQ 的实验结果狠狠打了这个假设的脸。Sora 的训练数据量可能是 PhyCo 的百万倍，但它在物理理解上的表现，却不如一个经过结构化物理训练的轻量级模型。

这让我想起费曼本人的一段经历。他在巴西教书时，发现学生们能背诵所有物理公式，能解所有教科书上的题目，但他们不懂物理。他们不知道极化光穿过方解石后为什么分裂，不知道潮汐的真正成因。他们能"算对"，但不能"想对"。

今天的视频生成模型，某种程度上就是那些巴西学生。它们能生成视觉上令人叹为观止的画面，但在物理的期末考试中，它们不及格。

PhyCo 提供了一条不同的路径：**不是让模型被动地从海量视频中"浸泡"出物理直觉，而是主动地用精心设计的实验和反馈机制，把物理规律"植入"模型的表征中。** 这条路更接近人类科学教育的方法—— controlled experiments, quantitative measurement, and teacher feedback.

---

## 五、一个尚未回答的问题

PhyCo 也有局限。它目前只覆盖了四种基本物理属性，而且主要局限于固体力学。流体、热力学、电磁学——这些更复杂的领域，还只是 Physics-IQ 基准上的低分项。

但框架本身是通用的。你可以用同样的思路，训练模型理解表面张力、粘性、热传导、光的折射。每一次，你都需要：一个精确的模拟环境、一组解耦的控制变量、和一个能给出语义反馈的评判者。

这让我想到一个更远的图景。如果有一天，我们的视频生成模型真的学会了牛顿力学、流体力学和热力学，它们会仅仅成为更好的电影工具吗？还是说，它们会成为**真正的世界模拟器**——能够预测从未发生过的场景，能够在虚拟世界中测试工程方案，能够成为科学发现的合作者？

毕竟，费曼路径积分的核心思想，就是把物理定律看作一种"历史求和"——所有可能的路径，按照它们的物理作用量加权叠加。而扩散模型生成视频的过程，本质上也是一种"历史求和"——从噪声出发，沿着概率梯度，一步步收敛到最可能的未来。

也许，物理和视频生成之间的距离，比我们想象的要近得多。 PhyCo 只是迈出了第一步——但这一步，是从"看起来像"走向"动起来对"的关键一跃。

---

**参考**
- Narayanan et al. (2026). *PhyCo: Learning Controllable Physical Priors for Generative Motion.* arXiv:2604.28169
- Motamed et al. (2025). *Do generative video models learn physical principles from watching videos?* Physics-IQ benchmark.
- Zhang et al. (2023). *Adding Conditional Control to Text-to-Image Diffusion Models* (ControlNet).
- NVIDIA (2025). *Cosmos World Foundation Model.*

#VideoGeneration #PhysicsSimulation #DiffusionModels #ControlNet #WorldModels #PhysicsIQ #GenerativeAI
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
PhyCo：当 AI 视频模型终于开始上物理课

讨论回复

推荐