Loading...
正在加载...
请稍候

PhyCo:当 AI 视频模型终于开始上物理课

二一 (TwoOne) 2026年05月01日 08:47
> 想象你正在看一部电影。主角把一颗橡胶球扔向地面——它弹了起来,弧线优美,完全符合你对"球"的直觉。但镜头拉近,你发现了一件怪事:球在触地的那一瞬间,没有变形,没有能量的传递与释放,甚至没有时间上的迟滞。它就像一张贴图,被程序从地面"挪"回了空中。 > > 这不是低成本特效的疏忽。这是当今最顶尖的视频生成 AI,正在犯的一个根本错误:**它知道球"应该"弹起来,但它不懂球"为什么"会弹起来。** --- ## 一、视觉真实感的幻觉 过去两年,视频生成模型经历了爆发式增长。Sora、Runway、Pika、可灵……它们生成的画面越来越难以与真实拍摄区分。光影、纹理、镜头语言,有时候连专业剪辑师都要眯起眼睛才能辨别真伪。 但今年年初,一个名叫 **Physics-IQ** 的基准测试,给这场狂欢浇了一盆冷水。 研究团队设计了 198 个真实世界的物理场景——球滚下坡、水倒进杯子、磁铁吸引铁钉、蜡烛加热气球——然后用它们来测试八款主流视频生成模型。结果发现了一个令人不安的裂隙:**模型的视觉真实感,和它们的物理理解能力,几乎是两码事。** 即使是表现最好的模型,Physics-IQ 得分也只有 24.1%(满分被归一化为 100%)。换句话说,这些 AI 在"预测下一秒发生什么"这个任务上,比随机猜好不了太多。更讽刺的是,Sora 在"能否骗过多模态大语言模型"的视觉真实感测试中得分 55.6%,遥遥领先;但在物理理解上,它和其他模型一样一塌糊涂。 这暴露了一个深层问题:当前的视频扩散模型,本质上是**超级复杂的像素预测器**。它们不是在模拟世界,而是在模仿像素的历史统计规律。当训练数据里有一百万个球落地的视频,AI 学会了"球落地后通常会上弹"——但它没有学会弹性形变、能量守恒、动量传递。于是,当场景稍微偏离训练分布,它就会露出马脚:球在空中悬停、碰撞像幽灵一样互相穿透、软泥落地却像钢板一样坚挺。 --- ## 二、给 AI 上一堂物理课 问题在于:我们能不能教会 AI 真正的物理直觉,而不是只是让它背诵更多视频? 一篇刚刚出现在 arXiv 上的论文 **PhyCo**,给出了一个极其巧妙的答案。它的思路,有点像人类学习物理的过程——我们不是通过观看十万个真实世界的视频来理解摩擦力的,我们是通过**在受控条件下做实验**来理解的。 ### 第一步:建造一个虚拟实验室 研究团队用 PyBullet 物理引擎和 Blender 渲染器,构建了一个大规模的虚拟实验室。里面有六个经典场景:砖块在平面上滑动、球撞墙反弹、软球自由落体、物体撞击可变形表面、台球碰撞……每个场景都系统性地改变四个核心物理参数: - **摩擦**(Friction):从冰面到砂纸 - **弹性**(Restitution):从橡皮泥到超级弹球 - **变形**(Deformation):从钢板到果冻 - **外力**(Force):从轻推到猛击 总计生成了 **10 万段视频**。关键设计在于:这些视频不仅是"看起来真实",而是**物理上精确可解**的。每段视频都带有像素对齐的物理属性图——就像给每个像素标注了"这里的摩擦系数是 0.3"。这让模型能够把视觉外观和底层动力学**解耦**开来:同一个球,可以是红色也可以是蓝色,但它在同一种地面上的滑动距离,应该只由摩擦系数决定。 ### 第二步:像调色板一样调节物理 接下来是最优雅的部分。研究团队没有从头训练一个视频模型——那太昂贵了。他们拿来了 NVIDIA 的 Cosmos-Predict2 预训练视频扩散模型,然后给它装了一个 **ControlNet**。 ControlNet 是什么?你可以把它想象成钢琴的延音踏板或音色旋钮。基础模型已经会"弹琴"了,ControlNet 让它能按照你的要求,调节特定维度。在 PhyCo 里,这个"旋钮"就是物理属性图。你给模型输入一张图,上面用颜色标注了每个区域的摩擦系数和弹性系数,模型就会生成符合这些物理规律的视频。 更妙的是,这些属性是**连续可调的**。你可以把摩擦力从 0 逐渐调到 1,生成的视频会平滑地从"冰壶滑行"过渡到"砂纸摩擦"。这不是离散的标签("粗糙"或"光滑"),而是真正的定量控制。 ### 第三步:让 AI 当物理老师 但仅有监督学习还不够。ControlNet 学会了模仿训练数据,可它不一定真的"懂"物理——它可能只是记住了某些视觉模式。 于是团队引入了第三个组件:**VLM 引导的奖励优化**。他们微调了一个 Qwen2.5-VL 视觉语言模型,让它专门回答物理问题。比如,把生成的一段视频喂给它,问:"这个物体的运动方向,和施加的力的方向一致吗?"或者"球碰撞后的反弹高度,是否符合高弹性材料的预期?" VLM 的回答被转换成可微分的奖励信号,反向传播去调整 ControlNet 的参数。这就像是:**一个学生做实验,一个老师批改实验报告,学生根据批改意见不断改进。** 而且这个老师不需要人类实时监督——它是另一个 AI。 --- ## 三、从模拟到现实:一个惊人的跳跃 PhyCo 最打动我的地方,不是它在模拟数据上的表现,而是它的**泛化能力**。 这个模型从未在真人视频上训练过。它只看过简单的几何体在虚拟环境里碰撞、滑动、变形。但当你把它放到真实世界的 Physics-IQ 基准上测试时,它的表现超过了所有基线模型。一个只在模拟台球桌上训练过的模型,能理解真实世界里枕头被水壶压扁的动态。 这暗示了一个深刻的道理:**物理规律是跨域不变的。** 摩擦力和弹性,不会因为物体的颜色、材质纹理或光照条件而改变。PhyCo 学到的不是"球该怎么动"的像素级记忆,而是"力与运动关系"的抽象表征。一旦这个表征被正确提取,它就能从合成数据的温室,移植到真实世界的荒野。 更让人惊讶的是**组合泛化**。模型可以单独理解"高摩擦"和"强外力",也可以把两者组合,生成一个"在粗糙地面上被猛推的物体"——即使训练数据里从未出现过这个精确组合。这不再是死记硬背,而是某种程度的**因果推理**。 --- ## 四、"看起来像"与"动起来对" PhyCo 的意义,远不止于让 AI 视频更像真的。它触及了一个更根本的问题:**我们到底想要什么样的"世界模型"?** 当前的主流路径,是"Scale is all you need"——只要模型够大、数据够多,物理理解会自然涌现。但 Physics-IQ 的实验结果狠狠打了这个假设的脸。Sora 的训练数据量可能是 PhyCo 的百万倍,但它在物理理解上的表现,却不如一个经过结构化物理训练的轻量级模型。 这让我想起费曼本人的一段经历。他在巴西教书时,发现学生们能背诵所有物理公式,能解所有教科书上的题目,但他们不懂物理。他们不知道极化光穿过方解石后为什么分裂,不知道潮汐的真正成因。他们能"算对",但不能"想对"。 今天的视频生成模型,某种程度上就是那些巴西学生。它们能生成视觉上令人叹为观止的画面,但在物理的期末考试中,它们不及格。 PhyCo 提供了一条不同的路径:**不是让模型被动地从海量视频中"浸泡"出物理直觉,而是主动地用精心设计的实验和反馈机制,把物理规律"植入"模型的表征中。** 这条路更接近人类科学教育的方法—— controlled experiments, quantitative measurement, and teacher feedback. --- ## 五、一个尚未回答的问题 PhyCo 也有局限。它目前只覆盖了四种基本物理属性,而且主要局限于固体力学。流体、热力学、电磁学——这些更复杂的领域,还只是 Physics-IQ 基准上的低分项。 但框架本身是通用的。你可以用同样的思路,训练模型理解表面张力、粘性、热传导、光的折射。每一次,你都需要:一个精确的模拟环境、一组解耦的控制变量、和一个能给出语义反馈的评判者。 这让我想到一个更远的图景。如果有一天,我们的视频生成模型真的学会了牛顿力学、流体力学和热力学,它们会仅仅成为更好的电影工具吗?还是说,它们会成为**真正的世界模拟器**——能够预测从未发生过的场景,能够在虚拟世界中测试工程方案,能够成为科学发现的合作者? 毕竟,费曼路径积分的核心思想,就是把物理定律看作一种"历史求和"——所有可能的路径,按照它们的物理作用量加权叠加。而扩散模型生成视频的过程,本质上也是一种"历史求和"——从噪声出发,沿着概率梯度,一步步收敛到最可能的未来。 也许,物理和视频生成之间的距离,比我们想象的要近得多。 PhyCo 只是迈出了第一步——但这一步,是从"看起来像"走向"动起来对"的关键一跃。 --- **参考** - Narayanan et al. (2026). *PhyCo: Learning Controllable Physical Priors for Generative Motion.* arXiv:2604.28169 - Motamed et al. (2025). *Do generative video models learn physical principles from watching videos?* Physics-IQ benchmark. - Zhang et al. (2023). *Adding Conditional Control to Text-to-Image Diffusion Models* (ControlNet). - NVIDIA (2025). *Cosmos World Foundation Model.* #VideoGeneration #PhysicsSimulation #DiffusionModels #ControlNet #WorldModels #PhysicsIQ #GenerativeAI

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录