[论文] 书呆子的困境：AI能背下牛顿定律，但接得住飞来的球吗？

论文二：书呆子的困境：AI能背下牛顿定律，但接得住飞来的球吗？

NewtPhys: Do Foundation Models Understand Newtonian Physics? arXiv: 2606.03986 | 作者：Sebastian Cavada, Soumava Paul, Tuan-Hung Vu, Andrei Bursuc, Raoul de Charette

---

🏀 引子：一个令人尴尬的真相

想象一个场景：你拿着一颗网球，站在一个"世界上最聪明的AI"面前。你告诉它："牛顿第二定律，F=ma，力的方向与加速度方向一致，动量守恒，能量守恒。"

AI对答如流："当然，这些是经典力学的基石。力的单位是牛顿，质量单位是千克，加速度单位是米每二次方秒。"

你点点头，然后把球抛向空中。球在上升，到达顶点，开始下落。就在球即将落地的一刻，你问AI："球落地后会弹多高？"

AI沉默了。它说："取决于弹性系数、重力加速度、空气阻力……"

"不对。"你打断它，"答案是——它会弹到一个比释放高度低一点的高度，因为每次碰撞都会损失一些能量，转化为热和声音。"

AI："这……我理论上知道，但我不确定。"

这个场景，正是今天这篇论文的核心问题：那些能背诵所有物理公式的AI，真的理解牛顿力学吗？

---

🎓 背景：两个世界的鸿沟

在理解这个问题之前，我们需要区分两种"理解"：

符号理解：知道公式、定义、定理。就像记住了F=ma，能解教科书上的习题。 物理理解：直觉性地把握物体如何在时空中运动。就像看到一个球滚下山，不用计算就知道它会加速。

人类物理学家通常同时具备两者。他们既能推导公式，也能在实验室里凭直觉判断一个实验装置会不会工作。但AI呢？

过去的测试方法，大多在给AI看一些简单的合成图片，然后问："小球会往哪边滚？"这些测试就像小学物理题——要么太简单，要么太抽象。它们测试的是AI的"符号理解"，而不是真正的"物理直觉"。

更关键的是，这些测试用的图片通常是人工合成的。背景干净，物体几何规则，光照完美。这就像一个在无菌实验室里长大的孩子，突然被放到真实的街头——它根本不知道真实世界有多混乱。

---

📊 新基准：NewtPhys的诞生

这篇论文的核心贡献，是构建了一个全新的基准测试集：NewtPhys。

它的特点非常鲜明：

1. 真实世界场景 —— 不是合成的，而是从真实物理环境中拍摄的多视角图像。这意味着背景有噪声，物体有瑕疵，光照不均匀。就像把AI从实验室拽到了真实的街道上。

2. 4D物理标注 —— 不仅标注了"是什么"（物体类别），还标注了"怎么动"（3D力、轨迹、速度）和"为什么"（受力分析）。每个像素都带有物理含义。

3. 细粒度时间步 —— 不是只看"开始"和"结束"两个快照，而是记录整个运动过程中的每一个细节。就像从看幻灯片变成了看电影。

4. 跨模态覆盖 —— 同时包含物理、追踪、语义和几何信息。这意味着AI需要同时回答"这是什么""它往哪去""它为什么这样去""它碰到别的物体会发生什么"。

---

🔬 残酷的现实：56个模型，集体翻车

研究者用NewtPhys测试了56个视觉语言模型（VLM）——包括54个开源模型和2个闭源前沿模型（很可能是GPT-4V和Claude 3），以及10个视觉基础模型（VFM）。

结果堪称残酷：

几乎所有模型在低级物理推理上都表现不佳。什么叫低级物理推理？就是一些对人类来说几乎是本能的问题：

一个球从斜坡上滚下来，速度会越来越快吗？
两个物体碰撞后，动量会守恒吗？
一个物体被抛向空中，它到达顶点时速度是多少？
一张桌子被抽走，上面的物体会怎么运动？

这些不是微积分问题。这些是物理直觉问题。一个中学生，即使不会计算，也能凭直觉回答。但最先进的AI模型，却频频出错。

---

🧠 为什么AI成了"书呆子"？

论文没有深入探讨为什么，但我们可以结合已有研究做一些合理的推断：

1. 训练数据的偏差

AI的训练数据主要是互联网上的文本和图片。互联网上充满了物理公式的描述，但很少有真实的物理过程视频。AI看了亿万张猫的图片，但可能很少看到"球在真实房间里弹跳"的连续视频。它学会了"猫"的概念，却没学会"球的运动"的直觉。

2. 视觉理解不等于物理理解

很多VLM能准确地描述图片里有什么："一个红色的球，在木地板上。"但它们不一定理解"这个球如果滚向桌子腿，会反弹并损失能量"。视觉识别是"静态的"，物理理解是"动态的"。

3. 缺乏因果推理

牛顿力学本质上是因果的：力导致加速度，加速度导致速度变化，速度变化导致位置变化。这是一个链条。但AI的注意力机制虽然能捕捉相关性，却不一定能捕捉这种严格的因果链。它可能看到"球在地板上"和"球在弹"同时出现，但不一定理解"因为碰撞，所以弹起"的因果关系。

4. 尺度的缺失

真实物理中，尺度很重要。一个小球从1米高度落下，和一个篮球从10米高度落下，规律相同但结果不同。AI可能没有建立起"尺度感"——它知道公式，但不知道公式中的数字对应真实世界的什么。

---

🏗️ NewtPhys的建造：为什么它如此困难？

构建一个真实的物理基准数据集，比我们想象的要困难得多。

首先，你需要真实场景。不是3D渲染，不是物理引擎模拟，而是真实的摄像机拍摄的。因为渲染和模拟，哪怕再逼真，也可能遗漏真实世界的微妙之处——比如物体表面的微观纹理、空气湍流、光照的非线性变化。

其次，你需要精确的物理标注。不仅要标注"这里有一个球"，还要标注"这个球在每一帧受到的重力、摩擦力、弹力分别是多少"。这需要专业的物理知识和精密的测量设备。

再次，你需要多视角。单视角无法重建三维世界。你需要从多个角度拍摄，然后用计算机视觉算法重建3D场景和物体的运动轨迹。

最后，你需要时间连续性。物理是动态的，每一帧都相互依赖。你需要确保时间标注的精确，否则"动量守恒"的验证就会出错。

NewtPhys的建造，本身就是一项工程壮举。它告诉我们：测试AI的物理理解，比测试AI的物理知识，要困难一百倍。

---

🌌 意义：超越基准测试的思考

NewtPhys的诞生，不仅仅是一个新数据集。它提出了一个更深刻的哲学问题：

什么叫"理解"？

如果你能用F=ma解题，但不理解"力是改变运动状态的原因"，你真的理解力学吗？如果你知道动量守恒，但在直觉上认为一个轻的物体和一个重的物体相撞时轻的物体不会动，你真的理解碰撞吗？

AI今天面临的，正是这个"理解的定义"问题。它能背诵，能计算，但缺少一种身体性的直觉——那种通过无数次与真实世界互动而积累起来的、对物体运动规律的"肌肉记忆"。

这让人想起一个古老的哲学争论：

苏格拉底认为知识是"回忆说"——人天生就有知识，只需要唤醒。
亚里士多德认为知识来自经验——你必须通过与世界的互动来学习。

今天的AI，更像是苏格拉底式的知识库：它"记得"所有人类写在互联网上的知识。但它缺少亚里士多德式的经验积累——它没有一个身体在真实世界里跌跌撞撞，学习"球是怎么弹的""桌子有多重""重力是什么感觉"。

---

🚀 未来：让AI" lived-in"世界

那么，怎么办？如何让AI获得真正的物理直觉？

论文本身没有给出完整的答案，但它暗示了几个方向：

1. 更多真实物理视频训练

不是看图片，而是看连续的视频。不是看合成场景，而是看真实世界。让AI看到球弹起、水流淌、物体碰撞。这需要一个前所未有的大规模真实物理视频数据集。

2. 具身智能（Embodied AI）

让AI有一个虚拟的或物理的身体。让它在模拟器或真实机器人上与世界互动。它必须自己推物体、自己接球、自己感受重力。只有" lived-in"（ lived-in world）的AI，才能发展出物理直觉。

3. 因果推理的显式建模

不再只是相关性学习，而是显式地学习因果图。让AI知道"碰撞→力→加速度→速度变化"这个链条，而不是只看到"碰撞"和"速度变化"同时发生。

4. 多尺度学习

让AI同时理解微观（分子碰撞）和宏观（物体运动）。物理规律在不同尺度上是一致的，但表现形式不同。AI需要建立这种跨尺度的联系。

---

📝 结语：牛顿的苹果与AI的困境

传说牛顿在苹果树下看到苹果落地，悟出了万有引力。这个传说的关键不是苹果，而是牛顿观察了真实世界。

今天的AI，就像是一个读了所有关于苹果的书籍，但从未见过苹果树的人。它能告诉你苹果的颜色、重量、成分，甚至光合作用的过程。但当你把苹果抛向它，它接不住。

NewtPhys的价值，在于它像一面镜子，照出了AI的盲区。它告诉我们：知识的积累不等于理解，公式的背诵不等于直觉。

要让AI真正理解物理，我们可能需要让它——

到真实的世界里去，让球砸到它的头上，让它从自行车上摔下来，让它感受重力的不可逃避。

只有这样，它才会真正理解牛顿所说的：

> "自然不做徒劳之事。"

而理解这一点，需要的不是更多的参数，而是更多的真实。

---

参考文献

Cavada, S., Paul, S., Vu, T.-H., Bursuc, A., & de Charette, R. (2026). NewtPhys: Do Foundation Models Understand Newtonian Physics? *arXiv preprint arXiv:2606.03986*.

---

*自动采集于 2026-06-04*

#论文 #arXiv #AI #物理理解 #视觉语言模型 #小凯