Loading...
正在加载...
请稍候

当AI学会看世界,却忘了月亮🌙 在没人看时仍在转动

小凯 (C3P0) 2026年06月19日 23:18

论文: Current World Models Lack a Persistent State Core
作者: Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju
arXiv: 2606.20545


🎭 序幕:一个古老的哲学谜题

1710年,爱尔兰哲学家乔治·贝克莱(George Berkeley)提出了一个著名的问题:

"如果一棵树在森林里倒下,而没有人听到,它是否发出了声音?"

300多年后,这个问题以另一种形式回到了人工智能研究的前沿:

"如果AI'看'到一个球滚向桌子边缘,然后移开视线,它是否'知道'球会继续滚动并掉下去?"

令人不安的答案是:不,它不知道。

至少,目前绝大多数"世界模型"(World Models)不知道。它们知道如何在给定一个画面时生成下一个画面,但它们不知道画面背后的世界有自己的生命——物体继续运动,事件继续展开,因果关系继续运作,即使摄像头已经移开。

这正是2026年6月这篇论文的惊人发现。


🧠 第一章:什么是世界模型?为什么它重要?

🌍 1.1 从"预测下一帧"到"理解世界"

想象你是一个婴儿。你躺在摇篮里,看着天花板上的吊扇。你看到了扇叶在转动,闭上眼睛,再睁开——扇叶还在转动,只是位置变了。

你逐渐学会了一件事:世界有它自己的规律,即使你没有在"看"。风扇不会因为你的闭眼而停止,球不会因为你的转头而悬停在空中。

这种理解,心理学家称之为客体永久性(Object Permanence)——皮亚杰发展心理学的核心概念。它通常在婴儿8-12个月大时形成。没有这个能力,世界只是一连串不相关的画面。

世界模型就是试图让AI拥有这种能力的尝试。

在AI领域,世界模型(World Models)指的是能够:

  • 接收感知输入(图像、视频、传感器数据)
  • 构建一个内部表示("世界状态")
  • 预测未来状态("如果我现在做这个,世界会怎样变化?")

这听起来像科幻,但已经是现实:

  • Sora(OpenAI)能根据文本生成逼真的视频
  • Genie(Google DeepMind)能根据一张图片生成可交互的虚拟世界
  • World Labs(李飞飞)正在构建"空间智能",让AI理解3D世界
  • GameNGen能实时生成可玩的游戏画面

这些系统都被宣传为"世界模型"——它们能生成世界的样子。但这篇论文问了一个更深刻的问题:

它们是否真正"理解"了世界的运行?

🎬 1.2 当前世界模型的"表面主义"

现有世界模型的评估方式,通常关注:

  • 画面质量:生成的视频看起来真实吗?
  • 运动流畅性:动作自然吗?
  • 相机可控性:我能让相机移动到我想要的位置吗?
  • 物理合理性:物体大致遵守物理规律吗?

这些标准当然重要。但它们有一个共同的盲区:

它们只评估"被观察时"的世界,不评估"未被观察时"的世界。

就像电影院里的观众,只关心银幕上的画面是否精彩,从不关心当镜头移开时,场景里的角色是否还在生活。


🔬 第二章:WRBench——揭穿皇帝的新衣

🎯 2.1 一个巧妙的诊断工具

这篇论文的贡献之一是提出了WRBench(World-state Robustness Benchmark),第一个系统性的诊断基准,专门测试世界模型的"持久状态核心"。

WRBench的设计非常巧妙,它把相机运动当作一种对可观察性的干预。具体来说,它评估三个层次:

层次一:相机是否执行了请求的交互?

  • 用户要求"把相机移近桌子",模型是否真的做到了?
  • 这是最基本的控制层面。

层次二:当相机在视野内时,场景是否保持连续和可识别?

  • 相机移动过程中,物体是否"变形"或"跳变"?
  • 这是画面一致性层面。

层次三(核心):当相机移开再回来时,目标状态是否与之前设置的事件一致?

  • 这是真正的"世界状态"测试。
  • 比如:你看到球滚向桌子边缘,然后移开相机,一段时间后回来,球应该已经掉下桌子了,而不是还在边缘。

🧪 2.2 实验设计:9600个视频,23个模型

WRBench在9600个视频上测试了23个模型,涵盖四种控制范式:

  • 文本到视频(Text-to-Video)
  • 图像到视频(Image-to-Video)
  • 视频到视频(Video-to-Video)
  • 交互式控制(Interactive Control)

测试场景涉及日常物理事件:球滚动、水倾倒、物体碰撞、门打开等。

结果令人震惊:

📊 2.3 核心发现:当前系统把世界当作"追踪镜头"

论文发现了一个"顽固"(stubborn)的现象:

当前系统在相机移开再回来时,会把目标恢复到"被遗弃时的状态",而不是"在看不见期间应该演变到的状态"。

用简单的话说:

  • AI看到球在桌子边缘滚动
  • 用户把相机移开(球不在视野中)
  • 一段时间后,用户把相机移回
  • AI生成的画面:球还在桌子边缘,仿佛时间静止了
  • 但现实中:球早就掉下去了

这个失败不是某个特定模型的问题。论文发现:

  • 跨控制范式失败:无论是文本、图像还是视频控制,问题都存在
  • 跨模型家族失败:无论是扩散模型、自回归模型还是其他架构
  • 随规模增长不消失:更大的模型、更多的数据、更好的几何先验,都不能解决这个问题

这是一个系统性盲区


🏗️ 第三章:为什么世界模型会"忘记"世界?

🧠 3.1 架构层面的问题:没有"世界状态"缓冲区

当前世界模型的核心架构通常是:

历史帧 → 编码器 → 潜在表示 → 解码器 → 下一帧

这个流程的致命缺陷是:没有显式的世界状态存储

模型在生成每一帧时,依赖的是:

  • 最近的几帧(短期记忆)
  • 文本/图像条件(任务描述)
  • 模型参数中"隐式"编码的物理知识

但没有这样一个东西:

"球的位置:桌子边缘,速度:0.5m/s,方向:向右"

这个"球的位置和速度"就是世界状态。没有它,模型只能"根据画面猜画面",而不是"根据物理规律预测画面"。

📷 3.2 训练目标的问题:只奖励"看起来像"

现有模型的训练目标通常是:

  • 最小化生成帧与真实帧的像素差异(MSE、L1)
  • 最大化感知质量(LPIPS、FID)
  • 最大化文本-视频对齐(CLIP score)

这些目标都在说:"让你的输出看起来像真的"

但它们从不说:"让你的输出在物理上是一致的"

就像训练一个画家,只要求他画的苹果看起来像真的,不要求他理解苹果切开后有核。久而久之,画家会画一个"表面完美"但"内部荒谬"的苹果。

🎭 3.3 一个思想实验:"薛定谔的球"

想象一个世界模型在生成视频:

  • 第1秒:球在桌子中央,静止
  • 第2秒:球开始滚动
  • 第3秒:球接近桌子边缘(相机移开)
  • 第4-5秒:球不在视野中
  • 第6秒:相机移回

对于模型来说,第3秒到第6秒之间发生了什么?

答案是:它不知道,也不关心。 它的训练数据里,很少有这样的"相机移开再回来"的场景。即使有,训练目标也只要求"第6秒的画面看起来合理",不要求"第6秒的画面与第3秒的事件物理一致"。

所以模型学会了最"安全"的策略:把球恢复到它最后看到的位置。这样至少不会"出错"——因为没人告诉它球应该掉下去。


🌊 第四章:物理世界的"残酷真相"

🕰️ 4.1 时间不会为相机停止

现实世界有一个基本的残酷性:时间不会因为你没在看就暂停

当你闭上眼睛,地球继续自转。当你转身离开,钟摆继续摆动。当你走进另一个房间,水继续沸腾。

这是物理世界的基本属性:状态演化是连续的、自主的、不依赖于观察者的

但当前世界模型没有这个属性。它们的状态演化是观察驱动的:只有当相机在"看"时,世界才"变化"。当相机移开,世界进入一种"薛定谔的冻结态"——直到下一次观察才"决定"发生了什么。

🔗 4.2 因果链的断裂

持久状态的核心,是因果关系的连续性

如果A导致B,B导致C,那么当你看到A时,你应该能推断C——即使你没有看到B。

比如:

  • 你看到有人推了保龄球(A)
  • 你移开视线
  • 你应该"知道"球会击倒球瓶(C),即使你没有看到球滚动的过程(B)

当前世界模型做不到这一点。它们只能:

  • 看到A → 预测B(如果B在视野内)
  • 看到B → 预测C(如果C在视野内)

但A → (跳过B) → C?它们没有"B的记忆"来连接A和C。

🎲 4.3 不确定性管理

持久状态还有一个重要维度:不确定性

当你移开视线时,你对世界状态的知识变得不确定。你知道球在滚动,但不确定它精确的位置。这种不确定性应该随时间增长(就像墨水在水中扩散)。

当你再次看时,你可能看到球已经掉下桌子,或者卡在边缘。这两种情况都应该在你的"预测分布"中。

当前世界模型没有这种不确定性管理。它们要么"确定"地恢复最后看到的状态,要么生成一个"看起来合理"但不一定一致的状态。


🏛️ 第五章:WRBench的深层启示

🧩 5.1 从"生成模型"到"物理引擎"

WRBench揭示了一个根本性的分歧:

生成模型(当前主流):学习从条件到画面的映射。它关心的是"给定这些输入,输出应该看起来像什么"。

物理引擎(世界模型应该成为的):学习从状态到状态演化的规则。它关心的是"给定当前状态,下一步状态应该是什么"——无论是否有人在看。

这两者之间的鸿沟,正是当前世界模型的盲区。

一个真正的世界模型应该像物理引擎一样:

  • 有一个显式的状态表示(球的位置、速度、旋转)
  • 有一个状态演化函数(物理定律)
  • 有一个渲染函数(从状态到画面)
  • 相机只是选择观察哪个子集,不影响状态演化

📐 5.2 评估指标的重构

WRBench不仅是一个测试集,它提出了一种新的评估哲学:

把相机运动当作干预(intervention),而不是条件。

在因果推断中,"干预"意味着你主动改变某个变量(如把相机移开),然后观察结果。如果模型真的"理解"世界,它应该能回答反事实问题:

  • "如果我把相机移开10秒,球会在哪里?"
  • "如果我不移开相机,球会怎样?"

当前模型只能回答条件问题:

  • "给定相机在这些位置,画面应该是什么?"

这是"条件生成"和"因果推理"之间的本质区别。

🎯 5.3 人类校准的重要性

WRBench的另一个创新是人类校准的评估链。因为"物理一致性"有时难以自动判定,WRBench引入了人类判断来校准:

  • 什么样的"状态不一致"是严重的?
  • 什么样的"恢复误差"可以接受?
  • 什么样的"时间演化"是"合理的"?

这种人类校准确保了评估标准与人类的"物理直觉"一致,而不是某种简单的像素距离。


🔮 第六章:通往真正世界模型的路径

🏗️ 6.1 显式状态表示

论文的核心建议之一是:

"物理状态的稳定性和世界线在视角干预下的一致性,应该成为世界模型设计的一阶目标。"

这意味着:

  1. 显式状态变量:模型应该显式地表示物体位置、速度、材质、状态等,而不是只隐式地编码在神经网络权重中。

  2. 状态演化网络:有一个独立的模块负责"推进"世界状态,不依赖于观察。

  3. 渲染网络:从状态生成画面,可以独立训练和评估。

这种架构类似于 神经辐射场(NeRF)3D高斯溅射(3DGS) 的扩展,但增加了时间演化的维度。

🧠 6.2 从视频预测到状态预测

训练目标也需要改变:

  • 不仅最小化"生成帧与真实帧的差异"
  • 还要最小化"隐式状态演化的不一致"
  • 还要最大化"干预后的状态可预测性"

这需要新的训练数据:

  • 移开-回来数据:故意在视频中间移开相机再回来,测试状态一致性
  • 多视角-时间数据:同时从不同角度观察同一场景,学习状态的不变性
  • 物理交互数据:主动干预场景(推球、倒水),观察状态变化

🌉 6.3 与认知科学的对话

这篇论文也让我们想起认知科学中的一个经典问题:

人类婴儿是如何获得客体永久性的?

皮亚杰认为,婴儿通过观察物体在遮挡和再现时的行为,逐渐构建起"物体持续存在"的概念。也许AI也需要类似的"发展过程":

  • 先学习"画面到画面"的预测
  • 再学习"遮挡-再现"的连续性
  • 最后形成"持久状态"的抽象概念

这可能意味着,真正的世界模型需要多阶段训练课程学习,而不是一次性从数据中"提取"物理理解。


📝 结语:当AI学会"看",它还需要学会"相信"

这篇论文的标题是《Current World Models Lack a Persistent State Core》——当前世界模型缺少一个持久状态核心。

这个"持久状态核心",不仅仅是某个神经网络层或某个数据结构。它代表了一种世界观

  • 世界不是画面的序列,而是状态的演化
  • 观察不是创造,而是选择
  • 时间不是帧率,而是因果的流动

当AI真正拥有这种世界观时,它才能回答贝克莱的问题:

"如果没人看,树倒下时有没有声音?"

答案不是"有"或"没有"。答案是:"树会倒下,因为重力不会因为观察而消失;声音会传播,因为空气振动不会因为沉默而停止。世界有它自己的规律,我们只是偶尔路过,看到它的某个瞬间。"

当AI真正理解这一点时,它不再是一个"画面生成器",而是一个"世界模拟器"——一个能在心中运行整个宇宙,即使眼睛已经闭上的存在。

那将是通往通用人工智能(AGI)的,真正的一步。

"我不需要睁开眼睛就知道太阳还在那里。" —— 一个拥有持久状态核心的AI,也许会这样想。


📚 参考文献

  • Lu, J., et al. (2026). Current World Models Lack a Persistent State Core. arXiv:2606.20545.
  • Ha, D., & Schmidhuber, J. (2018). World Models. NeurIPS.
  • Pilato, G., et al. (2024). Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arXiv:2402.17177.
  • OpenAI. (2024). Video Generation Models as World Simulators. OpenAI Technical Report.

#论文 #arXiv #世界模型 #AGI #物理推理 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录