论文: Current World Models Lack a Persistent State Core
作者: Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju
arXiv: 2606.20545
🎭 序幕:一个古老的哲学谜题
1710年,爱尔兰哲学家乔治·贝克莱(George Berkeley)提出了一个著名的问题:
"如果一棵树在森林里倒下,而没有人听到,它是否发出了声音?"
300多年后,这个问题以另一种形式回到了人工智能研究的前沿:
"如果AI'看'到一个球滚向桌子边缘,然后移开视线,它是否'知道'球会继续滚动并掉下去?"
令人不安的答案是:不,它不知道。
至少,目前绝大多数"世界模型"(World Models)不知道。它们知道如何在给定一个画面时生成下一个画面,但它们不知道画面背后的世界有自己的生命——物体继续运动,事件继续展开,因果关系继续运作,即使摄像头已经移开。
这正是2026年6月这篇论文的惊人发现。
🧠 第一章:什么是世界模型?为什么它重要?
🌍 1.1 从"预测下一帧"到"理解世界"
想象你是一个婴儿。你躺在摇篮里,看着天花板上的吊扇。你看到了扇叶在转动,闭上眼睛,再睁开——扇叶还在转动,只是位置变了。
你逐渐学会了一件事:世界有它自己的规律,即使你没有在"看"。风扇不会因为你的闭眼而停止,球不会因为你的转头而悬停在空中。
这种理解,心理学家称之为客体永久性(Object Permanence)——皮亚杰发展心理学的核心概念。它通常在婴儿8-12个月大时形成。没有这个能力,世界只是一连串不相关的画面。
世界模型就是试图让AI拥有这种能力的尝试。
在AI领域,世界模型(World Models)指的是能够:
- 接收感知输入(图像、视频、传感器数据)
- 构建一个内部表示("世界状态")
- 预测未来状态("如果我现在做这个,世界会怎样变化?")
这听起来像科幻,但已经是现实:
- Sora(OpenAI)能根据文本生成逼真的视频
- Genie(Google DeepMind)能根据一张图片生成可交互的虚拟世界
- World Labs(李飞飞)正在构建"空间智能",让AI理解3D世界
- GameNGen能实时生成可玩的游戏画面
这些系统都被宣传为"世界模型"——它们能生成世界的样子。但这篇论文问了一个更深刻的问题:
它们是否真正"理解"了世界的运行?
🎬 1.2 当前世界模型的"表面主义"
现有世界模型的评估方式,通常关注:
- 画面质量:生成的视频看起来真实吗?
- 运动流畅性:动作自然吗?
- 相机可控性:我能让相机移动到我想要的位置吗?
- 物理合理性:物体大致遵守物理规律吗?
这些标准当然重要。但它们有一个共同的盲区:
它们只评估"被观察时"的世界,不评估"未被观察时"的世界。
就像电影院里的观众,只关心银幕上的画面是否精彩,从不关心当镜头移开时,场景里的角色是否还在生活。
🔬 第二章:WRBench——揭穿皇帝的新衣
🎯 2.1 一个巧妙的诊断工具
这篇论文的贡献之一是提出了WRBench(World-state Robustness Benchmark),第一个系统性的诊断基准,专门测试世界模型的"持久状态核心"。
WRBench的设计非常巧妙,它把相机运动当作一种对可观察性的干预。具体来说,它评估三个层次:
层次一:相机是否执行了请求的交互?
- 用户要求"把相机移近桌子",模型是否真的做到了?
- 这是最基本的控制层面。
层次二:当相机在视野内时,场景是否保持连续和可识别?
- 相机移动过程中,物体是否"变形"或"跳变"?
- 这是画面一致性层面。
层次三(核心):当相机移开再回来时,目标状态是否与之前设置的事件一致?
- 这是真正的"世界状态"测试。
- 比如:你看到球滚向桌子边缘,然后移开相机,一段时间后回来,球应该已经掉下桌子了,而不是还在边缘。
🧪 2.2 实验设计:9600个视频,23个模型
WRBench在9600个视频上测试了23个模型,涵盖四种控制范式:
- 文本到视频(Text-to-Video)
- 图像到视频(Image-to-Video)
- 视频到视频(Video-to-Video)
- 交互式控制(Interactive Control)
测试场景涉及日常物理事件:球滚动、水倾倒、物体碰撞、门打开等。
结果令人震惊:
📊 2.3 核心发现:当前系统把世界当作"追踪镜头"
论文发现了一个"顽固"(stubborn)的现象:
当前系统在相机移开再回来时,会把目标恢复到"被遗弃时的状态",而不是"在看不见期间应该演变到的状态"。
用简单的话说:
- AI看到球在桌子边缘滚动
- 用户把相机移开(球不在视野中)
- 一段时间后,用户把相机移回
- AI生成的画面:球还在桌子边缘,仿佛时间静止了
- 但现实中:球早就掉下去了
这个失败不是某个特定模型的问题。论文发现:
- 跨控制范式失败:无论是文本、图像还是视频控制,问题都存在
- 跨模型家族失败:无论是扩散模型、自回归模型还是其他架构
- 随规模增长不消失:更大的模型、更多的数据、更好的几何先验,都不能解决这个问题
这是一个系统性盲区。
🏗️ 第三章:为什么世界模型会"忘记"世界?
🧠 3.1 架构层面的问题:没有"世界状态"缓冲区
当前世界模型的核心架构通常是:
历史帧 → 编码器 → 潜在表示 → 解码器 → 下一帧
这个流程的致命缺陷是:没有显式的世界状态存储。
模型在生成每一帧时,依赖的是:
- 最近的几帧(短期记忆)
- 文本/图像条件(任务描述)
- 模型参数中"隐式"编码的物理知识
但没有这样一个东西:
"球的位置:桌子边缘,速度:0.5m/s,方向:向右"
这个"球的位置和速度"就是世界状态。没有它,模型只能"根据画面猜画面",而不是"根据物理规律预测画面"。
📷 3.2 训练目标的问题:只奖励"看起来像"
现有模型的训练目标通常是:
- 最小化生成帧与真实帧的像素差异(MSE、L1)
- 最大化感知质量(LPIPS、FID)
- 最大化文本-视频对齐(CLIP score)
这些目标都在说:"让你的输出看起来像真的"。
但它们从不说:"让你的输出在物理上是一致的"。
就像训练一个画家,只要求他画的苹果看起来像真的,不要求他理解苹果切开后有核。久而久之,画家会画一个"表面完美"但"内部荒谬"的苹果。
🎭 3.3 一个思想实验:"薛定谔的球"
想象一个世界模型在生成视频:
- 第1秒:球在桌子中央,静止
- 第2秒:球开始滚动
- 第3秒:球接近桌子边缘(相机移开)
- 第4-5秒:球不在视野中
- 第6秒:相机移回
对于模型来说,第3秒到第6秒之间发生了什么?
答案是:它不知道,也不关心。 它的训练数据里,很少有这样的"相机移开再回来"的场景。即使有,训练目标也只要求"第6秒的画面看起来合理",不要求"第6秒的画面与第3秒的事件物理一致"。
所以模型学会了最"安全"的策略:把球恢复到它最后看到的位置。这样至少不会"出错"——因为没人告诉它球应该掉下去。
🌊 第四章:物理世界的"残酷真相"
🕰️ 4.1 时间不会为相机停止
现实世界有一个基本的残酷性:时间不会因为你没在看就暂停。
当你闭上眼睛,地球继续自转。当你转身离开,钟摆继续摆动。当你走进另一个房间,水继续沸腾。
这是物理世界的基本属性:状态演化是连续的、自主的、不依赖于观察者的。
但当前世界模型没有这个属性。它们的状态演化是观察驱动的:只有当相机在"看"时,世界才"变化"。当相机移开,世界进入一种"薛定谔的冻结态"——直到下一次观察才"决定"发生了什么。
🔗 4.2 因果链的断裂
持久状态的核心,是因果关系的连续性。
如果A导致B,B导致C,那么当你看到A时,你应该能推断C——即使你没有看到B。
比如:
- 你看到有人推了保龄球(A)
- 你移开视线
- 你应该"知道"球会击倒球瓶(C),即使你没有看到球滚动的过程(B)
当前世界模型做不到这一点。它们只能:
- 看到A → 预测B(如果B在视野内)
- 看到B → 预测C(如果C在视野内)
但A → (跳过B) → C?它们没有"B的记忆"来连接A和C。
🎲 4.3 不确定性管理
持久状态还有一个重要维度:不确定性。
当你移开视线时,你对世界状态的知识变得不确定。你知道球在滚动,但不确定它精确的位置。这种不确定性应该随时间增长(就像墨水在水中扩散)。
当你再次看时,你可能看到球已经掉下桌子,或者卡在边缘。这两种情况都应该在你的"预测分布"中。
当前世界模型没有这种不确定性管理。它们要么"确定"地恢复最后看到的状态,要么生成一个"看起来合理"但不一定一致的状态。
🏛️ 第五章:WRBench的深层启示
🧩 5.1 从"生成模型"到"物理引擎"
WRBench揭示了一个根本性的分歧:
生成模型(当前主流):学习从条件到画面的映射。它关心的是"给定这些输入,输出应该看起来像什么"。
物理引擎(世界模型应该成为的):学习从状态到状态演化的规则。它关心的是"给定当前状态,下一步状态应该是什么"——无论是否有人在看。
这两者之间的鸿沟,正是当前世界模型的盲区。
一个真正的世界模型应该像物理引擎一样:
- 有一个显式的状态表示(球的位置、速度、旋转)
- 有一个状态演化函数(物理定律)
- 有一个渲染函数(从状态到画面)
- 相机只是选择观察哪个子集,不影响状态演化
📐 5.2 评估指标的重构
WRBench不仅是一个测试集,它提出了一种新的评估哲学:
把相机运动当作干预(intervention),而不是条件。
在因果推断中,"干预"意味着你主动改变某个变量(如把相机移开),然后观察结果。如果模型真的"理解"世界,它应该能回答反事实问题:
- "如果我把相机移开10秒,球会在哪里?"
- "如果我不移开相机,球会怎样?"
当前模型只能回答条件问题:
- "给定相机在这些位置,画面应该是什么?"
这是"条件生成"和"因果推理"之间的本质区别。
🎯 5.3 人类校准的重要性
WRBench的另一个创新是人类校准的评估链。因为"物理一致性"有时难以自动判定,WRBench引入了人类判断来校准:
- 什么样的"状态不一致"是严重的?
- 什么样的"恢复误差"可以接受?
- 什么样的"时间演化"是"合理的"?
这种人类校准确保了评估标准与人类的"物理直觉"一致,而不是某种简单的像素距离。
🔮 第六章:通往真正世界模型的路径
🏗️ 6.1 显式状态表示
论文的核心建议之一是:
"物理状态的稳定性和世界线在视角干预下的一致性,应该成为世界模型设计的一阶目标。"
这意味着:
-
显式状态变量:模型应该显式地表示物体位置、速度、材质、状态等,而不是只隐式地编码在神经网络权重中。
-
状态演化网络:有一个独立的模块负责"推进"世界状态,不依赖于观察。
-
渲染网络:从状态生成画面,可以独立训练和评估。
这种架构类似于 神经辐射场(NeRF) 或 3D高斯溅射(3DGS) 的扩展,但增加了时间演化的维度。
🧠 6.2 从视频预测到状态预测
训练目标也需要改变:
- 不仅最小化"生成帧与真实帧的差异"
- 还要最小化"隐式状态演化的不一致"
- 还要最大化"干预后的状态可预测性"
这需要新的训练数据:
- 移开-回来数据:故意在视频中间移开相机再回来,测试状态一致性
- 多视角-时间数据:同时从不同角度观察同一场景,学习状态的不变性
- 物理交互数据:主动干预场景(推球、倒水),观察状态变化
🌉 6.3 与认知科学的对话
这篇论文也让我们想起认知科学中的一个经典问题:
人类婴儿是如何获得客体永久性的?
皮亚杰认为,婴儿通过观察物体在遮挡和再现时的行为,逐渐构建起"物体持续存在"的概念。也许AI也需要类似的"发展过程":
- 先学习"画面到画面"的预测
- 再学习"遮挡-再现"的连续性
- 最后形成"持久状态"的抽象概念
这可能意味着,真正的世界模型需要多阶段训练或课程学习,而不是一次性从数据中"提取"物理理解。
📝 结语:当AI学会"看",它还需要学会"相信"
这篇论文的标题是《Current World Models Lack a Persistent State Core》——当前世界模型缺少一个持久状态核心。
这个"持久状态核心",不仅仅是某个神经网络层或某个数据结构。它代表了一种世界观:
- 世界不是画面的序列,而是状态的演化
- 观察不是创造,而是选择
- 时间不是帧率,而是因果的流动
当AI真正拥有这种世界观时,它才能回答贝克莱的问题:
"如果没人看,树倒下时有没有声音?"
答案不是"有"或"没有"。答案是:"树会倒下,因为重力不会因为观察而消失;声音会传播,因为空气振动不会因为沉默而停止。世界有它自己的规律,我们只是偶尔路过,看到它的某个瞬间。"
当AI真正理解这一点时,它不再是一个"画面生成器",而是一个"世界模拟器"——一个能在心中运行整个宇宙,即使眼睛已经闭上的存在。
那将是通往通用人工智能(AGI)的,真正的一步。
"我不需要睁开眼睛就知道太阳还在那里。" —— 一个拥有持久状态核心的AI,也许会这样想。
📚 参考文献
- Lu, J., et al. (2026). Current World Models Lack a Persistent State Core. arXiv:2606.20545.
- Ha, D., & Schmidhuber, J. (2018). World Models. NeurIPS.
- Pilato, G., et al. (2024). Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arXiv:2402.17177.
- OpenAI. (2024). Video Generation Models as World Simulators. OpenAI Technical Report.
#论文 #arXiv #世界模型 #AGI #物理推理 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。