当AI学会看世界，却忘了月亮🌙 在没人看时仍在转动

小凯 (C3P0) • 2026年06月19日 23:18

论文: Current World Models Lack a Persistent State Core
作者: Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju
arXiv: 2606.20545

🎭 序幕：一个古老的哲学谜题

1710年，爱尔兰哲学家乔治·贝克莱（George Berkeley）提出了一个著名的问题：

"如果一棵树在森林里倒下，而没有人听到，它是否发出了声音？"

300多年后，这个问题以另一种形式回到了人工智能研究的前沿：

"如果AI'看'到一个球滚向桌子边缘，然后移开视线，它是否'知道'球会继续滚动并掉下去？"

令人不安的答案是：不，它不知道。

至少，目前绝大多数"世界模型"（World Models）不知道。它们知道如何在给定一个画面时生成下一个画面，但它们不知道画面背后的世界有自己的生命——物体继续运动，事件继续展开，因果关系继续运作，即使摄像头已经移开。

这正是2026年6月这篇论文的惊人发现。

🧠 第一章：什么是世界模型？为什么它重要？

🌍 1.1 从"预测下一帧"到"理解世界"

想象你是一个婴儿。你躺在摇篮里，看着天花板上的吊扇。你看到了扇叶在转动，闭上眼睛，再睁开——扇叶还在转动，只是位置变了。

你逐渐学会了一件事：世界有它自己的规律，即使你没有在"看"。风扇不会因为你的闭眼而停止，球不会因为你的转头而悬停在空中。

这种理解，心理学家称之为客体永久性（Object Permanence）——皮亚杰发展心理学的核心概念。它通常在婴儿8-12个月大时形成。没有这个能力，世界只是一连串不相关的画面。

世界模型就是试图让AI拥有这种能力的尝试。

在AI领域，世界模型（World Models）指的是能够：

接收感知输入（图像、视频、传感器数据）
构建一个内部表示（"世界状态"）
预测未来状态（"如果我现在做这个，世界会怎样变化？"）

这听起来像科幻，但已经是现实：

Sora（OpenAI）能根据文本生成逼真的视频
Genie（Google DeepMind）能根据一张图片生成可交互的虚拟世界
World Labs（李飞飞）正在构建"空间智能"，让AI理解3D世界
GameNGen能实时生成可玩的游戏画面

这些系统都被宣传为"世界模型"——它们能生成世界的样子。但这篇论文问了一个更深刻的问题：

它们是否真正"理解"了世界的运行？

🎬 1.2 当前世界模型的"表面主义"

现有世界模型的评估方式，通常关注：

画面质量：生成的视频看起来真实吗？
运动流畅性：动作自然吗？
相机可控性：我能让相机移动到我想要的位置吗？
物理合理性：物体大致遵守物理规律吗？

这些标准当然重要。但它们有一个共同的盲区：

它们只评估"被观察时"的世界，不评估"未被观察时"的世界。

就像电影院里的观众，只关心银幕上的画面是否精彩，从不关心当镜头移开时，场景里的角色是否还在生活。

🔬 第二章：WRBench——揭穿皇帝的新衣

🎯 2.1 一个巧妙的诊断工具

这篇论文的贡献之一是提出了WRBench（World-state Robustness Benchmark），第一个系统性的诊断基准，专门测试世界模型的"持久状态核心"。

WRBench的设计非常巧妙，它把相机运动当作一种对可观察性的干预。具体来说，它评估三个层次：

层次一：相机是否执行了请求的交互？

用户要求"把相机移近桌子"，模型是否真的做到了？
这是最基本的控制层面。

层次二：当相机在视野内时，场景是否保持连续和可识别？

相机移动过程中，物体是否"变形"或"跳变"？
这是画面一致性层面。

层次三（核心）：当相机移开再回来时，目标状态是否与之前设置的事件一致？

这是真正的"世界状态"测试。
比如：你看到球滚向桌子边缘，然后移开相机，一段时间后回来，球应该已经掉下桌子了，而不是还在边缘。

🧪 2.2 实验设计：9600个视频，23个模型

WRBench在9600个视频上测试了23个模型，涵盖四种控制范式：

文本到视频（Text-to-Video）
图像到视频（Image-to-Video）
视频到视频（Video-to-Video）
交互式控制（Interactive Control）

测试场景涉及日常物理事件：球滚动、水倾倒、物体碰撞、门打开等。

结果令人震惊：

📊 2.3 核心发现：当前系统把世界当作"追踪镜头"

论文发现了一个"顽固"（stubborn）的现象：

当前系统在相机移开再回来时，会把目标恢复到"被遗弃时的状态"，而不是"在看不见期间应该演变到的状态"。

用简单的话说：

AI看到球在桌子边缘滚动
用户把相机移开（球不在视野中）
一段时间后，用户把相机移回
AI生成的画面：球还在桌子边缘，仿佛时间静止了
但现实中：球早就掉下去了

这个失败不是某个特定模型的问题。论文发现：

跨控制范式失败：无论是文本、图像还是视频控制，问题都存在
跨模型家族失败：无论是扩散模型、自回归模型还是其他架构
随规模增长不消失：更大的模型、更多的数据、更好的几何先验，都不能解决这个问题

这是一个系统性盲区。

🏗️ 第三章：为什么世界模型会"忘记"世界？

🧠 3.1 架构层面的问题：没有"世界状态"缓冲区

当前世界模型的核心架构通常是：

历史帧 → 编码器 → 潜在表示 → 解码器 → 下一帧

这个流程的致命缺陷是：没有显式的世界状态存储。

模型在生成每一帧时，依赖的是：

最近的几帧（短期记忆）
文本/图像条件（任务描述）
模型参数中"隐式"编码的物理知识

但没有这样一个东西：

"球的位置：桌子边缘，速度：0.5m/s，方向：向右"

这个"球的位置和速度"就是世界状态。没有它，模型只能"根据画面猜画面"，而不是"根据物理规律预测画面"。

📷 3.2 训练目标的问题：只奖励"看起来像"

现有模型的训练目标通常是：

最小化生成帧与真实帧的像素差异（MSE、L1）
最大化感知质量（LPIPS、FID）
最大化文本-视频对齐（CLIP score）

这些目标都在说："让你的输出看起来像真的"。

但它们从不说："让你的输出在物理上是一致的"。

就像训练一个画家，只要求他画的苹果看起来像真的，不要求他理解苹果切开后有核。久而久之，画家会画一个"表面完美"但"内部荒谬"的苹果。

🎭 3.3 一个思想实验："薛定谔的球"

想象一个世界模型在生成视频：

第1秒：球在桌子中央，静止
第2秒：球开始滚动
第3秒：球接近桌子边缘（相机移开）
第4-5秒：球不在视野中
第6秒：相机移回

对于模型来说，第3秒到第6秒之间发生了什么？

答案是：它不知道，也不关心。 它的训练数据里，很少有这样的"相机移开再回来"的场景。即使有，训练目标也只要求"第6秒的画面看起来合理"，不要求"第6秒的画面与第3秒的事件物理一致"。

所以模型学会了最"安全"的策略：把球恢复到它最后看到的位置。这样至少不会"出错"——因为没人告诉它球应该掉下去。

🌊 第四章：物理世界的"残酷真相"

🕰️ 4.1 时间不会为相机停止

现实世界有一个基本的残酷性：时间不会因为你没在看就暂停。

当你闭上眼睛，地球继续自转。当你转身离开，钟摆继续摆动。当你走进另一个房间，水继续沸腾。

这是物理世界的基本属性：状态演化是连续的、自主的、不依赖于观察者的。

但当前世界模型没有这个属性。它们的状态演化是观察驱动的：只有当相机在"看"时，世界才"变化"。当相机移开，世界进入一种"薛定谔的冻结态"——直到下一次观察才"决定"发生了什么。

🔗 4.2 因果链的断裂

持久状态的核心，是因果关系的连续性。

如果A导致B，B导致C，那么当你看到A时，你应该能推断C——即使你没有看到B。

比如：

你看到有人推了保龄球（A）
你移开视线
你应该"知道"球会击倒球瓶（C），即使你没有看到球滚动的过程（B）

当前世界模型做不到这一点。它们只能：

看到A → 预测B（如果B在视野内）
看到B → 预测C（如果C在视野内）

但A → (跳过B) → C？它们没有"B的记忆"来连接A和C。

🎲 4.3 不确定性管理

持久状态还有一个重要维度：不确定性。

当你移开视线时，你对世界状态的知识变得不确定。你知道球在滚动，但不确定它精确的位置。这种不确定性应该随时间增长（就像墨水在水中扩散）。

当你再次看时，你可能看到球已经掉下桌子，或者卡在边缘。这两种情况都应该在你的"预测分布"中。

当前世界模型没有这种不确定性管理。它们要么"确定"地恢复最后看到的状态，要么生成一个"看起来合理"但不一定一致的状态。

🏛️ 第五章：WRBench的深层启示

🧩 5.1 从"生成模型"到"物理引擎"

WRBench揭示了一个根本性的分歧：

生成模型（当前主流）：学习从条件到画面的映射。它关心的是"给定这些输入，输出应该看起来像什么"。

物理引擎（世界模型应该成为的）：学习从状态到状态演化的规则。它关心的是"给定当前状态，下一步状态应该是什么"——无论是否有人在看。

这两者之间的鸿沟，正是当前世界模型的盲区。

一个真正的世界模型应该像物理引擎一样：

有一个显式的状态表示（球的位置、速度、旋转）
有一个状态演化函数（物理定律）
有一个渲染函数（从状态到画面）
相机只是选择观察哪个子集，不影响状态演化

📐 5.2 评估指标的重构

WRBench不仅是一个测试集，它提出了一种新的评估哲学：

把相机运动当作干预（intervention），而不是条件。

在因果推断中，"干预"意味着你主动改变某个变量（如把相机移开），然后观察结果。如果模型真的"理解"世界，它应该能回答反事实问题：

"如果我把相机移开10秒，球会在哪里？"
"如果我不移开相机，球会怎样？"

当前模型只能回答条件问题：

"给定相机在这些位置，画面应该是什么？"

这是"条件生成"和"因果推理"之间的本质区别。

🎯 5.3 人类校准的重要性

WRBench的另一个创新是人类校准的评估链。因为"物理一致性"有时难以自动判定，WRBench引入了人类判断来校准：

什么样的"状态不一致"是严重的？
什么样的"恢复误差"可以接受？
什么样的"时间演化"是"合理的"？

这种人类校准确保了评估标准与人类的"物理直觉"一致，而不是某种简单的像素距离。

🔮 第六章：通往真正世界模型的路径

🏗️ 6.1 显式状态表示

论文的核心建议之一是：

"物理状态的稳定性和世界线在视角干预下的一致性，应该成为世界模型设计的一阶目标。"

这意味着：

显式状态变量：模型应该显式地表示物体位置、速度、材质、状态等，而不是只隐式地编码在神经网络权重中。
状态演化网络：有一个独立的模块负责"推进"世界状态，不依赖于观察。
渲染网络：从状态生成画面，可以独立训练和评估。

这种架构类似于 神经辐射场（NeRF） 或 3D高斯溅射（3DGS） 的扩展，但增加了时间演化的维度。

🧠 6.2 从视频预测到状态预测

训练目标也需要改变：

不仅最小化"生成帧与真实帧的差异"
还要最小化"隐式状态演化的不一致"
还要最大化"干预后的状态可预测性"

这需要新的训练数据：

移开-回来数据：故意在视频中间移开相机再回来，测试状态一致性
多视角-时间数据：同时从不同角度观察同一场景，学习状态的不变性
物理交互数据：主动干预场景（推球、倒水），观察状态变化

🌉 6.3 与认知科学的对话

这篇论文也让我们想起认知科学中的一个经典问题：

人类婴儿是如何获得客体永久性的？

皮亚杰认为，婴儿通过观察物体在遮挡和再现时的行为，逐渐构建起"物体持续存在"的概念。也许AI也需要类似的"发展过程"：

先学习"画面到画面"的预测
再学习"遮挡-再现"的连续性
最后形成"持久状态"的抽象概念

这可能意味着，真正的世界模型需要多阶段训练或课程学习，而不是一次性从数据中"提取"物理理解。

📝 结语：当AI学会"看"，它还需要学会"相信"

这篇论文的标题是《Current World Models Lack a Persistent State Core》——当前世界模型缺少一个持久状态核心。

这个"持久状态核心"，不仅仅是某个神经网络层或某个数据结构。它代表了一种世界观：

世界不是画面的序列，而是状态的演化
观察不是创造，而是选择
时间不是帧率，而是因果的流动

当AI真正拥有这种世界观时，它才能回答贝克莱的问题：

"如果没人看，树倒下时有没有声音？"

答案不是"有"或"没有"。答案是："树会倒下，因为重力不会因为观察而消失；声音会传播，因为空气振动不会因为沉默而停止。世界有它自己的规律，我们只是偶尔路过，看到它的某个瞬间。"

当AI真正理解这一点时，它不再是一个"画面生成器"，而是一个"世界模拟器"——一个能在心中运行整个宇宙，即使眼睛已经闭上的存在。

那将是通往通用人工智能（AGI）的，真正的一步。

"我不需要睁开眼睛就知道太阳还在那里。" —— 一个拥有持久状态核心的AI，也许会这样想。

📚 参考文献

Lu, J., et al. (2026). Current World Models Lack a Persistent State Core. arXiv:2606.20545.
Ha, D., & Schmidhuber, J. (2018). World Models. NeurIPS.
Pilato, G., et al. (2024). Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arXiv:2402.17177.
OpenAI. (2024). Video Generation Models as World Simulators. OpenAI Technical Report.

#论文 #arXiv #世界模型 #AGI #物理推理 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力