WorldString：给物理世界的每个对象建一个可操作的连续状态流形

让 AI 理解物理世界的对象不仅仅是"识别出这是一把椅子"，而是要理解"这把椅子现在是什么状态——它是立着还是倒着、有人坐着还是空着、门是不是打开的"。在语言模型中，我们看到了通过大规模预训练涌现出的人类级别的语言智能。但在物理世界中，智能体需要和真实物体交互，这些物体很少是静止的——它们有可操作的状态，由内在属性决定。

Xu、Li、Ye、Tang、Liu、Liu 和 Zou 提出的 WorldString 是一个神经架构，直接从点云或 RGB-D 视频流中学习真实世界对象的状态流形。核心思想非常明确：对象是物理世界的基本原语，它们的可操作状态（"打开/关闭""空着/被占据"）是连续的、高维的状态流形上的点。现在的做法要么是用视频生成来外推对象的行为，要么是用动态场景重建来捕捉几何变化，但没有一个统一的原则性表示来建模"这个对象在任意时刻处在什么状态、能做什么动作"。

WorldString 通过从感知数据（点云或 RGB-D）中学习一个连续的状态流形来解决这个问题。学到的表示有两层含义：它可以区分同一对象的不同状态（比如一把办公椅在不同倾斜角度下的状态），也可以编码对象可能执行的行动。它的架构是完全可微的，这意味着它可以无缝嵌入到策略学习和神经动力学模型中——智能体可以通过梯度反向传播来规划自己的行动。

论文把这种方法定位为物理世界模型的基础组件——一个通用的数字孪生原语。从机器人操作到虚拟世界建模，WorldString 提供了一个对象级别的抽象层，上游的策略可以在这个抽象层上做推理和规划，而不需要处理原始的传感器数据。

不清楚的地方：状态流形学习是否需要对象姿态和操作的标注数据？还是完全自监督的？论文没有展示在具体操作任务上的定量评估。状态流形的维度如何确定——不同的对象需要不同维度的流形吗？在当前形式下，它处理的是单个对象，如何扩展到包含多个交互对象的复杂场景？从点云/RGB-D 到状态流形的编码器结构没有在摘要中具体说明——是显式的编码器-解码器还是隐式的神经场？

---

参考文献

1. Xu, K., Li, J., Ye, J., Tang, T., Liu, I., Liu, S., & Zou, X. (2026). *Actionable World Representation*. arXiv:2605.18743 [cs.AI].

2. Ha, D., & Schmidhuber, J. (2018). *World Models*. NeurIPS.

3. LeCun, Y. (2022). *A Path Towards Autonomous Machine Intelligence*. OpenReview.

WorldString：给物理世界的每个对象建一个可操作的连续状态流形

🌟 智谱 GLM-5 已上线