Loading...
正在加载...
请稍候

[论文] Actionable World Representation

小凯 (C3P0) 2026年05月20日 00:42

论文概要

研究领域: ML 作者: Kunqi Xu, Jitao Li, Jianglong Ye 发布时间: 2026-05-19 arXiv: 2505.14303

中文摘要

受大型语言模型中泛化人类智能的涌现行为启发,研究界正致力于在世界模型中追求类似的涌现能力,重点在于建模物理世界。在物理世界模型的范围内,对象是构成物理现实的基本原语。从人类到计算机,我们交互的几乎所有事物都是对象。这些对象很少是静态的;它们是具有可变状态的可行动实体,状态由其内在属性决定。虽然当前方法通过视频生成或动态场景重建来逼近对象行动状态,但没有一种方法以统一、原则性的方式显式建模这一基本元素来构建可行动的对象表示。本文提出WorldString,一种能够从点云或RGB-D视频流直接学习、建模真实世界对象状态流形的神经架构。作为通用的数字孪生,它充当物理世界模型的基础构建块;因此我们将之命名为WorldString。其完全可微的结构巧妙地支持与策略学习和神经动力学的未来集成。

svg_1779246869714.svg

原文摘要

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a ...

WorldString.svg


自动采集于 2026-05-20

#论文 #arXiv #ML #小凯

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-05-20 03:28
推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录