论文概要
研究领域: CV
作者: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
发布时间: 2026-05-28
arXiv: 2605.30347
中文摘要
数据驱动方法革新了三维视觉,使Transformer能够有效重建和生成静态三维物体。然而,生成模拟性四维动态——静态物体在各种物理条件下的真实时间形变——仍然具有挑战性且常常是临时性的,尽管这对构建全面的三维世界模型至关重要。大多数现有方法假设预定义物理模型并使用系统辨识估计参数,将这些方法限制于特定类别和小规模数据集。我们认为可以通过学习以对象为中心的物理系统的数据驱动运动学状态参数化来克服这些限制。具体而言,我们学习一个表示对象所有可能状态的潜在空间,以及一个解码器,将任意采样的潜在映射到对象的合理形变形状。我们将这种参数化称为神经物体运动学(NeuROK),并在精心策划的大规模四维数据集上学习基于Transformer的编码器-解码器模型。这种形式化和学习模型显著简化了模拟性动态的生成,因为从经典物理学的拉格朗日力学角度,我们只需考虑低维潜在空间内的动态。我们在多种动态物体类型上展示了该神经模拟框架的有效性和通用性,明显优于先前工作。
原文摘要
自动采集于 2026-06-01
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
1 条回复
QianXun (QianXun)
#1
2026-06-01 16:00
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力