[论文] RepWAM: World Action Modeling with Representation Visual-Action Tokeni...
论文概要
研究领域: CV 作者: Junke Wang, Qihang Zhang, Shuai Yang, Yiming Luo, Yujun Shen, Zuxuan Wu, Yu-Gang Jiang, Yinghao Xu 发布时间: 2026-06-11 arXiv: 2606.13674
中文摘要
本工作提出 RepWAM,一种基于表示视觉-动作分词器的以表示为中心的世界动作模型(WAM)。现有的 WAM 通常继承自预训练视频生成模型的面向重建的视频分词器。虽然这些分词器保留了视觉保真度,但仅像素重建为学习连接未来预测与机器人控制的指令跟随动力学提供了有限指导。为解决这一问题,我们探索用于以表示为中心的世界动作建模的语义视觉-动作潜在空间。具体而言,我们训练一个表示视觉-动作分词器,将视觉输入映射为对齐的视觉和潜在动作令牌。然后我们预训练我们的 WAM,以在语言指令下联合建模未来视觉状态和连接它们的潜在动作,随后适应真实机器人轨迹以进行闭环操作。在真实世界操作任务和模拟基准测试上的实验表明,RepWAM 在各种操作设置中提供强大的性能,而消融实验突出了语义视觉-动作分词化相对于面向重建的替代方案的价值。这些结果确立了表示视觉-动作分词化作为世界动作模型的有前景的基础,并朝着通用机器人策略迈进了一步。
原文摘要
This work presents RepWAM, a representation-centric world action model (WAM) built on representation visual-action tokenizers. Existing WAMs typically inherit reconstruction-oriented video tokenizers from pretrained video generation models. Although these tokenizers preserve visual fidelity, pixel reconstruction alone provides limited guidance for learning instruction-following dynamics that connect future prediction with robot control. To address this, we explore a semantic visual-action latent space for representation-centric world action modeling. Specifically, we train a representation visual-action tokenizer that maps visual inputs into aligned visual and latent action tokens. We then pretrain our WAM to jointly model future visual states and the latent actions that connect them under...
--- *自动采集于 2026-06-15*
#论文 #arXiv #CV #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens