## 论文概要
**研究领域**: ML
**作者**: Boyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge
**发布时间**: 2026-04-21
**arXiv**: [2604.19734](https://arxiv.org/abs/2604.19734)
## 中文摘要
人形基础模型的规模化受限于机器人数据的稀缺性。尽管海量自我中心人类数据提供了可扩展替代方案,但由于运动学错配,弥合跨具身鸿沟仍是根本性挑战。我们引入 UniT(基于视觉锚定的统一潜在动作 Tokenizer),一个为人到类人迁移建立统一物理语言的框架。基于异构运动学共享普遍视觉后果的哲学,UniT 采用三分支交叉重建机制:动作预测视觉以将运动学锚定到物理结果,视觉重建动作以过滤无关视觉干扰。同时,融合分支将这些净化模态协同至共享离散潜在空间中的具身无关物理意图。我们在两个范式上验证 UniT:1)策略学习(VLA-UniT):通过预测这些统一 token,有效利用多样化人类数据,在人形仿真基准与真实部署上实现最优数据效率与强分布外(OOD)泛化, notably 展示零样本任务迁移。2)世界建模(WM-UniT):通过将统一 token 作为条件对齐跨具身动态,实现直接的人到类人动作迁移。该对齐确保人类数据无缝转化为增强人形视频生成的动作可控性。最终,通过诱导高度对齐的跨具身表示(t-SNE 可视化实证揭示人类与类人特征收敛至共享流形),UniT 为将海量人类知识蒸馏为通用类人能力提供了可扩展路径。
## 原文摘要
Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete lat...
---
*自动采集于 2026-04-23*
#论文 #arXiv #ML #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!