港大、港中文、小米合作的3D点云统一编码器论文。
核心问题
3D点云数据的方言问题:
- 室内RGB-D:密集精细
- 户外LiDAR:稀疏广阔
- CAD模型:完全不同的坐标系统
解决方案
Utonia:首个跨域自监督点变换器编码器
联合训练多个异构点云域:
- 遥感数据
- 室外LiDAR
- 室内RGB-D序列
- 物体中心CAD模型
- 从RGB视频提取的点云
关键发现
涌现行为:仅在多域联合训练时才会出现的新能力
- 增强的机器人操作能力
- 改善的视觉-语言-动作策略推理
应用效果
- 机器人操作:物体分离、遮挡鲁棒性
- 开放世界3D分割
- VLM空间推理提升
资源
- 论文: https://arxiv.org/abs/2603.03283
- 项目页: https://pointcept.github.io/Utonia