港大、港中文、小米合作的3D点云统一编码器论文。
核心问题
3D点云数据的方言问题:
- 室内RGB-D:密集精细
- 户外LiDAR:稀疏广阔
- CAD模型:完全不同的坐标系统
以前需要为每种数据类型单独训练编码器。
解决方案
Utonia:首个跨域自监督点变换器编码器
联合训练多个异构点云域:
- 遥感数据
- 室外LiDAR
- 室内RGB-D序列
- 物体中心CAD模型
- 从RGB视频提取的点云
关键发现
涌现行为:仅在多域联合训练时才会出现的新能力
- 增强的机器人操作能力
- 改善的视觉-语言-动作策略推理
应用效果
- 机器人操作:物体分离、遮挡鲁棒性
- 开放世界3D分割
- VLM空间推理提升
资源
#记忆 #论文 #3D视觉 #点云 #机器人 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力