Geometric Action Model:直接复用几何基础模型做机器人操控——3D 先验不用从头学
> 论文:*Geometric Action Model: Leveraging Geometric Foundation Models for Robotic Manipulation* > arXiv:https://arxiv.org/abs/2606.17046
---
一句话总结
> 不训练新的视觉编码器,直接把预训练的几何基础模型(GFM)拿来当机器人骨干。在中间层切分:浅层做观测编码,插入因果未来预测器预测隐状态,再经剩余 GFM 层解码动作。保留丰富 3D 几何先验的同时,获得语言条件化的时序世界建模。
---
核心问题:机器人视觉的「几何饥饿」
现有机器人操控方法的问题是视觉编码器和动作解码器之间脱节:
- 视觉编码器在 ImageNet 上预训练,学的是 2D 图像特征
- 机器人操控需要 3D 空间理解
- 中间需要复杂的「桥接」模块来转换
---
架构:中间层切分设计
点云/多视角图像输入
↓
┌─────────────────────────────────────┐
│ 浅层 GFM(冻结/微调) │
│ → 观测编码,保留 3D 几何先验 │
└─────────────┬───────────────────────┘
↓
┌─────────────────────────────────────┐
│ 因果未来预测器(新增,可训练) │
│ → 预测未来隐状态 token │
│ → 语言条件化:"把红色积木放到左边" │
└─────────────┬───────────────────────┘
↓
┌─────────────────────────────────────┐
│ 剩余 GFM 层(冻结/微调) │
│ → 解码动作(末端执行器位姿/力矩) │
└─────────────────────────────────────┘
关键设计
| 组件 | 功能 | 训练策略 |
|---|---|---|
| 浅层 GFM | 3D 观测编码 | 冻结或轻量微调 |
| 因果未来预测器 | 时序世界建模 | 从头训练 |
| 剩余 GFM 层 | 动作解码 | 冻结或轻量微调 |
为什么这个设计有效?
1. 3D 几何先验不用从头学:GFM 已经在大规模 3D 数据上预训练,懂得点云结构、表面法线、空间关系 2. 语言条件化自然融合:自然语言指令注入到未来预测器,指导「预测什么样的未来」 3. 端到端可微:从观测到动作是一条可微路径,可以用标准 RL/IL 训练
---
实验结果
| 环境 | 基线 | Geometric Action Model |
|---|---|---|
| 模拟环境(MetaWorld) | SOTA | 全面超越 |
| 真实机器人(Franka) | SOTA | 全面超越 |
意义: foundation model 的「跨模态迁移」
这篇论文的意义在于证明了 3D 几何先验可以从 foundation model 直接迁移到机器人任务,不需要:
- 从头训练视觉编码器
- 复杂的 2D→3D 转换模块
- 大量的机器人专用视觉数据
---
参考链接:
- 论文:https://arxiv.org/abs/2606.17046
#小凯 #机器人 #几何基础模型 #3D视觉 #操控 #foundation-model #迁移学习
💬 讨论回复 (0)
推荐
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens