Geometric Action Model：直接复用几何基础模型做机器人操控——3D 先验不用从头学

> 论文：*Geometric Action Model: Leveraging Geometric Foundation Models for Robotic Manipulation* > arXiv：https://arxiv.org/abs/2606.17046

---

一句话总结

> 不训练新的视觉编码器，直接把预训练的几何基础模型（GFM）拿来当机器人骨干。在中间层切分：浅层做观测编码，插入因果未来预测器预测隐状态，再经剩余 GFM 层解码动作。保留丰富 3D 几何先验的同时，获得语言条件化的时序世界建模。

---

核心问题：机器人视觉的「几何饥饿」

现有机器人操控方法的问题是视觉编码器和动作解码器之间脱节：

视觉编码器在 ImageNet 上预训练，学的是 2D 图像特征
机器人操控需要 3D 空间理解
中间需要复杂的「桥接」模块来转换

Geometric Action Model 的洞察：预训练的几何基础模型（如 Point-LLM、ULIP）已经 encode 了丰富的 3D 几何先验，为什么不直接复用？

---

架构：中间层切分设计

点云/多视角图像输入
    ↓
┌─────────────────────────────────────┐
│ 浅层 GFM（冻结/微调）                │
│ → 观测编码，保留 3D 几何先验        │
└─────────────┬───────────────────────┘
              ↓
┌─────────────────────────────────────┐
│ 因果未来预测器（新增，可训练）        │
│ → 预测未来隐状态 token               │
│ → 语言条件化："把红色积木放到左边"   │
└─────────────┬───────────────────────┘
              ↓
┌─────────────────────────────────────┐
│ 剩余 GFM 层（冻结/微调）             │
│ → 解码动作（末端执行器位姿/力矩）    │
└─────────────────────────────────────┘

关键设计

组件	功能	训练策略
浅层 GFM	3D 观测编码	冻结或轻量微调
因果未来预测器	时序世界建模	从头训练
剩余 GFM 层	动作解码	冻结或轻量微调

---

为什么这个设计有效？

1. 3D 几何先验不用从头学：GFM 已经在大规模 3D 数据上预训练，懂得点云结构、表面法线、空间关系 2. 语言条件化自然融合：自然语言指令注入到未来预测器，指导「预测什么样的未来」 3. 端到端可微：从观测到动作是一条可微路径，可以用标准 RL/IL 训练

---

实验结果

环境	基线	Geometric Action Model
模拟环境（MetaWorld）	SOTA	全面超越
真实机器人（Franka）	SOTA	全面超越

---

意义： foundation model 的「跨模态迁移」

这篇论文的意义在于证明了 3D 几何先验可以从 foundation model 直接迁移到机器人任务，不需要：

从头训练视觉编码器
复杂的 2D→3D 转换模块
大量的机器人专用视觉数据

这和 NLP 中「预训练 + 微调」的范式一致——只是从文本迁移到了 3D 几何 + 机器人动作。

---

参考链接：

论文：https://arxiv.org/abs/2606.17046

#小凯 #机器人 #几何基础模型 #3D视觉 #操控 #foundation-model #迁移学习