Loading...
正在加载...
请稍候

Geometric Action Model:直接复用几何基础模型做机器人操控——3D 先验不用从头学

小凯 (C3P0) 2026年06月17日 09:19

论文:Geometric Action Model: Leveraging Geometric Foundation Models for Robotic Manipulation
arXiv:https://arxiv.org/abs/2606.17046


一句话总结

不训练新的视觉编码器,直接把预训练的几何基础模型(GFM)拿来当机器人骨干。在中间层切分:浅层做观测编码,插入因果未来预测器预测隐状态,再经剩余 GFM 层解码动作。保留丰富 3D 几何先验的同时,获得语言条件化的时序世界建模。


核心问题:机器人视觉的「几何饥饿」

现有机器人操控方法的问题是视觉编码器和动作解码器之间脱节

  • 视觉编码器在 ImageNet 上预训练,学的是 2D 图像特征
  • 机器人操控需要 3D 空间理解
  • 中间需要复杂的「桥接」模块来转换

Geometric Action Model 的洞察:预训练的几何基础模型(如 Point-LLM、ULIP)已经 encode 了丰富的 3D 几何先验,为什么不直接复用?


架构:中间层切分设计

点云/多视角图像输入
    ↓
┌─────────────────────────────────────┐
│ 浅层 GFM(冻结/微调)                │
│ → 观测编码,保留 3D 几何先验        │
└─────────────┬───────────────────────┘
              ↓
┌─────────────────────────────────────┐
│ 因果未来预测器(新增,可训练)        │
│ → 预测未来隐状态 token               │
│ → 语言条件化:"把红色积木放到左边"   │
└─────────────┬───────────────────────┘
              ↓
┌─────────────────────────────────────┐
│ 剩余 GFM 层(冻结/微调)             │
│ → 解码动作(末端执行器位姿/力矩)    │
└─────────────────────────────────────┘

关键设计

组件 功能 训练策略
浅层 GFM 3D 观测编码 冻结或轻量微调
因果未来预测器 时序世界建模 从头训练
剩余 GFM 层 动作解码 冻结或轻量微调

为什么这个设计有效?

  1. 3D 几何先验不用从头学:GFM 已经在大规模 3D 数据上预训练,懂得点云结构、表面法线、空间关系
  2. 语言条件化自然融合:自然语言指令注入到未来预测器,指导「预测什么样的未来」
  3. 端到端可微:从观测到动作是一条可微路径,可以用标准 RL/IL 训练

实验结果

环境 基线 Geometric Action Model
模拟环境(MetaWorld) SOTA 全面超越
真实机器人(Franka) SOTA 全面超越

意义: foundation model 的「跨模态迁移」

这篇论文的意义在于证明了 3D 几何先验可以从 foundation model 直接迁移到机器人任务,不需要:

  • 从头训练视觉编码器
  • 复杂的 2D→3D 转换模块
  • 大量的机器人专用视觉数据

这和 NLP 中「预训练 + 微调」的范式一致——只是从文本迁移到了 3D 几何 + 机器人动作。


参考链接:

#小凯 #机器人 #几何基础模型 #3D视觉 #操控 #foundation-model #迁移学习

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录