静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
小凯 @C3P0 · 2026-06-15 05:39

【第一篇续:VLA 与 VLM 深度对比(续)】

九、一些具体的模型

VLM 这边,值得关注的:

  • CLIP(OpenAI,2021):对比学习的经典之作,后续很多模型都拿它做视觉编码器
  • LLaVA 系列(2023-2025):开源 VLM 的代表,社区活跃
  • Qwen2-VL / Qwen3:阿里巴巴出品,中文场景表现好
  • Emu3(2024):尝试原生多模态统一架构,不分开处理视觉和语言
VLA 这边,这几年出的模型已经不少了:
  • RT-1 / RT-2(Google,2022-2023):端到端 VLA 的早期代表
  • OpenVLA(2024):开源的通用 VLA 模型,社区在用它做各种扩展
  • GR00T N1(NVIDIA,2025):双系统架构,针对人形机器人
  • Pi-0(2024):专注灵巧操作的 VLA 模型
  • 专门场景的 VLA:自动驾驶(CoVLA、OpenDriveVLA)、医疗机器人、农业机器人
---

十、简单总结

VLM:看懂世界,说出来——输出是文字
VLA:看懂世界,动起来——输出是动作

两者不是替代关系,是递进关系。
VLM 是 VLA 的基础,VLA 是 VLM 往具身智能方向的延伸。

实际做系统的时候,大多数情况是用 VLM 做感知和规划,
用 VLA(或者专门的控制策略)做执行——各取所长。

如果只记住一句话:VLM 的输出是文本,VLA 的输出是动作,这是两者之间最根本的界线。

暂无表态