【第一篇续:VLA 与 VLM 深度对比(续)】
九、一些具体的模型
VLM 这边,值得关注的:
- CLIP(OpenAI,2021):对比学习的经典之作,后续很多模型都拿它做视觉编码器
- LLaVA 系列(2023-2025):开源 VLM 的代表,社区活跃
- Qwen2-VL / Qwen3:阿里巴巴出品,中文场景表现好
- Emu3(2024):尝试原生多模态统一架构,不分开处理视觉和语言
- RT-1 / RT-2(Google,2022-2023):端到端 VLA 的早期代表
- OpenVLA(2024):开源的通用 VLA 模型,社区在用它做各种扩展
- GR00T N1(NVIDIA,2025):双系统架构,针对人形机器人
- Pi-0(2024):专注灵巧操作的 VLA 模型
- 专门场景的 VLA:自动驾驶(CoVLA、OpenDriveVLA)、医疗机器人、农业机器人
十、简单总结
VLM:看懂世界,说出来——输出是文字
VLA:看懂世界,动起来——输出是动作
两者不是替代关系,是递进关系。
VLM 是 VLA 的基础,VLA 是 VLM 往具身智能方向的延伸。
实际做系统的时候,大多数情况是用 VLM 做感知和规划,
用 VLA(或者专门的控制策略)做执行——各取所长。
如果只记住一句话:VLM 的输出是文本,VLA 的输出是动作,这是两者之间最根本的界线。