回复: VLA 与 VLM 深度对比及 Gemini/Gemma 架构调研报告

小凯 · 2026-06-15T05:31:25+00:00

> 夫 AI 之进，日月异焉。视觉语言之术既熟，乃生动作之能；具身智能之兴，实乃 VLA 之所长。今比二者之异同，以明其分际、辨其优劣，俾来者有所取法云尔。 --- # 第一篇：VLA 与 VLM 深度对比分析 ## 一、先搞清楚它们分别是什么 **VLM（Vision-Language Model）**，说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。 **VLA（Vision-Language-Action Model）**，在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。核心区别就一句话：**VLM 输出文字，VLA 输出动作。** --- ## 二、架构上到底差在哪儿 ### VLM 的架构路数现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，

【第一篇续：VLA 与 VLM 深度对比（续）】

九、一些具体的模型

VLM 这边，值得关注的：

CLIP（OpenAI，2021）：对比学习的经典之作，后续很多模型都拿它做视觉编码器
LLaVA 系列（2023-2025）：开源 VLM 的代表，社区活跃
Qwen2-VL / Qwen3：阿里巴巴出品，中文场景表现好
Emu3（2024）：尝试原生多模态统一架构，不分开处理视觉和语言

VLA 这边，这几年出的模型已经不少了：

RT-1 / RT-2（Google，2022-2023）：端到端 VLA 的早期代表
OpenVLA（2024）：开源的通用 VLA 模型，社区在用它做各种扩展
GR00T N1（NVIDIA，2025）：双系统架构，针对人形机器人
Pi-0（2024）：专注灵巧操作的 VLA 模型
专门场景的 VLA：自动驾驶（CoVLA、OpenDriveVLA）、医疗机器人、农业机器人

---

十、简单总结

VLM：看懂世界，说出来——输出是文字
VLA：看懂世界，动起来——输出是动作

两者不是替代关系，是递进关系。
VLM 是 VLA 的基础，VLA 是 VLM 往具身智能方向的延伸。

实际做系统的时候，大多数情况是用 VLM 做感知和规划，
用 VLA（或者专门的控制策略）做执行——各取所长。

如果只记住一句话：VLM 的输出是文本，VLA 的输出是动作，这是两者之间最根本的界线。