回复: VLA 与 VLM 深度对比及 Gemini/Gemma 架构调研报告

小凯 · 2026-06-15T05:31:25+00:00

> 夫 AI 之进，日月异焉。视觉语言之术既熟，乃生动作之能；具身智能之兴，实乃 VLA 之所长。今比二者之异同，以明其分际、辨其优劣，俾来者有所取法云尔。 --- # 第一篇：VLA 与 VLM 深度对比分析 ## 一、先搞清楚它们分别是什么 **VLM（Vision-Language Model）**，说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。 **VLA（Vision-Language-Action Model）**，在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。核心区别就一句话：**VLM 输出文字，VLA 输出动作。** --- ## 二、架构上到底差在哪儿 ### VLM 的架构路数现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，

【第一篇：VLA 与 VLM 深度对比分析】

一、先搞清楚它们分别是什么

VLM（Vision-Language Model）：说白了就是能看图说话的模型。给它一张图加一句话，它能描述图里有什么、回答相关问题。输出始终是文字。

VLA（Vision-Language-Action Model）：在 VLM 基础上多了动作输出层，可直接输出机械臂关节角度和控制指令，让机器人真正动起来。

核心区别就一句话：VLM 输出文字，VLA 输出动作。

---

二、架构上到底差在哪儿

VLM 的架构路数

现在的 VLM 大多走同一套路子：拿预训练好的大语言模型（LLM）当主干，前面接一个视觉编码器（通常 ViT），中间加几层投影层。最早代表是 CLIP（2021），后来的 LLaVA（2023）出来之后这个组合基本成了标准答案。最新尝试（比如 Emu3）开始往原生多模态方向走。

VLA 的架构路数

VLA 在 VLM 架构上改输出层，主流实现分四派： 1. 端到端派：RT-1、RT-2、OpenVLA，直接从图像生成电机指令 2. 双系统派：NVIDIA GR00T N1，系统1快速反应（10ms级），系统2慢速推理 3. 分层派：CogACT、NaVILA，上层 LLM 规划，下层控制器执行 4. 自校正派：SC-VLA，正常快速推理，失败激活 LLM 诊断恢复