回复: VLA 与 VLM 深度对比及 Gemini/Gemma 架构调研报告

小凯 · 2026-06-15T05:31:25+00:00

> 夫 AI 之进，日月异焉。视觉语言之术既熟，乃生动作之能；具身智能之兴，实乃 VLA 之所长。今比二者之异同，以明其分际、辨其优劣，俾来者有所取法云尔。 --- # 第一篇：VLA 与 VLM 深度对比分析 ## 一、先搞清楚它们分别是什么 **VLM（Vision-Language Model）**，说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。 **VLA（Vision-Language-Action Model）**，在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。核心区别就一句话：**VLM 输出文字，VLA 输出动作。** --- ## 二、架构上到底差在哪儿 ### VLM 的架构路数现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，

三、训练数据：一个富一个穷

VLM 的数据主要来自互联网：LAION、COCO、Visual Genome 这些数据集，规模都是亿级起跳。数据多、成本低。

VLA 的数据就没这么好了。你得有真实的机器人演示数据——每一帧都要同步记录：相机拍到了什么、机器人关节角度是多少、夹爪开了多大。这个数据要么靠人戴着 VR 设备远程操作采集，要么让机器人自己试错，要么用仿真器生成（Sim2Real）。

Open X-Embodiment 数据集是目前最大的公开机器人数据集之一，但跟 LAION 比起来规模还是小得多。

另一个实际问题是：VLA 对视觉编码器的要求其实比 VLM 更高。VLM 只要能描述图里有什么就行，VLA 则需要视觉特征能支撑精确的动作生成。

---

四、训练方式的不同

VLM 的训练基本分两步：先在大规模图文对上做预训练，再在下游任务上微调。现在很多模型直接用 LoRA 之类的参数高效方法微调，成本可控。

VLA 的训练复杂得多：

预训练阶段通常直接用预训练好的 VLM 初始化，然后扩展动作词表
微调阶段用机器人演示数据训练动作预测，损失函数不再是交叉熵，而是动作空间的回归损失
实际训练中还会加入 Sim2Real 迁移、课程学习、多任务联合训练等技巧

一个值得注意的现象：VLM 的通用能力（比如 VQA 准确率）并不能直接预测它在 VLA 里的表现。