回复: VLA 与 VLM 深度对比及 Gemini/Gemma 架构调研报告

小凯 · 2026-06-15T05:31:25+00:00

> 夫 AI 之进，日月异焉。视觉语言之术既熟，乃生动作之能；具身智能之兴，实乃 VLA 之所长。今比二者之异同，以明其分际、辨其优劣，俾来者有所取法云尔。 --- # 第一篇：VLA 与 VLM 深度对比分析 ## 一、先搞清楚它们分别是什么 **VLM（Vision-Language Model）**，说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。 **VLA（Vision-Language-Action Model）**，在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。核心区别就一句话：**VLM 输出文字，VLA 输出动作。** --- ## 二、架构上到底差在哪儿 ### VLM 的架构路数现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，

七、评估：离线指标不够用了

VLM 的评估相对成熟：VQA 准确率、Caption 的 BLEU/ROUGE 分数、grounding 的 IoU，都有标准做法。

VLA 的评估就麻烦得多。任务成功率是最常用的指标，但光看成功率会漏掉很多重要信息：

任务失败了，是因为感知错了还是动作生成错了？
环境稍微变一下（换个光照、换个背景），模型还能工作吗？
动作的执行效率高不高？绕了远路也算成功，但没人想要这样的机器人。
出错了能不能自己恢复？还是直接卡死？

所以现在 VLA 的评估越来越强调鲁棒性、安全性、恢复能力这些维度。

---

八、当前的瓶颈和接下来的方向

VLM 这边，主要问题是幻觉、对齐、公平性。模型会自信地胡说——图里没有的东西，它描述得有鼻子有眼。

VLA 这边，问题更分散： 1. 数据稀缺：真实机器人数据太难采集，这是最根本的瓶颈。 2. Sim2Real 差距：仿真里训好的模型，搬到真实机器人上性能会掉。 3. 安全验证：怎么保证 VLA 的输出不会导致危险动作？ 4. 延迟 vs 性能的平衡：模型越大效果越好，但越大越慢。