VLM 与 VLA：从"看懂"到"动手"

✨步子哥 (steper) • 2026年06月15日 05:06

这两年多模态模型发展很快，视觉语言模型（VLM）刚让人眼前一亮，视觉语言动作模型（VLA）又跟上来了。它们名字只差一个字母，但实际差别比看起来大得多。这里把两者拆开讲讲，顺便说清楚各自适合干什么。

一、先搞清楚它们分别是什么

VLM（Vision-Language Model），说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。

VLA（Vision-Language-Action Model），在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。

核心区别就一句话：VLM 输出文字，VLA 输出动作。

二、架构上到底差在哪儿

VLM 的架构路数

现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，前面接一个视觉编码器（通常用 ViT），中间加几层投影层把图像特征映射到语言模型的词表空间。

这条路线最早的代表是 CLIP（2021），它用对比学习把图像和文本对齐到同一个表示空间。后来的 Flamingo、BLIP 开始往生成方向走。到了 LLaVA（2023）出来之后，"视觉编码器 + 投影层 + 预训练 LLM"这个组合基本成了标准答案，之后的 Qwen2-VL、LLaMA 3.2 Vision 都沿这条路走。

最新的尝试（比如 Emu3）开始往"原生多模态"方向走——不让视觉和语言分开编码，而是从 Token 层面就统一处理。这条路还在探索中。

VLA 的架构路数

VLA 基本上是在 VLM 的架构上"动刀子"——视觉编码器和语言编码器保留，但输出层要改，得能生成动作。

目前主流的实现方式有几类：

端到端派：直接从图像生成电机指令，不中间拆解。代表是 RT-1、RT-2（Google）、OpenVLA。好处是简单直接，坏处是泛化能力受限，换个机器人可能就得重新训。

双系统派：NVIDIA 的 GR00T N1 是这个思路的代表——"系统1"负责快速反应（延迟能做到 10ms 级），"系统2"负责慢速推理和规划。人脑本来就是这么工作的，这个类比很直观。

分层派：上层用 LLM 做任务规划和子目标生成，下层用专门的控制器执行。CogACT、NaVILA 属于这类。好处是模块化、好调试，坏处是延迟累加。

自校正派：正常情况走快速推理路径，检测到失败时激活 LLM 做诊断和恢复。SC-VLA 是这个思路。实际部署时这个设计很有价值——机器人总会有搞不定的情况，能自己"想一想哪里出错了"比直接卡死强。

三、训练数据：一个富一个穷

这是两者最现实的差别之一。

VLM 的数据主要来自互联网：LAION、COCO、Visual Genome 这些数据集，规模都是亿级起跳。图文对从网上爬，标注可以半自动生成。数据多、成本低，所以 VLM 的预训练基本不愁数据。

VLA 的数据就没这么好了。你得有真实的机器人演示数据——每一帧都要同步记录：相机拍到了什么、机器人关节角度是多少、夹爪开了多大、这条轨迹最终成没成功。这个数据要么靠人戴着 VR 设备远程操作采集，要么让机器人自己试错（强化学习），要么用仿真器生成（Sim2Real）。

Open X-Embodiment 数据集是目前最大的公开机器人数据集之一，但跟 LAION 比起来规模还是小得多。数据少直接导致 VLA 的泛化能力不如 VLM——这也是为什么现在很多人研究怎么用仿真数据弥补真实数据的不足。

另一个实际问题是：VLA 对视觉编码器的要求其实比 VLM 更高。VLM 只要能"描述"图里有什么就行，VLA 则需要视觉特征能支撑精确的动作生成——比如抓取位姿的预测，对空间精度的要求高得多。有研究表明，给 VLA 的视觉编码器加上控制相关的监督信号，比优化语言模块收益更大。

四、训练方式的不同

VLM 的训练基本分两步：先在大规模图文对上做预训练（对比学习或者图文匹配），再在下游任务上微调（VQA、Caption 等）。现在很多模型直接用 LoRA 之类的参数高效方法微调，成本可控。

VLA 的训练复杂得多：

预训练阶段通常直接用预训练好的 VLM 初始化（视觉编码器和语言编码器都复用），然后扩展动作词表
微调阶段用机器人演示数据训练动作预测，损失函数不再是交叉熵，而是动作空间的回归损失（或者离散化后的分类损失）
实际训练中还会加入 Sim2Real 迁移、课程学习、多任务联合训练等技巧

一个值得注意的现象：VLM 的通用能力（比如 VQA 准确率）并不能直接预测它在 VLA 里的表现。一个 VLM 在图文理解榜单上刷出高分，不代表它适合做机器人控制。反过来也一样——有些在 VLM 榜单上表现一般的模型，在 VLA 任务上反而好用。所以选 VLA 的骨干网络时，不能只看 VLM 的榜单。

五、输出和部署：延迟是硬约束

这是实际部署时最要命的差别。

VLM 的输出是文本 Token，多数应用场景对延迟的要求不算极端——做个图像描述、回答个问题，等个几秒用户通常能接受。当然实时对话场景除外，但那是另一个问题。

VLA 的输出是动作指令，延迟直接决定控制稳定性。机械臂的控制周期通常在 10ms 量级，如果模型推理要花 100ms，控制回路就会变得极难调稳。人形机器人的情况更极端——全身协调控制对时序一致性的要求非常高，延迟抖动可能导致摔倒。

所以现在 VLA 的一个研究方向就是"怎么让大模型跑得够快"——模型蒸馏、量化、早期退出、轻量化架构，各种加速手段都在尝试。NVIDIA GR00T N1 的"双系统"设计，本质上也是为了解决这个问题：需要快速反应的部分用轻量模型，复杂推理的部分用大模型异步处理。

另一个部署层面的差别是失败成本。VLM 输出错了，大不了答案不对、描述有偏差；VLA 输出错了，可能撞坏东西、伤到人、或者让机器人把自己扭坏。所以 VLA 的部署通常需要额外的安全校验层、动作边界限制、以及失败恢复机制，这些在 VLA 的论文里经常被称为"安全对齐"问题。

六、应用场景：什么时候用哪个

这个其实很直接：

只用 VLM 的场景：系统不需要直接控制物理设备。比如仓库里的物料识别（拍张照，告诉你"这是 A 类零件"）、机器人操作日志的离线分析、场景语义标注，这些任务 VLM 做就很合适。

用 VLA 的场景：需要端到端控制的任务。比如机械臂抓取、人形机器人行走、自动驾驶（端到端方案）、无人机导航。这些场景里，从感知到动作的闭环必须实时完成，VLA 是更自然的选择。

VLM + VLA 混合架构：这是目前大多数实际机器人系统采用的方案。VLM 做"大脑"——理解高层指令、做任务拆解、分析场景；VLA 或者专门的控制器做"小脑"——负责底层的动作生成和运动控制。比如一个仓库机器人：VLM 解析"去 A 货架第二层拿红色盒子"这条指令，生成子目标（"先走到 A 货架"、"识别红色盒子"、"规划抓取路径"），然后每个子目标交给底层的控制策略执行。这样模块化之后，调试和安全校验都更好做。

七、评估：离线指标不够用了

VLM 的评估相对成熟：VQA 准确率、Caption 的 BLEU/ROUGE 分数、 grounding 的 IoU，都有标准做法。当然 VLM 也有自己的问题——比如"幻觉"（图里没有的东西，模型说有），这方面现在有专门的基准测试。

VLA 的评估就麻烦得多。任务成功率是最常用的指标，但光看成功率会漏掉很多重要信息：

任务失败了，是因为感知错了还是动作生成错了？
环境稍微变一下（换个光照、换个背景），模型还能工作吗？
动作的执行效率高不高？绕了远路也算成功，但没人想要这样的机器人。
出错了能不能自己恢复？还是直接卡死？

所以现在 VLA 的评估越来越强调鲁棒性、安全性、恢复能力这些维度，而不只是任务成功率。这也意味着 VLA 的评估不能只跑离线基准，必须在真实机器人（或者高保真仿真器）上测，成本比 VLM 的评估高得多。

八、当前的瓶颈和接下来的方向

VLM 这边，主要问题是幻觉、对齐、公平性。模型会"自信地胡说"——图里没有的东西，它描述得有鼻子有眼。这个问题在需要高可靠性的场景（比如医疗、工业检测）里是硬伤。现在的解决方向包括更好的对齐训练（RLHF、DPO 这些）、多模态推理链、以及用外部工具做事实核查。

VLA 这边，问题更分散：

数据稀缺：真实机器人数据太难采集，这是最根本的瓶颈。现在大家都在研究怎么用仿真数据、用合成数据、用少样本学习来缓解。
Sim2Real 差距：仿真里训好的模型，搬到真实机器人上性能会掉。这个老问题至今没有完全解决。
安全验证：怎么保证 VLA 的输出不会导致危险动作？这个在工业机器人、人形机器人这些场景里是必须解决的问题，但现在还缺乏系统性的方法。
延迟 vs 性能的平衡：模型越大效果越好，但越大越慢。怎么在性能和速度之间找平衡点，是工程上的持续挑战。

九、一些具体的模型

VLM 这边，值得关注的：

CLIP（OpenAI，2021）：对比学习的经典之作，后续很多模型都拿它做视觉编码器
LLaVA 系列（2023-2025）：开源 VLM 的代表，社区活跃
Qwen2-VL / Qwen3：阿里巴巴出品，中文场景表现好
Emu3（2024）：尝试原生多模态统一架构，不分开处理视觉和语言

VLA 这边，这几年出的模型已经不少了：

RT-1 / RT-2（Google，2022-2023）：端到端 VLA 的早期代表
OpenVLA（2024）：开源的通用 VLA 模型，社区在用它做各种扩展
GR00T N1（NVIDIA，2025）：双系统架构，针对人形机器人
Pi-0（2024）：专注灵巧操作的 VLA 模型
专门场景的 VLA：自动驾驶（CoVLA、OpenDriveVLA）、医疗机器人、农业机器人，各有各的定制版本

十、简单总结

VLM：看懂世界，说出来——输出是文字
VLA：看懂世界，动起来——输出是动作

两者不是替代关系，是递进关系。
VLM 是 VLA 的基础，VLA 是 VLM 往具身智能方向的延伸。

实际做系统的时候，大多数情况是用 VLM 做感知和规划，
用 VLA（或者专门的控制策略）做执行——各取所长。

如果只记住一句话：VLM 的输出是文本，VLA 的输出是动作，这是两者之间最根本的界线。

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力