这两年多模态模型发展很快,视觉语言模型(VLM)刚让人眼前一亮,视觉语言动作模型(VLA)又跟上来了。它们名字只差一个字母,但实际差别比看起来大得多。这里把两者拆开讲讲,顺便说清楚各自适合干什么。
一、先搞清楚它们分别是什么
VLM(Vision-Language Model),说白了就是"能看图说话"的模型。给它一张图加一句话,它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂,最终给到你的还是自然语言。
VLA(Vision-Language-Action Model),在 VLM 的基础上多了一层:它不光理解图和指令,还能直接输出动作。比如让机械臂"把红色盒子拿过来",VLM 会告诉你"盒子在左边第二层",VLA 则直接给出机械臂的关节角度和控制指令,让机器人真正动起来。
核心区别就一句话:VLM 输出文字,VLA 输出动作。
二、架构上到底差在哪儿
VLM 的架构路数
现在的 VLM 大多走同一套路子:拿一个预训练好的大语言模型(LLM)当主干,前面接一个视觉编码器(通常用 ViT),中间加几层投影层把图像特征映射到语言模型的词表空间。
这条路线最早的代表是 CLIP(2021),它用对比学习把图像和文本对齐到同一个表示空间。后来的 Flamingo、BLIP 开始往生成方向走。到了 LLaVA(2023)出来之后,"视觉编码器 + 投影层 + 预训练 LLM"这个组合基本成了标准答案,之后的 Qwen2-VL、LLaMA 3.2 Vision 都沿这条路走。
最新的尝试(比如 Emu3)开始往"原生多模态"方向走——不让视觉和语言分开编码,而是从 Token 层面就统一处理。这条路还在探索中。
VLA 的架构路数
VLA 基本上是在 VLM 的架构上"动刀子"——视觉编码器和语言编码器保留,但输出层要改,得能生成动作。
目前主流的实现方式有几类:
端到端派:直接从图像生成电机指令,不中间拆解。代表是 RT-1、RT-2(Google)、OpenVLA。好处是简单直接,坏处是泛化能力受限,换个机器人可能就得重新训。
双系统派:NVIDIA 的 GR00T N1 是这个思路的代表——"系统1"负责快速反应(延迟能做到 10ms 级),"系统2"负责慢速推理和规划。人脑本来就是这么工作的,这个类比很直观。
分层派:上层用 LLM 做任务规划和子目标生成,下层用专门的控制器执行。CogACT、NaVILA 属于这类。好处是模块化、好调试,坏处是延迟累加。
自校正派:正常情况走快速推理路径,检测到失败时激活 LLM 做诊断和恢复。SC-VLA 是这个思路。实际部署时这个设计很有价值——机器人总会有搞不定的情况,能自己"想一想哪里出错了"比直接卡死强。
三、训练数据:一个富一个穷
这是两者最现实的差别之一。
VLM 的数据主要来自互联网:LAION、COCO、Visual Genome 这些数据集,规模都是亿级起跳。图文对从网上爬,标注可以半自动生成。数据多、成本低,所以 VLM 的预训练基本不愁数据。
VLA 的数据就没这么好了。你得有真实的机器人演示数据——每一帧都要同步记录:相机拍到了什么、机器人关节角度是多少、夹爪开了多大、这条轨迹最终成没成功。这个数据要么靠人戴着 VR 设备远程操作采集,要么让机器人自己试错(强化学习),要么用仿真器生成(Sim2Real)。
Open X-Embodiment 数据集是目前最大的公开机器人数据集之一,但跟 LAION 比起来规模还是小得多。数据少直接导致 VLA 的泛化能力不如 VLM——这也是为什么现在很多人研究怎么用仿真数据弥补真实数据的不足。
另一个实际问题是:VLA 对视觉编码器的要求其实比 VLM 更高。VLM 只要能"描述"图里有什么就行,VLA 则需要视觉特征能支撑精确的动作生成——比如抓取位姿的预测,对空间精度的要求高得多。有研究表明,给 VLA 的视觉编码器加上控制相关的监督信号,比优化语言模块收益更大。
四、训练方式的不同
VLM 的训练基本分两步:先在大规模图文对上做预训练(对比学习或者图文匹配),再在下游任务上微调(VQA、Caption 等)。现在很多模型直接用 LoRA 之类的参数高效方法微调,成本可控。
VLA 的训练复杂得多:
- 预训练阶段通常直接用预训练好的 VLM 初始化(视觉编码器和语言编码器都复用),然后扩展动作词表
- 微调阶段用机器人演示数据训练动作预测,损失函数不再是交叉熵,而是动作空间的回归损失(或者离散化后的分类损失)
- 实际训练中还会加入 Sim2Real 迁移、课程学习、多任务联合训练等技巧
一个值得注意的现象:VLM 的通用能力(比如 VQA 准确率)并不能直接预测它在 VLA 里的表现。一个 VLM 在图文理解榜单上刷出高分,不代表它适合做机器人控制。反过来也一样——有些在 VLM 榜单上表现一般的模型,在 VLA 任务上反而好用。所以选 VLA 的骨干网络时,不能只看 VLM 的榜单。
五、输出和部署:延迟是硬约束
这是实际部署时最要命的差别。
VLM 的输出是文本 Token,多数应用场景对延迟的要求不算极端——做个图像描述、回答个问题,等个几秒用户通常能接受。当然实时对话场景除外,但那是另一个问题。
VLA 的输出是动作指令,延迟直接决定控制稳定性。机械臂的控制周期通常在 10ms 量级,如果模型推理要花 100ms,控制回路就会变得极难调稳。人形机器人的情况更极端——全身协调控制对时序一致性的要求非常高,延迟抖动可能导致摔倒。
所以现在 VLA 的一个研究方向就是"怎么让大模型跑得够快"——模型蒸馏、量化、早期退出、轻量化架构,各种加速手段都在尝试。NVIDIA GR00T N1 的"双系统"设计,本质上也是为了解决这个问题:需要快速反应的部分用轻量模型,复杂推理的部分用大模型异步处理。
另一个部署层面的差别是失败成本。VLM 输出错了,大不了答案不对、描述有偏差;VLA 输出错了,可能撞坏东西、伤到人、或者让机器人把自己扭坏。所以 VLA 的部署通常需要额外的安全校验层、动作边界限制、以及失败恢复机制,这些在 VLA 的论文里经常被称为"安全对齐"问题。
六、应用场景:什么时候用哪个
这个其实很直接:
只用 VLM 的场景:系统不需要直接控制物理设备。比如仓库里的物料识别(拍张照,告诉你"这是 A 类零件")、机器人操作日志的离线分析、场景语义标注,这些任务 VLM 做就很合适。
用 VLA 的场景:需要端到端控制的任务。比如机械臂抓取、人形机器人行走、自动驾驶(端到端方案)、无人机导航。这些场景里,从感知到动作的闭环必须实时完成,VLA 是更自然的选择。
VLM + VLA 混合架构:这是目前大多数实际机器人系统采用的方案。VLM 做"大脑"——理解高层指令、做任务拆解、分析场景;VLA 或者专门的控制器做"小脑"——负责底层的动作生成和运动控制。比如一个仓库机器人:VLM 解析"去 A 货架第二层拿红色盒子"这条指令,生成子目标("先走到 A 货架"、"识别红色盒子"、"规划抓取路径"),然后每个子目标交给底层的控制策略执行。这样模块化之后,调试和安全校验都更好做。
七、评估:离线指标不够用了
VLM 的评估相对成熟:VQA 准确率、Caption 的 BLEU/ROUGE 分数、 grounding 的 IoU,都有标准做法。当然 VLM 也有自己的问题——比如"幻觉"(图里没有的东西,模型说有),这方面现在有专门的基准测试。
VLA 的评估就麻烦得多。任务成功率是最常用的指标,但光看成功率会漏掉很多重要信息:
- 任务失败了,是因为感知错了还是动作生成错了?
- 环境稍微变一下(换个光照、换个背景),模型还能工作吗?
- 动作的执行效率高不高?绕了远路也算成功,但没人想要这样的机器人。
- 出错了能不能自己恢复?还是直接卡死?
所以现在 VLA 的评估越来越强调鲁棒性、安全性、恢复能力这些维度,而不只是任务成功率。这也意味着 VLA 的评估不能只跑离线基准,必须在真实机器人(或者高保真仿真器)上测,成本比 VLM 的评估高得多。
八、当前的瓶颈和接下来的方向
VLM 这边,主要问题是幻觉、对齐、公平性。模型会"自信地胡说"——图里没有的东西,它描述得有鼻子有眼。这个问题在需要高可靠性的场景(比如医疗、工业检测)里是硬伤。现在的解决方向包括更好的对齐训练(RLHF、DPO 这些)、多模态推理链、以及用外部工具做事实核查。
VLA 这边,问题更分散:
- 数据稀缺:真实机器人数据太难采集,这是最根本的瓶颈。现在大家都在研究怎么用仿真数据、用合成数据、用少样本学习来缓解。
- Sim2Real 差距:仿真里训好的模型,搬到真实机器人上性能会掉。这个老问题至今没有完全解决。
- 安全验证:怎么保证 VLA 的输出不会导致危险动作?这个在工业机器人、人形机器人这些场景里是必须解决的问题,但现在还缺乏系统性的方法。
- 延迟 vs 性能的平衡:模型越大效果越好,但越大越慢。怎么在性能和速度之间找平衡点,是工程上的持续挑战。
九、一些具体的模型
VLM 这边,值得关注的:
- CLIP(OpenAI,2021):对比学习的经典之作,后续很多模型都拿它做视觉编码器
- LLaVA 系列(2023-2025):开源 VLM 的代表,社区活跃
- Qwen2-VL / Qwen3:阿里巴巴出品,中文场景表现好
- Emu3(2024):尝试原生多模态统一架构,不分开处理视觉和语言
VLA 这边,这几年出的模型已经不少了:
- RT-1 / RT-2(Google,2022-2023):端到端 VLA 的早期代表
- OpenVLA(2024):开源的通用 VLA 模型,社区在用它做各种扩展
- GR00T N1(NVIDIA,2025):双系统架构,针对人形机器人
- Pi-0(2024):专注灵巧操作的 VLA 模型
- 专门场景的 VLA:自动驾驶(CoVLA、OpenDriveVLA)、医疗机器人、农业机器人,各有各的定制版本
十、简单总结
VLM:看懂世界,说出来——输出是文字
VLA:看懂世界,动起来——输出是动作
两者不是替代关系,是递进关系。
VLM 是 VLA 的基础,VLA 是 VLM 往具身智能方向的延伸。
实际做系统的时候,大多数情况是用 VLM 做感知和规划,
用 VLA(或者专门的控制策略)做执行——各取所长。
如果只记住一句话:VLM 的输出是文本,VLA 的输出是动作,这是两者之间最根本的界线。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。