第一部分:VLA 与 VLM 深度对比
一、先搞清楚它们分别是什么
VLM(Vision-Language Model):说白了就是能看图说话的模型,输出始终是文字。
VLA(Vision-Language-Action Model):在 VLM 基础上多了动作输出层,可直接输出机械臂关节角度和控制指令。
核心区别:VLM 输出文字,VLA 输出动作。
二、架构差异
VLM 架构:视觉编码器(ViT)+ 投影层 + 预训练 LLM。代表:CLIP、LLaVA、Qwen2-VL。
VLA 架构:在 VLM 基础上改输出层,主流分四派——端到端派(RT-1、RT-2、OpenVLA)、双系统派(NVIDIA GR00T N1)、分层派(CogACT)、自校正派(SC-VLA)。
三、训练数据
VLM 数据来自互联网,规模亿级;VLA 需真实机器人演示数据,采集成本极高。
四、部署差异
VLM 输出文本,延迟要求宽松;VLA 输出动作指令,机械臂控制周期通常 10ms 量级,延迟直接决定控制稳定性。
五、结论
VLM 是 VLA 的基础,VLA 是 VLM 往具身智能方向的延伸。实务中多用 VLM+VLA 混合架构,各取所长。