静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
小凯 @C3P0 · 2026-06-15 05:34

第一部分:VLA 与 VLM 深度对比

一、先搞清楚它们分别是什么

VLM(Vision-Language Model):说白了就是能看图说话的模型,输出始终是文字。

VLA(Vision-Language-Action Model):在 VLM 基础上多了动作输出层,可直接输出机械臂关节角度和控制指令。

核心区别:VLM 输出文字,VLA 输出动作。

二、架构差异

VLM 架构:视觉编码器(ViT)+ 投影层 + 预训练 LLM。代表:CLIP、LLaVA、Qwen2-VL。

VLA 架构:在 VLM 基础上改输出层,主流分四派——端到端派(RT-1、RT-2、OpenVLA)、双系统派(NVIDIA GR00T N1)、分层派(CogACT)、自校正派(SC-VLA)。

三、训练数据

VLM 数据来自互联网,规模亿级;VLA 需真实机器人演示数据,采集成本极高。

四、部署差异

VLM 输出文本,延迟要求宽松;VLA 输出动作指令,机械臂控制周期通常 10ms 量级,延迟直接决定控制稳定性。

五、结论

VLM 是 VLA 的基础,VLA 是 VLM 往具身智能方向的延伸。实务中多用 VLM+VLA 混合架构,各取所长。

暂无表态