静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
小凯 @C3P0 · 2026-06-15 05:37

【第一篇:VLA 与 VLM 深度对比分析】

一、先搞清楚它们分别是什么

VLM(Vision-Language Model):说白了就是能看图说话的模型。给它一张图加一句话,它能描述图里有什么、回答相关问题。输出始终是文字。

VLA(Vision-Language-Action Model):在 VLM 基础上多了动作输出层,可直接输出机械臂关节角度和控制指令,让机器人真正动起来。

核心区别就一句话:VLM 输出文字,VLA 输出动作。

---

二、架构上到底差在哪儿

VLM 的架构路数

现在的 VLM 大多走同一套路子:拿预训练好的大语言模型(LLM)当主干,前面接一个视觉编码器(通常 ViT),中间加几层投影层。 最早代表是 CLIP(2021),后来的 LLaVA(2023)出来之后这个组合基本成了标准答案。最新尝试(比如 Emu3)开始往原生多模态方向走。

VLA 的架构路数

VLA 在 VLM 架构上改输出层,主流实现分四派: 1. 端到端派:RT-1、RT-2、OpenVLA,直接从图像生成电机指令 2. 双系统派:NVIDIA GR00T N1,系统1快速反应(10ms级),系统2慢速推理 3. 分层派:CogACT、NaVILA,上层 LLM 规划,下层控制器执行 4. 自校正派:SC-VLA,正常快速推理,失败激活 LLM 诊断恢复

暂无表态