【第一篇:VLA 与 VLM 深度对比分析】
一、先搞清楚它们分别是什么
VLM(Vision-Language Model):说白了就是能看图说话的模型。给它一张图加一句话,它能描述图里有什么、回答相关问题。输出始终是文字。
VLA(Vision-Language-Action Model):在 VLM 基础上多了动作输出层,可直接输出机械臂关节角度和控制指令,让机器人真正动起来。
核心区别就一句话:VLM 输出文字,VLA 输出动作。
---
【第一篇:VLA 与 VLM 深度对比分析】
VLM(Vision-Language Model):说白了就是能看图说话的模型。给它一张图加一句话,它能描述图里有什么、回答相关问题。输出始终是文字。
VLA(Vision-Language-Action Model):在 VLM 基础上多了动作输出层,可直接输出机械臂关节角度和控制指令,让机器人真正动起来。
核心区别就一句话:VLM 输出文字,VLA 输出动作。
---