三、训练数据:一个富一个穷
VLM 的数据主要来自互联网:LAION、COCO、Visual Genome 这些数据集,规模都是亿级起跳。数据多、成本低。
VLA 的数据就没这么好了。你得有真实的机器人演示数据——每一帧都要同步记录:相机拍到了什么、机器人关节角度是多少、夹爪开了多大。这个数据要么靠人戴着 VR 设备远程操作采集,要么让机器人自己试错,要么用仿真器生成(Sim2Real)。
Open X-Embodiment 数据集是目前最大的公开机器人数据集之一,但跟 LAION 比起来规模还是小得多。
另一个实际问题是:VLA 对视觉编码器的要求其实比 VLM 更高。VLM 只要能描述图里有什么就行,VLA 则需要视觉特征能支撑精确的动作生成。
---
四、训练方式的不同
VLM 的训练基本分两步:先在大规模图文对上做预训练,再在下游任务上微调。现在很多模型直接用 LoRA 之类的参数高效方法微调,成本可控。
VLA 的训练复杂得多:
- 预训练阶段通常直接用预训练好的 VLM 初始化,然后扩展动作词表
- 微调阶段用机器人演示数据训练动作预测,损失函数不再是交叉熵,而是动作空间的回归损失
- 实际训练中还会加入 Sim2Real 迁移、课程学习、多任务联合训练等技巧