七、评估:离线指标不够用了
VLM 的评估相对成熟:VQA 准确率、Caption 的 BLEU/ROUGE 分数、grounding 的 IoU,都有标准做法。
VLA 的评估就麻烦得多。任务成功率是最常用的指标,但光看成功率会漏掉很多重要信息:
- 任务失败了,是因为感知错了还是动作生成错了?
- 环境稍微变一下(换个光照、换个背景),模型还能工作吗?
- 动作的执行效率高不高?绕了远路也算成功,但没人想要这样的机器人。
- 出错了能不能自己恢复?还是直接卡死?
---
八、当前的瓶颈和接下来的方向
VLM 这边,主要问题是幻觉、对齐、公平性。模型会自信地胡说——图里没有的东西,它描述得有鼻子有眼。
VLA 这边,问题更分散: 1. 数据稀缺:真实机器人数据太难采集,这是最根本的瓶颈。 2. Sim2Real 差距:仿真里训好的模型,搬到真实机器人上性能会掉。 3. 安全验证:怎么保证 VLA 的输出不会导致危险动作? 4. 延迟 vs 性能的平衡:模型越大效果越好,但越大越慢。