答案对了但看错了摄像头:自动驾驶多视角AI的视觉证据盲区
你坐在自动驾驶汽车里,问AI助手:"后面有没有车要超我?"AI回答:"有的,左后方有一辆白色SUV正在加速靠近。"你松了口气,觉得AI很靠谱。
但如果我告诉你,AI给出这个正确答案时,它其实在看前挡风玻璃的摄像头画面——而不是后视摄像头呢?
这不是科幻场景。滑铁卢大学的研究团队最新构建的基准测试表明,当前最强的多模态大语言模型(包括GPT、Gemini、Claude、Qwen-VL、InternVL)在自动驾驶场景中,经常给出正确答案但基于错误的视觉证据。答案对了,但"看"错了摄像头。
一个被忽视的评价盲区
现有的视觉问答基准测试几乎都只看最终答案是否正确。但在多视角场景中——自动驾驶汽车通常配备6个同步摄像头(前、后、左、右、左前、右前)——答案正确不等于推理正确。
想象一道数学题,学生蒙对了答案但解题过程全错。在考试中,这算对;在自动驾驶中,这可能致命。因为今天它碰巧从错误的角度"猜"对了,明天同样的推理方式可能导致完全错误的判断。
冲突驱动的基准设计
研究团队没有随机出题,而是采用了一种"冲突挖掘"策略:专门寻找那些只有特定摄像头才能看到关键信息的场景。
比如,一辆车从左后方切入——这个信息只有左后摄像头能直接看到。如果模型回答"有车切入"但声称看了前摄像头,就暴露了它并没有真正定位到正确的视觉证据。
基准包含122个冲突驱动的问答对,来自73个NuScenes场景,覆盖三种推理类型:
- 因果推理(52题):为什么前车突然刹车?
- 反事实推理(35题):如果行人没有停下会怎样?
- 意图预测(35题):那辆车想变道吗?
三重评估协议
基准设计了三个互补的评估设置:
1. 视角选择:给模型6个摄像头画面,只要求它指出哪个摄像头提供了关键证据。这是最基础的测试——你能不能先找到正确的信息源?
2. 先知问答:只给模型正确摄像头("黄金视角")的画面,让它回答问题。这隔离了"找到正确视角"和"基于正确视角推理"两个能力。
3. 联合预测:给模型6个摄像头画面,要求它同时选择视角并回答问题。这是最接近真实部署的场景。
答案格式包括多选题和自由文本两种,自由文本用LLM裁判评分。
"正确答案+错误视角"的幽灵
研究揭示了一个令人不安的现象:模型经常在选错摄像头的情况下给出正确答案。
这意味着什么?模型可能在使用语言先验和统计捷径来"猜"答案,而不是真正从视觉证据中推理。就像一个学生从题目关键词推断答案,而不是真正理解了题目。
在安全关键的驾驶场景中,这种"猜对"是不可靠的。今天它碰巧猜对了"后面有车",明天同样的推理方式可能让它猜错"前面有行人"。
为什么这比单图像幻觉更危险
在单图像场景中,模型幻觉至少有一个明确的"证据源"——就是那张图。但在多视角场景中,模型可以在6个摄像头之间"跳来跳去",错误地归因证据来源。
更危险的是,这种错误在传统的答案正确率评估中完全不可见。一个模型可能看起来表现优异(答案正确率高),但实际上根本没有学会正确定位视觉证据。这就像一个医生总是开对的药,但诊断理由全是错的——偶尔会出大问题。
从"答案正确率"到"证据接地性"
这项工作的核心贡献是提出了一个评价范式的转变:从"答案是否正确"到"答案是否基于正确的证据"。
这不仅仅是学术上的精细。在自动驾驶领域,一个不能正确定位视觉证据的AI系统,其可靠性是建立在沙滩上的。它可能在95%的情况下给出正确答案,但那5%的错误可能发生在最关键的时刻——恰恰是需要精确视觉证据的冲突场景。
研究团队还发现,给模型提供正确的摄像头画面(先知问答设置)并不能保证答案正确,说明即使看到了正确的证据,模型的推理能力仍有不足。这是一个双重挑战:既要找到正确的证据,又要正确地使用它。
对自动驾驶AI的启示
这项研究对自动驾驶领域有几个直接启示:
1. 多模态模型不能只看答案正确率:必须评估视觉证据定位能力 2. 冲突场景是关键测试场:日常场景模型可能靠统计捷径蒙混过关,冲突场景才能暴露真实能力 3. 视角选择和答案推理需要联合优化:单独提升任何一个都不够
更深层的启示是:在安全关键系统中,"过程正确"和"结果正确"同样重要。一个答案对了但过程错了的系统,比一个答案错了但过程对了的系统更危险——因为前者给你虚假的安全感。
---
论文链接:https://arxiv.org/abs/2606.09644
作者:Yimu Wang, Yee Man Choi, Barry Zhang, Mozhgan Nasr Azadani, Sean Sedwards, Krzysztof Czarnecki(滑铁卢大学) 核心方法:冲突挖掘流水线 + 三重评估协议 + 多选题/自由文本双格式 基准规模:122个QA对,73个场景,6个摄像头视角,3种推理类型 测试模型:GPT、Gemini、Claude、Qwen-VL、InternVL系列
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens