答案对了但看错了摄像头：自动驾驶多视角AI的视觉证据盲区

你坐在自动驾驶汽车里，问AI助手："后面有没有车要超我？"AI回答："有的，左后方有一辆白色SUV正在加速靠近。"你松了口气，觉得AI很靠谱。

但如果我告诉你，AI给出这个正确答案时，它其实在看前挡风玻璃的摄像头画面——而不是后视摄像头呢？

这不是科幻场景。滑铁卢大学的研究团队最新构建的基准测试表明，当前最强的多模态大语言模型（包括GPT、Gemini、Claude、Qwen-VL、InternVL）在自动驾驶场景中，经常给出正确答案但基于错误的视觉证据。答案对了，但"看"错了摄像头。

一个被忽视的评价盲区

现有的视觉问答基准测试几乎都只看最终答案是否正确。但在多视角场景中——自动驾驶汽车通常配备6个同步摄像头（前、后、左、右、左前、右前）——答案正确不等于推理正确。

想象一道数学题，学生蒙对了答案但解题过程全错。在考试中，这算对；在自动驾驶中，这可能致命。因为今天它碰巧从错误的角度"猜"对了，明天同样的推理方式可能导致完全错误的判断。

冲突驱动的基准设计

研究团队没有随机出题，而是采用了一种"冲突挖掘"策略：专门寻找那些只有特定摄像头才能看到关键信息的场景。

比如，一辆车从左后方切入——这个信息只有左后摄像头能直接看到。如果模型回答"有车切入"但声称看了前摄像头，就暴露了它并没有真正定位到正确的视觉证据。

基准包含122个冲突驱动的问答对，来自73个NuScenes场景，覆盖三种推理类型：

因果推理（52题）：为什么前车突然刹车？
反事实推理（35题）：如果行人没有停下会怎样？
意图预测（35题）：那辆车想变道吗？

六类事件家族：行人过马路、急刹车、加塞、变道、转弯、对向左转——确保不是简单的单物体识别，而是需要理解交互关系。

三重评估协议

基准设计了三个互补的评估设置：

1. 视角选择：给模型6个摄像头画面，只要求它指出哪个摄像头提供了关键证据。这是最基础的测试——你能不能先找到正确的信息源？

2. 先知问答：只给模型正确摄像头（"黄金视角"）的画面，让它回答问题。这隔离了"找到正确视角"和"基于正确视角推理"两个能力。

3. 联合预测：给模型6个摄像头画面，要求它同时选择视角并回答问题。这是最接近真实部署的场景。

答案格式包括多选题和自由文本两种，自由文本用LLM裁判评分。

"正确答案+错误视角"的幽灵

研究揭示了一个令人不安的现象：模型经常在选错摄像头的情况下给出正确答案。

这意味着什么？模型可能在使用语言先验和统计捷径来"猜"答案，而不是真正从视觉证据中推理。就像一个学生从题目关键词推断答案，而不是真正理解了题目。

在安全关键的驾驶场景中，这种"猜对"是不可靠的。今天它碰巧猜对了"后面有车"，明天同样的推理方式可能让它猜错"前面有行人"。

为什么这比单图像幻觉更危险

在单图像场景中，模型幻觉至少有一个明确的"证据源"——就是那张图。但在多视角场景中，模型可以在6个摄像头之间"跳来跳去"，错误地归因证据来源。

更危险的是，这种错误在传统的答案正确率评估中完全不可见。一个模型可能看起来表现优异（答案正确率高），但实际上根本没有学会正确定位视觉证据。这就像一个医生总是开对的药，但诊断理由全是错的——偶尔会出大问题。

从"答案正确率"到"证据接地性"

这项工作的核心贡献是提出了一个评价范式的转变：从"答案是否正确"到"答案是否基于正确的证据"。

这不仅仅是学术上的精细。在自动驾驶领域，一个不能正确定位视觉证据的AI系统，其可靠性是建立在沙滩上的。它可能在95%的情况下给出正确答案，但那5%的错误可能发生在最关键的时刻——恰恰是需要精确视觉证据的冲突场景。

研究团队还发现，给模型提供正确的摄像头画面（先知问答设置）并不能保证答案正确，说明即使看到了正确的证据，模型的推理能力仍有不足。这是一个双重挑战：既要找到正确的证据，又要正确地使用它。

对自动驾驶AI的启示

这项研究对自动驾驶领域有几个直接启示：

1. 多模态模型不能只看答案正确率：必须评估视觉证据定位能力 2. 冲突场景是关键测试场：日常场景模型可能靠统计捷径蒙混过关，冲突场景才能暴露真实能力 3. 视角选择和答案推理需要联合优化：单独提升任何一个都不够

更深层的启示是：在安全关键系统中，"过程正确"和"结果正确"同样重要。一个答案对了但过程错了的系统，比一个答案错了但过程对了的系统更危险——因为前者给你虚假的安全感。

---

论文链接：https://arxiv.org/abs/2606.09644

作者：Yimu Wang, Yee Man Choi, Barry Zhang, Mozhgan Nasr Azadani, Sean Sedwards, Krzysztof Czarnecki（滑铁卢大学） 核心方法：冲突挖掘流水线 + 三重评估协议 + 多选题/自由文本双格式 基准规模：122个QA对，73个场景，6个摄像头视角，3种推理类型 测试模型：GPT、Gemini、Claude、Qwen-VL、InternVL系列