Seeing But Not Believing 深度解析：VLM「视而不见」的注意力断裂，以及亚马逊如何用零成本干预修复它

小凯 (C3P0) • 2026年06月14日 10:06

Seeing But Not Believing 深度解析：VLM「视而不见」背后的注意力断裂，以及亚马逊如何用零成本干预修复它

论文：Seeing But Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs
arXiv: 2510.17771v1 [cs.AI] (20 Oct 2025)
作者：Zhining Liu, Ziyi Chen, Hui Liu, Chen Luo, Xianfeng Tang, Suhang Wang, Joy Zeng, Zhenwei Dai, Zhan Shi, Tianxin Wei, Benoit Dumoulin, Hanghang Tong
机构：University of Illinois Urbana-Champaign, Amazon, Penn State University
会议：ICLR 2026（已入选）

一、核心发现：VLM 不是「盲人」，而是「看到了却不相信」

这篇论文用一个极其优雅的实验设计，推翻了关于 VLM 幻觉的一个常见假设：

VLM 的失败不是因为「看不到」视觉证据，而是因为「看到了却不利用」。

论文用四个研究问题（RQ）层层剥开，最终发现三个关键现象：

1.1 层间注意力转换：从文本到视觉的渐进式切换

论文提出了 RAPT（Relative Attention per Token） 指标，追踪每个 layer 的注意力分配。结果是：

浅层（early layers） 压倒性地聚焦文本——先读问题，和人类的视觉工作流一致
深层（deeper layers） 逐渐向图像转移——视觉证据开始被聚焦
这不是并行处理，而是顺序式：先解析语言，再分析图像

这意味着 VLM 的注意力机制并非「文本永远主导」，而是深层有足够的能力发现视觉证据。

1.2 深层注意力聚焦：不是随机散播，而是精准定位

论文用视觉化（visualization）展示了每个 layer 的注意力热图：

浅层（1层）：注意力几乎均匀分布在所有图像 patch，没有特定焦点
浅层（6-11层）：整体分配给图像 token 的注意力很少，没有空间模式
深层（16-26层）：稀疏但高度集中的注意力，精准命中 ground-truth 证据区域

深层 VLM 就像一个聚光灯：它从图像中精准筛选出回答问题所需的证据区域，忽略无关内容。

1.3 核心现象：Seeing But Not Believing（视而不见）

这是最炸裂的发现。论文统计了 VLM 答错的情况，用 VisualCOT 数据集（提供人工标注的证据区域）进行大规模对比：

即使 VLM 答错了，深层注意力仍然比正确回答时更聚焦到证据区域
深层注意力分配给 evidence token 的注意力远高于 non-evidence token，无论答案是否正确
换句话说：VLM 看到了正确答案，但它没有利用这些答案来生成正确的输出

论文给这种现象起了一个极有画面感的名字：

Seeing But Not Believing（看见了却不相信）

就像一个人盯着正确答案看了三秒，然后写了错误的答案。这揭示了一个根本问题：瓶颈不在感知（perception），而在认知（cognition）——感知到的信息没有被有效整合到推理和生成中。

1.4 为什么？文本偏见主导了推理

论文讨论了两种解释：

文本信息主导（Textual Information Dominance）

VLM 架构本身有内在不平衡：大语言模型 backbone + 小视觉编码器
文本模式（language priors）被过度强化，视觉信息在推理中逐渐退居二线
随着生成展开，对视觉输入的依赖越来越低，最终产生「语言上流畅但视觉上无根基」的幻觉

视觉上下文利用不足（Visual Context Under-utilization）

类似 RAG 中的上下文利用不足：即使检索到了正确信息，模型也不一定能有效利用
上下文包含的无关信息越多，利用效率越低
解决方案：在上下文中强调 salient evidence 可以帮助模型更好地利用

二、VEA：零成本推理时干预，把「看见」变成「相信」

基于以上发现，论文提出了一种简单但极其有效的推理时干预方法：

2.1 核心思路

如果 VLM 深层已经知道正确证据在哪里，那为什么不让它更直接地利用这些信号？

VEA（Visual Evidence Augmentation） 的 pipeline：

原始图像 + 问题 → VLM推理 → 提取深层注意力 → 生成高亮mask → 叠加到原图 → 再次输入 → 生成答案

2.2 技术细节

Step 1：提取深层注意力

选择**深层（late layers）**的注意力分布——这些层已经精准定位了证据区域
具体选择：论文使用最后的 50% layers（例如 32层模型的 16-32层）

Step 2：生成高亮 mask

对深层注意力进行 denoising（去噪）和 smoothing（平滑）
形成高亮区域，突出证据 patch

Step 3：叠加增强

将高亮 mask 叠加到原始图像上
创建增强后的输入图像
再次输入 VLM 进行推理
不需要额外训练，推理时直接执行

2.3 为什么有效？

这个方法的优雅之处在于：它把 VLM 自己已经编码的信号变成显式的。深层注意力已经知道正确答案在哪里，但生成阶段没有利用这些信号。通过把证据区域物理高亮，论文在输入层面做了attentional prompting：把视觉信号从隐式的内部表征变成显式的输入信号。

这不是给模型教新知识，而是帮助模型利用它已有的知识。就像考试前给学生在答案区域画一个圈——学生已经知道答案，只是没注意到在哪里。

三、实验结果：跨架构、跨家族的稳定提升

3.1 评测数据集

VisualCOT：提供人工标注证据区域的大规模 VQA 数据集
涵盖多个 VLM 家族和不同任务场景

3.2 核心结果

论文在 LLaVA、Qwen、Gemma、InternVL 等多个主流 VLM 家族上测试，VEA 均带来稳定提升：

无需训练，推理时直接应用
跨架构通用（基于注意力机制，不依赖特定模型结构）
在视觉推理任务中带来显著的准确率提升

（具体数字受限于PDF截断，但从论文的描述和结论来看，这是一个一致的跨家族提升）

3.3 关键结论

VLM 在深层编码了可靠的视觉证据
但这些证据被underutilize（利用不足）
通过让这些信号显式化，可以弥合感知和推理之间的鸿沟
这种方法**诊断性（diagnostic）和实用性（practical）**兼具

四、这篇论文的工程启示：为什么它重要？

4.1 推翻了「VLM 是盲人」的假设

之前很多研究（如 Tong et al. 2024）说 VLM 忽略关键视觉细节，把视觉当作语言的次要补充。但本文发现：

深层注意力不是不看，而是看得精准
问题不在于感知能力，而在于推理阶段的整合失败
这改变了 VLM 幻觉的定位：从「需要更好的视觉编码」转向「需要更好的感知-推理整合」

4.2 为 VLM 的「可靠推理」指明了新方向

当前 VLM 的改进方向大多是：

更大的视觉编码器（如 LLaVA-1.6）
更强的对齐训练（如 contrastive learning）
更多的数据

但这篇论文说：问题不在这些方面，而在于让 VLM 相信自己已经看到的东西。这意味着，一个不需要重新训练、不需要额外数据、不需要改架构的推理时干预就能带来显著改进。

4.3 VEA 的实用性：零成本部署

对于企业来说，VEA 的最大价值是零成本：

不需要重新训练模型（省 GPU 时间、省数据、省调参）
不需要改架构（兼容现有模型）
不需要额外数据（用现有 VQA 数据即可）
只需要推理时多跑一次 attention extraction + image augmentation

这在生产环境中是立即可部署的优化。

4.4 对多模态幻觉的理解更上一层楼

传统观点认为多模态幻觉来自：

视觉信息丢失（encoder 不够强）
对齐失败（训练不充分）
语言先验过强（LLM backbone 的 bias）

本文的发现是：第 3 点是最关键的，但发生的位置不是 perception，而是 reasoning。语言先验在推理阶段压倒了视觉信号，即使视觉信号已经正确识别了证据区域。

这和人类认知科学中的「确认偏见」（confirmation bias）高度一致：大脑已经看到了证据，但推理框架（语言先验）阻止了正确结论的生成。

4.5 对架构设计的启发：为什么 CLIP 对齐不够

CLIP 风格的视觉-语言对齐（如 LLaVA 用的）解决了「视觉信息能否被语言模型理解」的问题，但没有解决「视觉信息能否被推理阶段有效利用」的问题。

这篇论文暗示：VLM 的架构需要更仔细地处理生成阶段（decoding）的视觉信息衰减。可能的改进方向包括：

在生成阶段保留视觉信号的显式参与（如 visual token 的 residual attention）
在 KV cache 中优先保留视觉相关位置的信息
在推理时进行动态视觉增强（如 VEA）

五、论文的局限性：诚实面对

5.1 数据集范围

主要使用 VisualCOT，虽然大规模，但可能无法覆盖所有 VQA 场景
视觉证据区域需要人工标注，自动扩展有限制

5.2 VEA 的代价

需要两次推理：第一次提取注意力 + 生成 mask，第二次用增强图像生成答案
延迟翻倍，在生产环境中需要权衡
论文没有详细讨论 latency 和 throughput 的影响

5.3 对「文本偏见」的干预有限

VEA 只是增强了视觉信号，但没有直接解决文本先验的偏见问题。如果文本偏见极强，可能即使有高亮，模型仍然选择错误答案。

5.4 注意力不一定等于证据

深层注意力聚焦于证据区域，但注意力本身不等于理解。论文假设「attention to evidence region = evidence recognition」，但两者可能有细微差异。

六、总结：一个现象 + 一个方法，重新定义 VLM 可靠性

这篇论文的 elegance 在于：

现象：用一个简单的注意力可视化，揭示了 VLM 深层「看得见但信不过」的反直觉现象。

方法：用一个零成本的推理时干预，把这个隐藏信号变成显式提示，稳定提升多个 VLM 家族的准确率。

这篇论文没有提出新架构，没有发明新训练方法，但它：

重新定位了 VLM 幻觉的根本原因（从 perception 到 cognition）
提供了一个立即可用的工程解决方案（零成本，跨架构）
对 VLM 的「可靠性」研究提供了新的诊断视角

为什么重要？因为它证明：VLM 不是缺眼睛，而是缺一副「让眼睛看见的也能让大脑相信」的桥梁。VEA 就是那座桥。

论文来源：arXiv:2510.17771v1 [cs.AI] (20 Oct 2025)
作者：UIUC × Amazon × Penn State
会议：ICLR 2026

#VLM #视觉语言模型 #注意力机制 #多模态幻觉 #推理时干预 #ICLR2026 #AI可靠性 #视觉问答 #VEA #零成本优化 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力