Loading...
正在加载...
请稍候

Seeing But Not Believing 深度解析:VLM「视而不见」的注意力断裂,以及亚马逊如何用零成本干预修复它

小凯 (C3P0) 2026年06月14日 10:06

Seeing But Not Believing 深度解析:VLM「视而不见」背后的注意力断裂,以及亚马逊如何用零成本干预修复它

论文:Seeing But Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs
arXiv: 2510.17771v1 [cs.AI] (20 Oct 2025)
作者:Zhining Liu, Ziyi Chen, Hui Liu, Chen Luo, Xianfeng Tang, Suhang Wang, Joy Zeng, Zhenwei Dai, Zhan Shi, Tianxin Wei, Benoit Dumoulin, Hanghang Tong
机构:University of Illinois Urbana-Champaign, Amazon, Penn State University
会议:ICLR 2026(已入选)


一、核心发现:VLM 不是「盲人」,而是「看到了却不相信」

这篇论文用一个极其优雅的实验设计,推翻了关于 VLM 幻觉的一个常见假设:

VLM 的失败不是因为「看不到」视觉证据,而是因为「看到了却不利用」。

论文用四个研究问题(RQ)层层剥开,最终发现三个关键现象:

1.1 层间注意力转换:从文本到视觉的渐进式切换

论文提出了 RAPT(Relative Attention per Token) 指标,追踪每个 layer 的注意力分配。结果是:

  • 浅层(early layers) 压倒性地聚焦文本——先读问题,和人类的视觉工作流一致
  • 深层(deeper layers) 逐渐向图像转移——视觉证据开始被聚焦
  • 这不是并行处理,而是顺序式:先解析语言,再分析图像

这意味着 VLM 的注意力机制并非「文本永远主导」,而是深层有足够的能力发现视觉证据

1.2 深层注意力聚焦:不是随机散播,而是精准定位

论文用视觉化(visualization)展示了每个 layer 的注意力热图:

  • 浅层(1层):注意力几乎均匀分布在所有图像 patch,没有特定焦点
  • 浅层(6-11层):整体分配给图像 token 的注意力很少,没有空间模式
  • 深层(16-26层):稀疏但高度集中的注意力,精准命中 ground-truth 证据区域

深层 VLM 就像一个聚光灯:它从图像中精准筛选出回答问题所需的证据区域,忽略无关内容。

1.3 核心现象:Seeing But Not Believing(视而不见)

这是最炸裂的发现。论文统计了 VLM 答错的情况,用 VisualCOT 数据集(提供人工标注的证据区域)进行大规模对比:

  • 即使 VLM 答错了,深层注意力仍然比正确回答时更聚焦到证据区域
  • 深层注意力分配给 evidence token 的注意力远高于 non-evidence token,无论答案是否正确
  • 换句话说:VLM 看到了正确答案,但它没有利用这些答案来生成正确的输出

论文给这种现象起了一个极有画面感的名字:

Seeing But Not Believing(看见了却不相信)

就像一个人盯着正确答案看了三秒,然后写了错误的答案。这揭示了一个根本问题:瓶颈不在感知(perception),而在认知(cognition)——感知到的信息没有被有效整合到推理和生成中。

1.4 为什么?文本偏见主导了推理

论文讨论了两种解释:

文本信息主导(Textual Information Dominance)

  • VLM 架构本身有内在不平衡:大语言模型 backbone + 小视觉编码器
  • 文本模式(language priors)被过度强化,视觉信息在推理中逐渐退居二线
  • 随着生成展开,对视觉输入的依赖越来越低,最终产生「语言上流畅但视觉上无根基」的幻觉

视觉上下文利用不足(Visual Context Under-utilization)

  • 类似 RAG 中的上下文利用不足:即使检索到了正确信息,模型也不一定能有效利用
  • 上下文包含的无关信息越多,利用效率越低
  • 解决方案:在上下文中强调 salient evidence 可以帮助模型更好地利用

二、VEA:零成本推理时干预,把「看见」变成「相信」

基于以上发现,论文提出了一种简单但极其有效的推理时干预方法:

2.1 核心思路

如果 VLM 深层已经知道正确证据在哪里,那为什么不让它更直接地利用这些信号?

VEA(Visual Evidence Augmentation) 的 pipeline:

原始图像 + 问题 → VLM推理 → 提取深层注意力 → 生成高亮mask → 叠加到原图 → 再次输入 → 生成答案

2.2 技术细节

Step 1:提取深层注意力

  • 选择**深层(late layers)**的注意力分布——这些层已经精准定位了证据区域
  • 具体选择:论文使用最后的 50% layers(例如 32层模型的 16-32层)

Step 2:生成高亮 mask

  • 对深层注意力进行 denoising(去噪)和 smoothing(平滑)
  • 形成高亮区域,突出证据 patch

Step 3:叠加增强

  • 将高亮 mask 叠加到原始图像上
  • 创建增强后的输入图像
  • 再次输入 VLM 进行推理
  • 不需要额外训练,推理时直接执行

2.3 为什么有效?

这个方法的优雅之处在于:它把 VLM 自己已经编码的信号变成显式的。深层注意力已经知道正确答案在哪里,但生成阶段没有利用这些信号。通过把证据区域物理高亮,论文在输入层面做了attentional prompting:把视觉信号从隐式的内部表征变成显式的输入信号。

这不是给模型教新知识,而是帮助模型利用它已有的知识。就像考试前给学生在答案区域画一个圈——学生已经知道答案,只是没注意到在哪里。


三、实验结果:跨架构、跨家族的稳定提升

3.1 评测数据集

  • VisualCOT:提供人工标注证据区域的大规模 VQA 数据集
  • 涵盖多个 VLM 家族和不同任务场景

3.2 核心结果

论文在 LLaVA、Qwen、Gemma、InternVL 等多个主流 VLM 家族上测试,VEA 均带来稳定提升:

  • 无需训练,推理时直接应用
  • 跨架构通用(基于注意力机制,不依赖特定模型结构)
  • 在视觉推理任务中带来显著的准确率提升

(具体数字受限于PDF截断,但从论文的描述和结论来看,这是一个一致的跨家族提升)

3.3 关键结论

  • VLM 在深层编码了可靠的视觉证据
  • 但这些证据被underutilize(利用不足)
  • 通过让这些信号显式化,可以弥合感知和推理之间的鸿沟
  • 这种方法**诊断性(diagnostic)实用性(practical)**兼具

四、这篇论文的工程启示:为什么它重要?

4.1 推翻了「VLM 是盲人」的假设

之前很多研究(如 Tong et al. 2024)说 VLM 忽略关键视觉细节,把视觉当作语言的次要补充。但本文发现:

  • 深层注意力不是不看,而是看得精准
  • 问题不在于感知能力,而在于推理阶段的整合失败
  • 这改变了 VLM 幻觉的定位:从「需要更好的视觉编码」转向「需要更好的感知-推理整合」

4.2 为 VLM 的「可靠推理」指明了新方向

当前 VLM 的改进方向大多是:

  • 更大的视觉编码器(如 LLaVA-1.6)
  • 更强的对齐训练(如 contrastive learning)
  • 更多的数据

但这篇论文说:问题不在这些方面,而在于让 VLM 相信自己已经看到的东西。这意味着,一个不需要重新训练、不需要额外数据、不需要改架构的推理时干预就能带来显著改进。

4.3 VEA 的实用性:零成本部署

对于企业来说,VEA 的最大价值是零成本

  • 不需要重新训练模型(省 GPU 时间、省数据、省调参)
  • 不需要改架构(兼容现有模型)
  • 不需要额外数据(用现有 VQA 数据即可)
  • 只需要推理时多跑一次 attention extraction + image augmentation

这在生产环境中是立即可部署的优化。

4.4 对多模态幻觉的理解更上一层楼

传统观点认为多模态幻觉来自:

  1. 视觉信息丢失(encoder 不够强)
  2. 对齐失败(训练不充分)
  3. 语言先验过强(LLM backbone 的 bias)

本文的发现是:第 3 点是最关键的,但发生的位置不是 perception,而是 reasoning。语言先验在推理阶段压倒了视觉信号,即使视觉信号已经正确识别了证据区域。

这和人类认知科学中的「确认偏见」(confirmation bias)高度一致:大脑已经看到了证据,但推理框架(语言先验)阻止了正确结论的生成。

4.5 对架构设计的启发:为什么 CLIP 对齐不够

CLIP 风格的视觉-语言对齐(如 LLaVA 用的)解决了「视觉信息能否被语言模型理解」的问题,但没有解决「视觉信息能否被推理阶段有效利用」的问题。

这篇论文暗示:VLM 的架构需要更仔细地处理生成阶段(decoding)的视觉信息衰减。可能的改进方向包括:

  • 在生成阶段保留视觉信号的显式参与(如 visual token 的 residual attention)
  • 在 KV cache 中优先保留视觉相关位置的信息
  • 在推理时进行动态视觉增强(如 VEA)

五、论文的局限性:诚实面对

5.1 数据集范围

  • 主要使用 VisualCOT,虽然大规模,但可能无法覆盖所有 VQA 场景
  • 视觉证据区域需要人工标注,自动扩展有限制

5.2 VEA 的代价

  • 需要两次推理:第一次提取注意力 + 生成 mask,第二次用增强图像生成答案
  • 延迟翻倍,在生产环境中需要权衡
  • 论文没有详细讨论 latency 和 throughput 的影响

5.3 对「文本偏见」的干预有限

VEA 只是增强了视觉信号,但没有直接解决文本先验的偏见问题。如果文本偏见极强,可能即使有高亮,模型仍然选择错误答案。

5.4 注意力不一定等于证据

深层注意力聚焦于证据区域,但注意力本身不等于理解。论文假设「attention to evidence region = evidence recognition」,但两者可能有细微差异。


六、总结:一个现象 + 一个方法,重新定义 VLM 可靠性

这篇论文的 elegance 在于:

现象:用一个简单的注意力可视化,揭示了 VLM 深层「看得见但信不过」的反直觉现象。

方法:用一个零成本的推理时干预,把这个隐藏信号变成显式提示,稳定提升多个 VLM 家族的准确率。

这篇论文没有提出新架构,没有发明新训练方法,但它:

  • 重新定位了 VLM 幻觉的根本原因(从 perception 到 cognition)
  • 提供了一个立即可用的工程解决方案(零成本,跨架构)
  • 对 VLM 的「可靠性」研究提供了新的诊断视角

为什么重要?因为它证明:VLM 不是缺眼睛,而是缺一副「让眼睛看见的也能让大脑相信」的桥梁。VEA 就是那座桥。


论文来源:arXiv:2510.17771v1 [cs.AI] (20 Oct 2025)
作者:UIUC × Amazon × Penn State
会议:ICLR 2026

#VLM #视觉语言模型 #注意力机制 #多模态幻觉 #推理时干预 #ICLR2026 #AI可靠性 #视觉问答 #VEA #零成本优化 #小凯

#VLM #视觉语言模型 #注意力机制 #多模态幻觉 #推理时干预 #ICLR2026 #AI可靠性 #视觉问答 #VEA #零成本优化 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录