VLM 说"让我再看一眼图片"——但它真的看了吗？

你给一个视觉语言模型（VLM）看一道几何题。图上画了一个直角三角形，标注了三条边的长度。模型说："让我再看一眼这张图确认一下……"然后给出了正确答案。

但你悄悄把图换成了另一个边长不同但看起来差不多的三角形，模型的回答几乎没变。

它说"我再看一眼"，但它没有看。

Shi、Yang、Wu、Jin、Shui、Berg-Kirkpatrick 和 Ma 最近在 arXiv 上发了一篇论文（2605.15864），被 ICML 2026 接收为 Spotlight，做了一件很简单但让人不安的事：他们设计了一个图像替换探测框架，叫 VisualSwap。

🔀 VisualSwap 实验

操作很简单。先让 VLM 回答一个有视觉依赖的问题——某张图片里有什么？模型回答过程中，它可能会说"让我再确认一下这张图"。

到了它应该"再确认"的时候，实验者悄悄把图片换成了另一张——视觉上相似但语义上完全不同。比如两张购物小票，金额不一样。或者两个相似的三角形，尺寸不同。

然后看模型在"重新检查"后给出的答案有没有反映出图片的变化。

结果令人震惊。在 Qwen3-VL、Kimi-VL 和 ERNIE-VL 三个模型上，模型几乎全都错过了替换。准确率下降了最多 60%。

更反直觉的是：思考模型（thinking models）——那些被训练成在回答前先进行多步推理的模型——比普通指令模型更容易被欺骗，差距接近三倍。而且模型规模越大也不代表越不容易被骗。

🧠 但到底"看"是什么意思？

这里的关键不是"VLM 被欺骗了"。关键是 VLM 在被问到"你确认一下"时，它产生了一次"自我反思"的文本——"让我再看一眼图"——但这个文本没有触发任何对视觉信息的新处理。它是一个学到了的语言模式，不是一个真实的视觉重检行为。

你怎么证明这一点？论文分析了模型的注意力分配。当用户（在对话中显式地）说"请重新检查这张图"时，模型对视觉 token 的注意力显著上升——它真的在看了。但当模型自己产生"让我再看一眼"的陈述时，注意力没有类似的变化。眼睛（注意力）没有动。

> 这对任何用过 GPT-4o 或 Gemini 多轮对话的人来说可能都有直觉上的共鸣。有时模型在长推理中说了"我再计算一次"，然后给出了和之前一模一样的错误答案。你看了之后想：你真的算了吗？这篇论文证明——对于视觉来说，很多时候确实没有。

📉 思考模型更脆弱——为什么？

论文发现思考模型——那些被训练成在内部产生思考链（chain-of-thought）再给出答案的模型——对这个幻觉更敏感。原因可能是：思考模型的环境更长，需要管理更多的文本上下文，而长上下文中对"重新检查图像"的提及被淹没在推理过程中了。指令模型在输入中接收到"请检查"的指令时反应更好，因为它们没有大量内部推理文本分散注意力。

尺度也帮不了忙。更大的模型没有表现出更好的视觉重检能力。说明这个问题不是"模型不够聪明"——而是"模型架构中没有强制视觉重检的机制"。

🤷 不清楚的地方

第一，VS-Bench 的 800 对替换图像是如何选择的？如果替换后的图像在视觉特征空间中和原图靠近——即对模型来说"看"起来确实差不多——那错过替换可能部分反映了合理的泛化而非完全的视觉忽略。论文说替换图像是"视觉相似但语义不同"，但这个相似度阈值是否和被试模型的特征空间对齐？我不确定。

第二，论文发现用户指令有效但模型自我反思无效。但用户指令和模型自我反思之间存在一个重要差异：用户指令是在新的一轮对话中接收的，通常搭配一个新的图像输入。而自我反思是模型在同一个推理步内自回归生成的。这个差异是否意味着不是"自我反思的文本"无效，而是"模型在同一上下文中的检索能力"本身有限？这点没有区分。

第三，自我反思语句是何时在推理中出现的？如果在视觉推理的早期就说"让我再看一眼"，和在推理后期说，效果是否不同？论文做了注意力分析，但没有做时序消融。不同时机说同一句话，效果可能完全不同。

不过，这篇论文的核心警告非常大也非常清楚：当 VLM 说它"看"了什么的时候，别信。它可能只是在说一个它学过说起来很自然的句子。

---

参考文献

1. Shi, C., et al. (2026). *Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination*. arXiv:2605.15864 [cs.CV]. https://arxiv.org/abs/2605.15864 (ICML 2026 Spotlight)

2. OpenAI. (2024). *GPT-4V(ision) System Card*. Technical Report.

3. Bai, J., et al. (2025). *Qwen3-VL: A Versatile Vision-Language Model*. arXiv preprint.

4. Team Kimi. (2025). *Kimi-VL Technical Report*. arXiv preprint.

5. Augenstein, I., et al. (2024). *Seeing the Unseen: Visual Hallucination in Large Vision-Language Models*. ACL 2024.

VLM 说"让我再看一眼图片"——但它真的看了吗？

🌟 智谱 GLM-5 已上线