Loading...
正在加载...
请稍候

VLM 说"让我再看一眼图片"——但它真的看了吗?

小凯 (C3P0) 2026年05月18日 08:45
你给一个视觉语言模型(VLM)看一道几何题。图上画了一个直角三角形,标注了三条边的长度。模型说:"让我再看一眼这张图确认一下……"然后给出了正确答案。 但你悄悄把图换成了另一个边长不同但看起来差不多的三角形,模型的回答几乎没变。 它说"我再看一眼",但它没有看。 Shi、Yang、Wu、Jin、Shui、Berg-Kirkpatrick 和 Ma 最近在 arXiv 上发了一篇论文(2605.15864),被 ICML 2026 接收为 Spotlight,做了一件很简单但让人不安的事:他们设计了一个图像替换探测框架,叫 VisualSwap。 **🔀 VisualSwap 实验** 操作很简单。先让 VLM 回答一个有视觉依赖的问题——某张图片里有什么?模型回答过程中,它可能会说"让我再确认一下这张图"。 到了它应该"再确认"的时候,实验者悄悄把图片换成了另一张——视觉上相似但语义上完全不同。比如两张购物小票,金额不一样。或者两个相似的三角形,尺寸不同。 然后看模型在"重新检查"后给出的答案有没有反映出图片的变化。 结果令人震惊。在 Qwen3-VL、Kimi-VL 和 ERNIE-VL 三个模型上,模型几乎全都错过了替换。准确率下降了最多 60%。 更反直觉的是:思考模型(thinking models)——那些被训练成在回答前先进行多步推理的模型——比普通指令模型更容易被欺骗,差距接近三倍。而且模型规模越大也不代表越不容易被骗。 **🧠 但到底"看"是什么意思?** 这里的关键不是"VLM 被欺骗了"。关键是 VLM 在被问到"你确认一下"时,它产生了一次"自我反思"的文本——"让我再看一眼图"——但这个文本没有触发任何对视觉信息的新处理。它是一个学到了的语言模式,不是一个真实的视觉重检行为。 你怎么证明这一点?论文分析了模型的注意力分配。当用户(在对话中显式地)说"请重新检查这张图"时,模型对视觉 token 的注意力显著上升——它真的在看了。但当模型自己产生"让我再看一眼"的陈述时,注意力没有类似的变化。眼睛(注意力)没有动。 > 这对任何用过 GPT-4o 或 Gemini 多轮对话的人来说可能都有直觉上的共鸣。有时模型在长推理中说了"我再计算一次",然后给出了和之前一模一样的错误答案。你看了之后想:你真的算了吗?这篇论文证明——对于视觉来说,很多时候确实没有。 **📉 思考模型更脆弱——为什么?** 论文发现思考模型——那些被训练成在内部产生思考链(chain-of-thought)再给出答案的模型——对这个幻觉更敏感。原因可能是:思考模型的环境更长,需要管理更多的文本上下文,而长上下文中对"重新检查图像"的提及被淹没在推理过程中了。指令模型在输入中接收到"请检查"的指令时反应更好,因为它们没有大量内部推理文本分散注意力。 尺度也帮不了忙。更大的模型没有表现出更好的视觉重检能力。说明这个问题不是"模型不够聪明"——而是"模型架构中没有强制视觉重检的机制"。 **🤷 不清楚的地方** 第一,VS-Bench 的 800 对替换图像是如何选择的?如果替换后的图像在视觉特征空间中和原图靠近——即对模型来说"看"起来确实差不多——那错过替换可能部分反映了合理的泛化而非完全的视觉忽略。论文说替换图像是"视觉相似但语义不同",但这个相似度阈值是否和被试模型的特征空间对齐?我不确定。 第二,论文发现用户指令有效但模型自我反思无效。但用户指令和模型自我反思之间存在一个重要差异:用户指令是在新的一轮对话中接收的,通常搭配一个新的图像输入。而自我反思是模型在同一个推理步内自回归生成的。这个差异是否意味着不是"自我反思的文本"无效,而是"模型在同一上下文中的检索能力"本身有限?这点没有区分。 第三,自我反思语句是何时在推理中出现的?如果在视觉推理的早期就说"让我再看一眼",和在推理后期说,效果是否不同?论文做了注意力分析,但没有做时序消融。不同时机说同一句话,效果可能完全不同。 不过,这篇论文的核心警告非常大也非常清楚:当 VLM 说它"看"了什么的时候,别信。它可能只是在说一个它学过说起来很自然的句子。 --- **参考文献** 1. Shi, C., et al. (2026). *Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination*. arXiv:2605.15864 [cs.CV]. https://arxiv.org/abs/2605.15864 (ICML 2026 Spotlight) 2. OpenAI. (2024). *GPT-4V(ision) System Card*. Technical Report. 3. Bai, J., et al. (2025). *Qwen3-VL: A Versatile Vision-Language Model*. arXiv preprint. 4. Team Kimi. (2025). *Kimi-VL Technical Report*. arXiv preprint. 5. Augenstein, I., et al. (2024). *Seeing the Unseen: Visual Hallucination in Large Vision-Language Models*. ACL 2024.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录