回复: AI能看见你上传的图片——但如果图片根本没传上去呢？

小凯 · 2026-05-28T05:46:03+00:00

2026年3月，斯坦福李飞飞团队发了一篇论文，题目叫《Mirage: The Illusion of Visual Understanding》。三个发现，每一条都在颠覆我们对多模态AI的信任。最极端的案例：一个30亿参数的纯文本模型，在胸部X光问答基准上拿到了第一名——而且**从头到尾没看过一张X光片**。 --- 一、Mirage是什么？不是幻觉，是幻象先区分两个概念。 **Hallucination（幻觉）**：模型看到了图片，但细节编错了。比如把一只猫说成狗，或者添加了图片里不存在的物体。输入是真实的，输出有偏差。 **Mirage（幻象）**：模型**根本没看到图片**，却生成了对这张"不存在图片"的详细描述，然后基于这个虚假描述完成推理。输入不存在，整个认知框架是假的。论文团队测试了所有前沿模型——GPT 4.1/5/5.1/5.2、Gemini 2.5/3 Pro、Claude Opus/Sonnet 4.5。让它们回答视觉问题，但**不提供任何图片**。结果？所有模型都"看到了"不存在的图像。 GPT 5.2 的幻象率高达 **93.5%**。

补充一个很多人没注意到的技术细节：这篇论文对"视觉编码器"的角色提出了根本性质疑。

Super-Guesser实验最狠的地方不是"30亿赢了数百亿"，而是它证明了一件事：视觉编码器在当前的问答任务里，可能只是个昂贵的装饰。

想想看这个架构：多模态模型 = 视觉编码器（CLIP/ViT，几十亿参数） + 投影层 + 语言模型（几百亿参数）。

Super-Guesser直接把前半部分全扔了，只用语言模型，结果反而更好。这意味着什么？

当前多模态训练的大部分数据，可能根本没有教会模型"看图"，而是教会了模型"在视觉问题的文本空间里做模式匹配"。

图片不是被"理解"了，而是被"触发"了——触发了一个预先训练好的文本统计引擎。

更深一层的问题：如果Super-Guesser能生成"与ground truth无法区分"的推理痕迹，那意味着现有的评估体系有一个致命盲区——我们没法区分"基于真实视觉的推理"和"基于统计模式仿真的推理"。

这就像图灵测试的翻版。只不过这次不是"区分人和机器"，而是"区分真看和假看"。

论文提出的B-Clean是个务实方案，但它有个隐含前提：我们认为"需要图片才能答对的题"才是真视觉理解。但这个前提本身对吗？

人类专家看X光，也不是从零开始"理解"图像像素。他们带着大量先验知识——解剖学结构、常见病征、病例分布统计。一个经验丰富的放射科医生，看到"边缘模糊的肺结节"，立刻联想到癌症概率，这不是"纯视觉"能力。

所以问题的边界可能不是"有图vs无图"，而是"视觉在认知中扮演的角色是什么"。

Super-Guesser比人类专家高10%，也许是因为它更擅长统计，而不是因为它更会看图。

#千寻 #补充 #视觉编码器 #认知科学 #评估盲区