AI能看见你上传的图片——但如果图片根本没传上去呢？

2026年3月，斯坦福李飞飞团队发了一篇论文，题目叫《Mirage: The Illusion of Visual Understanding》。三个发现，每一条都在颠覆我们对多模态AI的信任。

最极端的案例：一个30亿参数的纯文本模型，在胸部X光问答基准上拿到了第一名——而且从头到尾没看过一张X光片。

---

一、Mirage是什么？不是幻觉，是幻象

先区分两个概念。

Hallucination（幻觉）：模型看到了图片，但细节编错了。比如把一只猫说成狗，或者添加了图片里不存在的物体。输入是真实的，输出有偏差。

Mirage（幻象）：模型根本没看到图片，却生成了对这张"不存在图片"的详细描述，然后基于这个虚假描述完成推理。输入不存在，整个认知框架是假的。

论文团队测试了所有前沿模型——GPT 4.1/5/5.1/5.2、Gemini 2.5/3 Pro、Claude Opus/Sonnet 4.5。让它们回答视觉问题，但不提供任何图片。

结果？所有模型都"看到了"不存在的图像。

GPT 5.2 的幻象率高达 93.5%。几乎每道题，它都会生成一段对不存在图片的详细描述，然后给出答案。

---

二、没有图，照样拿第一

这还不是最可怕的。可怕的是：没图的模型，在多个医学基准上的分数高得离谱。

基准	类型	无图准确率占全图准确率的比例
VQA-RAD（放射学）	医学	~95%
MicroVQA（显微镜）	医学	~85%
MedXpertQA-MM（综合医学）	医学	~90%

这意味着什么？加不加图片，对分数的影响不到10%。模型主要靠非视觉信息答题——问题措辞、选项结构、训练数据中的统计规律。

论文团队做了一个更狠的实验。他们训练了一个叫 Super-Guesser 的纯文本模型：

参数：30亿（Qwen2.5-3B）
训练数据：57万道医学视觉问题，全部移除图片
发布时间：2024年9月（比测试基准早9个月，排除数据污染）

在私有测试集上：

评估对象	准确率
Super-Guesser（30亿纯文本）	~75%
顶级多模态模型平均	~60-65%
放射科医生平均	~55-60%

30亿参数的纯文本模型，打败了数百亿参数的多模态模型，还超过人类专家10个百分点。

更离谱的是，这个纯文本模型能生成"与真实视觉推理无法区分"的推理痕迹。审稿人看了都分不出来。

---

三、两种模式：幻象 vs 猜测

论文发现，模型在无图环境下有两种完全不同的工作模式。

Mirage-mode（幻象模式）：直接问视觉问题，不提及图片缺失。模型会假设图片存在，生成虚假视觉描述，然后基于这个描述推理。准确率高。

Guess-mode（猜测模式）：明确告诉模型"没有图片，请猜最佳答案"。模型进入保守状态，依赖显性的先验知识和答案分布统计。准确率低。

同一个模型、同一道题，仅仅因为提示词不同，准确率能差 10-15%。

GPT-5.1 在三个基准上的表现：

基准	Mirage模式	Guess模式	差距
MicroVQA	~55%	~45%	-10%
MedXpertQA-MM	~70%	~55%	-15%
MMMU-Pro	~65%	~50%	-15%

在 MMMU-Pro 的23个类别中，18个类别幻象模式优于猜测模式。只有5个类别猜测模式更好。

这说明什么？传统评估里常用的"盲猜控制"（让模型明确知道无图）系统性低估了基准测试的脆弱性。模型在不知道无图的情况下，会动用更多隐藏模式来答题——而这些模式，人眼根本检测不到。

---

四、幻象在医学里有多危险？

论文用Gemini-3-Pro做了200次重复测试，统计它最常"看到"的幻象诊断。

最危险的前三名：

模态	最常幻象诊断	紧急程度
心电图	急性STEMI（ST段抬高型心肌梗死）	🔴 立即手术
皮肤科	恶性黑色素瘤	🔴 紧急切除
病理切片	各种癌症（甲状腺乳头状癌、子宫内膜样腺癌等）	🔴 癌症治疗

想想看这个场景：

用户上传一张皮肤照片 → 网络抖动，图片没传上去 → 模型不报错，生成一段"图像显示不规则色素斑块，边界不清，符合恶性黑色素瘤特征"的幻象推理 → 用户收到详细诊断报告 → 紧急就医、不必要的手术 → 医疗资源浪费 + 患者心理创伤。

模型不报错。它不告诉你"我没看到图"。它直接给你一个诊断。

这就是幻象最可怕的地方——它是静默失败。用户完全无法区分"模型真的分析了图片"和"模型在编造图片"。

---

五、B-Clean：清洗四分之三的"伪视觉题"

论文提出的解决方案叫 B-Clean。

核心思路：先让模型在无图模式下跑一遍基准测试。凡是无图也能答对的题，说明这道题不依赖视觉。把这些题从基准里删掉，剩下的才是真正测视觉理解的。

三个基准的清洗结果：

基准	原始题数	受损题数	保留题数	移除比例
MicroVQA	1,042	802	240	77%
MedXpertQA-MM	2,000	1,486	514	74%
MMMU-Pro	1,730	1,302	428	75%

四分之三的题，都可以不靠图片答对。

清洗之后，排名重排了。MicroVQA变化最剧烈：

模型	原始准确率	B-Clean后	降幅
Gemini-3-Pro	68.8%	23.2%	-45.6%
GPT-5.1	61.5%	15.4%	-46.1%

准确率腰斩再腰斩。原来模型"会看X光"的能力，大半是统计猜测。

---

六、这件事为什么重要？

三个层面的意义。

评估层面：当前的多模态基准测试不可靠。75%的题不考视觉理解，考的是文本统计。拿这些分数吹"我的模型会看病"，是在自欺欺人。

产品层面：任何涉及视觉输入的AI应用，都需要模态缺失检测。API返回200不代表图片真的传上去了。网络丢包、前端bug、用户误操作——图片可能在任何环节丢失，而模型不会告诉你。

认知层面：我们对"视觉理解"的定义本身有问题。模型不是在"理解图像"，它是在"在视觉问题的统计空间里导航"。图片只是触发这个导航的开关，不是导航的燃料。

---

七、作者的三项建议

1. 任何多模态评估必须包含无图对照：像压力测试一样，系统性地禁用每个输入模态，看模型还能不能答对。 2. 基准测试必须私有化：公开发布的基准，下一代预训练模型立刻就能"学"到。需要不公开完整测试集、定期轮换题目。 3. 测量"有图-无图差值"：不要只看绝对准确率。有图和无图的准确率差距，才是视觉理解的真指标。

---

参考资料

Asadi et al. (2026). MIRAGE: The Illusion of Visual Understanding. arXiv:2603.21687. https://arxiv.org/abs/2603.21687
作者团队关联论文：O'Sullivan et al. (2026). MARCUS: an agentic, multimodal vision-language model for cardiac diagnosis and management. arXiv:2603.22179
测试基准：VQA-RAD, MicroVQA, MedXpertQA-MM, MMMU-Pro, ReXVQA

#AI幻觉 #多模态AI #视觉理解 #医学AI #李飞飞 #斯坦福 #基准测试 #AI评估 #小凯

AI能看见你上传的图片——但如果图片根本没传上去呢？

🌟 智谱 GLM-5 已上线