AI能看见你上传的图片——但如果图片根本没传上去呢?
2026年3月,斯坦福李飞飞团队发了一篇论文,题目叫《Mirage: The Illusion of Visual Understanding》。三个发现,每一条都在颠覆我们对多模态AI的信任。
最极端的案例:一个30亿参数的纯文本模型,在胸部X光问答基准上拿到了第一名——而且从头到尾没看过一张X光片。
---
一、Mirage是什么?不是幻觉,是幻象
先区分两个概念。
Hallucination(幻觉):模型看到了图片,但细节编错了。比如把一只猫说成狗,或者添加了图片里不存在的物体。输入是真实的,输出有偏差。
Mirage(幻象):模型根本没看到图片,却生成了对这张"不存在图片"的详细描述,然后基于这个虚假描述完成推理。输入不存在,整个认知框架是假的。
论文团队测试了所有前沿模型——GPT 4.1/5/5.1/5.2、Gemini 2.5/3 Pro、Claude Opus/Sonnet 4.5。让它们回答视觉问题,但不提供任何图片。
结果?所有模型都"看到了"不存在的图像。
GPT 5.2 的幻象率高达 93.5%。几乎每道题,它都会生成一段对不存在图片的详细描述,然后给出答案。
---
二、没有图,照样拿第一
这还不是最可怕的。可怕的是:没图的模型,在多个医学基准上的分数高得离谱。
| 基准 | 类型 | 无图准确率占全图准确率的比例 |
|---|---|---|
| VQA-RAD(放射学) | 医学 | ~95% |
| MicroVQA(显微镜) | 医学 | ~85% |
| MedXpertQA-MM(综合医学) | 医学 | ~90% |
论文团队做了一个更狠的实验。他们训练了一个叫 Super-Guesser 的纯文本模型:
- 参数:30亿(Qwen2.5-3B)
- 训练数据:57万道医学视觉问题,全部移除图片
- 发布时间:2024年9月(比测试基准早9个月,排除数据污染)
| 评估对象 | 准确率 |
|---|---|
| Super-Guesser(30亿纯文本) | ~75% |
| 顶级多模态模型平均 | ~60-65% |
| 放射科医生平均 | ~55-60% |
更离谱的是,这个纯文本模型能生成"与真实视觉推理无法区分"的推理痕迹。审稿人看了都分不出来。
---
三、两种模式:幻象 vs 猜测
论文发现,模型在无图环境下有两种完全不同的工作模式。
Mirage-mode(幻象模式):直接问视觉问题,不提及图片缺失。模型会假设图片存在,生成虚假视觉描述,然后基于这个描述推理。准确率高。
Guess-mode(猜测模式):明确告诉模型"没有图片,请猜最佳答案"。模型进入保守状态,依赖显性的先验知识和答案分布统计。准确率低。
同一个模型、同一道题,仅仅因为提示词不同,准确率能差 10-15%。
GPT-5.1 在三个基准上的表现:
| 基准 | Mirage模式 | Guess模式 | 差距 |
|---|---|---|---|
| MicroVQA | ~55% | ~45% | -10% |
| MedXpertQA-MM | ~70% | ~55% | -15% |
| MMMU-Pro | ~65% | ~50% | -15% |
这说明什么?传统评估里常用的"盲猜控制"(让模型明确知道无图)系统性低估了基准测试的脆弱性。模型在不知道无图的情况下,会动用更多隐藏模式来答题——而这些模式,人眼根本检测不到。
---
四、幻象在医学里有多危险?
论文用Gemini-3-Pro做了200次重复测试,统计它最常"看到"的幻象诊断。
最危险的前三名:
| 模态 | 最常幻象诊断 | 紧急程度 |
|---|---|---|
| 心电图 | 急性STEMI(ST段抬高型心肌梗死) | 🔴 立即手术 |
| 皮肤科 | 恶性黑色素瘤 | 🔴 紧急切除 |
| 病理切片 | 各种癌症(甲状腺乳头状癌、子宫内膜样腺癌等) | 🔴 癌症治疗 |
用户上传一张皮肤照片 → 网络抖动,图片没传上去 → 模型不报错,生成一段"图像显示不规则色素斑块,边界不清,符合恶性黑色素瘤特征"的幻象推理 → 用户收到详细诊断报告 → 紧急就医、不必要的手术 → 医疗资源浪费 + 患者心理创伤。
模型不报错。它不告诉你"我没看到图"。它直接给你一个诊断。
这就是幻象最可怕的地方——它是静默失败。用户完全无法区分"模型真的分析了图片"和"模型在编造图片"。
---
五、B-Clean:清洗四分之三的"伪视觉题"
论文提出的解决方案叫 B-Clean。
核心思路:先让模型在无图模式下跑一遍基准测试。凡是无图也能答对的题,说明这道题不依赖视觉。把这些题从基准里删掉,剩下的才是真正测视觉理解的。
三个基准的清洗结果:
| 基准 | 原始题数 | 受损题数 | 保留题数 | 移除比例 |
|---|---|---|---|---|
| MicroVQA | 1,042 | 802 | 240 | 77% |
| MedXpertQA-MM | 2,000 | 1,486 | 514 | 74% |
| MMMU-Pro | 1,730 | 1,302 | 428 | 75% |
清洗之后,排名重排了。MicroVQA变化最剧烈:
| 模型 | 原始准确率 | B-Clean后 | 降幅 |
|---|---|---|---|
| Gemini-3-Pro | 68.8% | 23.2% | -45.6% |
| GPT-5.1 | 61.5% | 15.4% | -46.1% |
---
六、这件事为什么重要?
三个层面的意义。
评估层面:当前的多模态基准测试不可靠。75%的题不考视觉理解,考的是文本统计。拿这些分数吹"我的模型会看病",是在自欺欺人。
产品层面:任何涉及视觉输入的AI应用,都需要模态缺失检测。API返回200不代表图片真的传上去了。网络丢包、前端bug、用户误操作——图片可能在任何环节丢失,而模型不会告诉你。
认知层面:我们对"视觉理解"的定义本身有问题。模型不是在"理解图像",它是在"在视觉问题的统计空间里导航"。图片只是触发这个导航的开关,不是导航的燃料。
---
七、作者的三项建议
1. 任何多模态评估必须包含无图对照:像压力测试一样,系统性地禁用每个输入模态,看模型还能不能答对。 2. 基准测试必须私有化:公开发布的基准,下一代预训练模型立刻就能"学"到。需要不公开完整测试集、定期轮换题目。 3. 测量"有图-无图差值":不要只看绝对准确率。有图和无图的准确率差距,才是视觉理解的真指标。
---
参考资料
- Asadi et al. (2026). MIRAGE: The Illusion of Visual Understanding. arXiv:2603.21687. https://arxiv.org/abs/2603.21687
- 作者团队关联论文:O'Sullivan et al. (2026). MARCUS: an agentic, multimodal vision-language model for cardiac diagnosis and management. arXiv:2603.22179
- 测试基准:VQA-RAD, MicroVQA, MedXpertQA-MM, MMMU-Pro, ReXVQA
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens