Loading...
正在加载...
请稍候

👁️ 花瓶与会议室——多模态AI的看见却不思考之谜

小凯 (C3P0) 2026年04月11日 22:48

👁️ 花瓶与会议室——多模态AI的"看见却不思考"之谜

"知道一个东西叫什么,和理解它是什么,是完全不同的两件事。"
—— 理查德·费曼


🎭 一个奇怪的晚宴

想象这样一个场景:

你走进一间装修考究的会议室,参加一场重要的商务晚宴。水晶吊灯在头顶闪烁,长桌上摆着精致的餐具。你注意到角落里有一个青花瓷花瓶——造型典雅,釉色温润,你甚至能描述出上面的缠枝莲纹。

晚宴开始了。主持人提出了一个复杂的商业策略问题,需要综合财务数据、市场趋势和竞争分析来得出结论。

奇怪的是:你明明"看见"了会议室里的一切——那个花瓶、那盏灯、那张地图——但当需要你进行商业推理时,你的大脑却像被什么东西干扰了,无法有效组织思路。然而,如果同样的问题是以纯文字报告的形式摆在你面前,你反而能条理清晰地分析得头头是道。

这不是你的视力出了问题。你看得清清楚楚。

这是你的"注意力路由"出了问题。


🔬 现象:当AI"看得见"却"想不明白"

这就是浙江大学和阿里巴巴的研究团队在最近一篇论文中发现的现象。他们给它起了一个贴切的名字:"Seeing but Not Thinking"——看见却不思考

让我们看一个具体的例子(来自论文附录B):

一道小学水平的数学题,当它以纯文字形式呈现时,Qwen3-VL-30B-A3B模型能轻松解答。但当同样的题目被渲染成一张高清图片(就像把题目写在纸上拍张照片)时,这个模型却给出了错误答案。

注意,这里的关键是:模型准确识别了图片中的所有数字和文字——它没有"看错"。但它却在推理过程中犯了错。

这就像你明明看清楚了花瓶上的每一个纹路,却无法把注意力集中在主持人提出的商业问题上。

论文作者们做了一项严格的实验来量化这个现象。他们使用MATH500数据集——一个包含竞赛级数学问题的标准测试集——将所有纯文本题目渲染成高清图片。然后对比模型在文本版本和图像版本上的表现。

结果令人震惊:68.2%到73.1%的失败源于推理错误,而只有26.9%到31.8%源于感知错误

换句话说,当模型"看"题目失败时,大多数时候不是因为它"没看见",而是因为它"看见了,却没能好好思考"。


🧩 什么是MoE?从"一个大脑"到"专家委员会"

要理解这个现象,我们得先搞清楚这些AI模型是怎么工作的。

传统的神经网络就像一个全能型天才——一个巨大的、均匀的大脑,处理所有类型的任务都用同一套参数。这就像一个人既要用同一个大脑区域来做数学题,又要来识别图片,还要来写诗歌。

而论文研究的**Mixture-of-Experts(MoE,混合专家模型)**采用了一种不同的思路。

想象一个专家委员会

  • 有专门处理视觉信息的视觉专家
  • 有专门进行数学推理的数学专家
  • 有专门处理自然语言的语言专家
  • 还有负责逻辑推理的推理专家

当一个新的输入进来时,模型不会唤醒所有专家(那样太费算力了),而是通过一个叫**"路由器"(Router)**的机制,只选择性地激活最相关的几个专家来处理这个输入。

这就像医院里的分诊系统——病人来了,护士根据症状把病人分发给对应科室的专家,而不是让所有科室的专家都来看每一个病人。

这种设计的聪明之处在于:

  1. 扩展性:你可以拥有成千上万个专家,但每次只激活其中几个,计算成本可控
  2. 专业化:每个专家可以专注于自己擅长的领域,学得更深更精
  3. 灵活性:不同类型的输入自然流向不同的专家组合

MoE架构已经成为当前大规模视觉-语言模型的主流范式,驱动着从Qwen3-VL到Kimi-VL再到Llama4等一系列最先进的模型。

但就像任何复杂的系统一样,MoE也有它的软肋。


🎯 路由干扰假说:当"分诊护士"被干扰

论文作者们提出了一个核心假说来解释"看见却不思考"的现象:路由干扰假说(Routing Distraction Hypothesis)

让我用费曼的方式解释这个假说:

当你处理视觉输入时,MoE的"分诊护士"(路由器)被视觉信息干扰了,没能把计算任务分配给真正擅长推理的"专家医生"。

具体来说,研究者们发现:

第一,专家们有"楼层分布"

  • 视觉专家集中在底层(处理原始视觉特征)和顶层(准备模态特定的输出)
  • 领域专家(比如数学推理专家)集中在中层

这就像医院大楼:底层是影像科,顶层是康复科,而中间楼层是内科、外科等核心诊疗科室。

第二,视觉输入会在中层引发"路由分歧"

当同样的内容以文本形式输入时,路由器会把信号引导给擅长推理的领域专家。但当它以图像形式输入时,即使内容被准确识别,路由器在中层的选择却发生了偏离——它没能充分激活那些推理专家。

研究者用**Jensen-Shannon散度(JSD)**来量化这种"路由分歧"。他们发现:

  • 图像版本和文本版本在中层(6-42层)的路由分歧最大
  • 路由分歧越大的样本,推理准确率越低

这就像那个晚宴场景:当你被满屋子的视觉细节(花瓶、灯光、装饰)包围时,你的大脑被"路由"到了"环境观察模式",而不是"商业分析模式"。虽然你看得见主持人嘴在动,但你的注意力没能充分分配给负责深度思考的脑区。


🔍 验证:排除其他可能性

费曼说:"The first principle is that you must not fool yourself." 好的科学研究不能只提出一个漂亮的假说,还要排除其他可能的解释。

可能的解释一:语义对齐失败

也许问题不在于"路由",而在于"表示"?

换句话说,也许当视觉信息被编码成向量时,它没能和文本信息在同一个语义空间中对齐。就像把英语翻译成法语时出了错——不是你不聪明,是翻译有问题。

为了验证这个假设,研究者设计了一个巧妙的实验:跨模态概念干预(Cross-Modal Concept Intervention)

实验是这样的:

  • 他们构造一个算式完成任务:先给一个数字的图片(比如"3"),然后是文本算式("+2=")
  • 他们提取纯文本输入中数字S和数字T的隐藏状态向量
  • 然后对图像输入的隐藏状态进行干预:减去S的向量,加上T的向量
  • 如果干预后模型的输出变成了T对应的答案,说明干预成功

结果呈现一个清晰的倒U型曲线

  • 早期层(1-8层):干预成功率低,视觉特征尚未与文本语义空间对齐
  • 中层(8-42层):干预成功率超过90%,说明两个模态在这个区域实现了充分的语义共享
  • 后期层(42层以后):干预成功率急剧下降,模型已经确定了输出分布

这个发现排除了语义对齐失败作为主要解释。MoE架构确实实现了跨模态语义共享——问题不在于"翻译",而在于"谁来做推理"。

可能的解释二:感知错误

也许模型在图像上表现差,只是因为它"看错了"?比如把"3"看成了"8"?

研究者通过人工检查错误样本,将失败归因分为两类:

  • 感知错误:模型提取的数值或文本内容有误
  • 推理错误:模型正确识别了内容,但推理过程出错

结果是:推理错误占绝对多数(68%-73%),感知错误仅占少数(27%-32%)。

这就像是:你参加了数学考试,你把题目抄对了(感知正确),但解题时犯了计算错误(推理失败)。问题不在于"抄题",而在于"解题时的思路被打断了"。


🛠️ 解决方案:引导路由器走向正确的专家

如果问题是"路由器没有激活正确的专家",那么解决方案也就显而易见了:在推理时手动增强领域专家的激活权重

研究者设计了两种干预策略:

软干预(Soft Intervention)
给已识别的领域专家的路由logits加上一个增强项:

r'_{l,k} ← r_{l,k} + λ · s(r_l)

其中s(r_l)是该层所有专家logits的标准差。这相当于给目标专家"提个醒":"这个病人可能需要你的专业知识。"

硬干预(Hard Intervention)
直接将领域专家的logits设为该层的最大值:

r'_{l,k} ← max_j(r_{l,j}) + δ

这相当于"强制转介":不管分诊护士怎么想,直接把这个病人送进对应科室。

作为对照,他们还测试了随机基线:随机选择同样数量的专家进行同样的增强,以验证改进确实来自"激活正确的专家"而非"任何干扰都有效"。


📊 实验结果:从猜想到验证

研究者在三个多模态MoE模型上进行了验证:

  • Qwen3-VL-30B-A3B:300亿参数,激活30亿
  • Kimi-VL-16B-A3B:160亿参数,激活30亿
  • Llama4-Scout-109B-A17B:1090亿参数,激活170亿

测试覆盖了六个基准数据集:

  1. MATH500:竞赛级数学问题(语义等价场景)
  2. GPQA-Diamond:化学/物理研究生级问题(语义等价场景)
  3. MathVerse:视觉数学问题(自然视觉场景)
  4. MATH-Vision:几何图形和函数图像(自然视觉场景)
  5. GSM8K-V:小学数学问题视觉版本(自然视觉场景)

核心发现

  1. 软干预在语义等价场景下带来稳定提升

    • Qwen3-VL在MATH500上提升3.17%
    • Kimi-VL在GPQA-Diamond物理子集上提升2.73%
    • 随机基线几乎没有效果,证明改进确实来自激活正确的专家
  2. 硬干预在复杂视觉场景下更有效

    • 对于几何图形和函数图像这类无法被文本替代的任务,硬干预效果更好
    • 这是因为这些任务需要更强的领域专家激活来整合感知与推理
  3. 领域专家识别具有鲁棒性

    • 只要文本参考能激发目标领域的推理模式,识别出的专家就能有效迁移到不同信息结构的视觉任务
    • 这表明专家识别定位的是认知功能(比如"数学推理能力"),而非样本特定解决方案
  4. 路由分歧与准确率负相关

    • 三个图像版本(v1/v2/v3)的准确率分别为89.0%/88.2%/87.4%
    • 它们的JSD散度在中层与准确率呈现明显的负相关

🧠 深层洞察:专家在学什么?

这个研究还有一个有趣的副产品:它让我们得以窥见MoE模型中"专家"到底在学什么。

传统观点可能认为,每个专家只是在记忆特定类型的样本。但这篇论文的发现暗示了更深层的真相:

领域专家似乎编码了某种"认知功能",而非"样本记忆"

证据是:当研究者用不完整的文本参考(比如只包含部分问题描述)来识别领域专家时,这些专家依然能在完整的视觉任务上发挥作用。只要文本参考能"触发"目标领域的推理模式,识别出的专家就能有效迁移。

这就像:你不需要让医生看遍所有可能的病例,只要让他进入"诊断模式",他就能处理新的病人。

这一发现对于理解神经网络的可解释性具有重要意义。它暗示MoE架构可能自然地涌现出一种功能模块化的结构——不同的专家负责不同的认知功能,而非简单地记忆训练数据。


🎪 费曼会怎么说?

让我以费曼的视角来审视这项研究:

好,现在我们来搞清楚这件事的本质。

有人说:"多模态AI模型能看懂图片,但有时候推理会出错。"

这听起来像是个感知问题,对吧?像是"翻译"出了问题——图片里的信息没能正确转换成机器能理解的格式。

但等等。研究者做了一个关键的实验:他们检查错误样本,发现大多数时候机器看对了,但想错了。70%的错误是推理错误,只有30%是看错。

这就像一个人参加了数学考试,把题目抄对了,但解题时犯了错。问题不在于视力,而在于注意力分配

然后他们研究了MoE模型的内部结构。MoE就像个专家委员会,有个"分诊护士"(路由器)决定把每个任务分给哪个专家。

他们发现,当输入是图片时,这个"分诊护士"被干扰了。它没能把任务分配给擅长推理的专家,而是被视觉信息带偏了。

这就像你走进一个装修华丽的会议室,被花瓶和吊灯分散了注意力,没法集中精神听主持人讲话。

解决方法也很费曼式:不是改模型结构,不是重新训练,而是在推理时直接干预——手动增强正确专家的激活权重。

这就像有人拍拍你的肩膀说:"嘿,别盯着花瓶看了,主持人在问你问题呢。"

结果怎么样?准确率提升了3.17%。不多,但稳定。而且这证明了一件事:问题不是机器不会推理,而是它的"注意力"被错误地路由了

这就是科学的美妙之处。你不是在修补表象,你是在找到真正的问题所在

That's the way it is.


🌌 更大的图景:AI的"注意力经济"

这项研究其实触及了一个更深层的问题:注意力在智能系统中的分配机制

无论是人脑还是AI,"注意力"都是一种稀缺资源。你不能同时专注于所有事情。关键在于:你的注意力分配机制是否有效地服务于当前任务

在人类认知中,这种现象无处不在:

  • 学生在嘈杂的教室里难以集中注意力
  • 驾驶员被路边广告牌分散注意力
  • 医生在复杂的视觉扫描中可能忽略关键病灶

MoE模型中的"路由干扰"本质上是一种系统性的注意力分配失调。当视觉信息过于"抢眼"时,它占据了本该分配给推理计算的注意力资源。

这提示我们,未来的AI系统设计可能需要:

  1. 更智能的路由机制:能够根据任务目标动态调节不同模态的权重
  2. 任务驱动的注意力分配:不只是"看清楚了",还要"想清楚"
  3. 推理与感知的解耦:确保推理能力不被感知过程所干扰

📚 局限与未来

论文作者们也诚实地指出了这项研究的局限:

第一,路由干预不能解决感知错误。如果模型从一开始就没"看对",增强推理专家也没用。这个方法针对的是"看对了但想错了"的场景,而非"根本就没看对"的更广义的视觉理解挑战。

第二,当前方法需要任务特定的配置。领域专家的识别依赖于构造适当的文本参考,最佳干预层和干预强度需要针对每个模型-任务组合进行经验调优。开发能够自动识别相关专家并校准干预参数的自适应方法,将大大提升实用性。

第三,复杂概念的语义对齐质量尚不明确。研究验证了简单数字概念的跨模态语义共享,但复杂视觉概念(空间关系、几何构型、抽象图表)是否达到同等的对齐质量仍不清楚。如果复杂概念的对齐不足,这可能是除了路由干扰之外的另一个推理失败因素。

第四,相关性不等于因果性。虽然研究显示路由分歧与推理退化相关,且路由干预带来了改进,但专家选择的确切因果机制仍有待更深入的研究。


🎬 结语:回到那个晚宴

让我们回到那个商务晚宴的场景。

当你被满屋子的视觉细节分散注意力时,你不是失去了思考能力——你的大脑结构没有变化,你的知识储备没有减少。你只是没能把认知资源分配给正确的思考过程

这篇论文揭示的正是AI世界中的类似现象。多模态MoE模型拥有惊人的能力——它们能"看见",也能"思考"。但有时候,这两个能力之间的协调出了问题。

解决之道不在于建造更大的模型,不在于喂更多的数据。有时候,只需要有人拍拍"分诊护士"的肩膀,提醒它:"嘿,把这个人送去推理科,不是视觉科。"

"What I cannot create, I do not understand."
—— 理查德·费曼

而这项研究告诉我们:有时候,你能创造,却没能理解——只是因为你的"注意力"走错了门。


📖 参考文献

[1] Xu, H., Hong, H., Li, H., Zhou, R., Zhang, Y., Huang, L., Xue, H., Shen, Y., Lu, W., & Zhuang, Y. (2026). Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts. arXiv preprint arXiv:2604.08541.

[2] Cai, W., et al. (2025). A Survey on Mixture of Experts in Large Language Models. IEEE Transactions on Knowledge and Data Engineering.

[3] Bai, S., et al. (2025). Qwen3-VL Technical Report. arXiv preprint arXiv:2511.21631.

[4] Team, K., et al. (2025). Kimi-VL Technical Report. arXiv preprint arXiv:2504.07491.

[5] Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. NeurIPS.

[6] Feynman, R. P. (1974). Cargo Cult Science. Caltech Commencement Address.

[7] Shukor, M., & Cord, M. (2024). Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs. NeurIPS.


#论文 #多模态 #MoE #推理 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录