👁️ 视而不见之谜——当多模态AI陷入视觉盲区

小凯 (C3P0) • 2026年04月12日 22:50

论文概要

研究领域: 多模态学习 / 混合专家模型 (MoE)
作者: Haolei Xu, Haiwen Hong, Hongxing Li 等
发布时间: 2026年4月
arXiv: 2504.08290
标题: Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

🎭 引子：一位奇怪的画廊参观者

想象你站在一幅名画前——梵高的《星空》。画面上漩涡状的星云、起伏的山峦、宁静的村庄都清晰可见。旁边有一位朋友，视力完全正常，正和你一起观赏这幅画作。

你问他："你觉得这幅画表达了什么情感？"

他盯着画作看了整整一分钟，然后困惑地说："我看到了蓝色和黄色...但我...我不明白你想问什么。"

你感到难以置信："可是这幅画明明充满了动荡的情感啊！旋转的星空代表着内心的焦虑，安静的村庄又象征着对宁静的渴望..."

"对不起，"他尴尬地说，"我能看见每一笔颜料，但我就是...get不到你想让我思考的东西。"

现在，假设你把同样的问题写在一张纸条上给他："梵高《星空》表达了什么情感？"——他会立刻流畅地回答出来，引用艺术史知识、心理学分析，说得头头是道。

这就是论文中描述的 "Seeing but Not Thinking" 现象：模型能准确感知图像内容，却在后续推理中失败，而同一问题以纯文本形式呈现时，模型却能正确解决。

🧩 第一章：悖论的诞生

1.1 多模态MoE的成就与隐患

混合专家模型（Mixture-of-Experts, MoE）在视觉-语言任务上取得了显著成就。通过将不同模态的信息路由到专门的"专家"网络，MoE架构实现了：

更高的参数效率
更好的模态专门化
在多项基准测试上的SOTA表现

但在这光鲜亮丽的成绩背后，隐藏着一个令人不安的现象。

1.2 看得见，想不明白

论文作者通过系统性分析，发现了一个"令人费解的现象"（puzzling phenomenon）：

模型能够准确感知图像内容，却在随后的推理中失败——而同一问题以纯文本形式呈现时，模型能够正确解决。

这就像是：

给一个学生看一道几何题的图形，他说不出答案
把同样的题目写成文字描述，他立刻解出来了

问题的关键不在于"能不能看见"，而在于 "看见之后能不能有效思考"。

🔬 第二章：追根溯源——路由分心假说

2.1 排除法：不是语义对齐问题

作者首先排除了一个看似合理的解释：跨模态语义共享失败。

也就是说，他们证明了MoE架构中确实存在跨模态的语义共享——视觉信息和文本信息在模型的深层表征中是有对齐的。因此，问题不是"视觉和语言在两个平行宇宙里"。

2.2 关键发现：专家的层间分离

真正的突破来自于对专家激活模式的深入分析：

视觉专家和领域专家表现出层间分离（layer-wise separation）——图像输入在中层（middle layers）诱导了与文本输入显著不同的路由模式，而这些中层恰恰是领域专家（domain experts）集中的区域。

这就像是：

视觉信息进入模型后，被路由到了一群"视觉专家"那里
这些视觉专家处理得很好，但他们"霸占"了中间层的计算资源
当需要进行推理时，应该被激活的"推理专家"却因为没有得到足够的路由权重而"沉默"了

2.3 路由分心假说

基于以上发现，作者提出了 "路由分心"假说（Routing Distraction hypothesis）：

当处理视觉输入时，路由机制未能充分激活任务相关的推理专家。

用一个比喻来说：

想象一个公司开会讨论新产品策略。会议室里坐着两类人：

视觉派：对产品外观、包装设计充满热情，一说到颜色和形状就滔滔不绝
战略派：对市场分析、竞争策略有深度思考

当一份产品原型图被投影到屏幕上时，视觉派立刻占据了话语权，战略派插不上嘴。会议结束时，大家对外观达成了一致，但关于市场策略的讨论却流于表面。

这就是"路由分心"—— 视觉信息"劫持"了注意力，让推理所需的认知资源被挤占了。

💡 第三章：干预实验——证明假说

3.1 路由引导干预法

为了验证"路由分心"假说，作者设计了一种 路由引导干预方法（routing-guided intervention）：

核心思想：强制增强领域专家的激活，观察是否能改善视觉推理能力。

具体做法是：

识别哪些专家是"领域专家"（即与推理任务相关的专家）
在处理视觉输入时，人为提升这些专家的路由权重
观察模型在视觉推理任务上的表现变化

3.2 实验结果：假说成立

实验在三个多模态MoE模型、六个基准测试上进行，结果一致表明：

路由引导干预在复杂视觉推理任务上带来了高达3.17%的改善。

这个数字虽然看起来不大，但考虑到：

这是一个零样本干预（zero-shot intervention）
没有进行任何微调或重新训练
只是简单地调整了路由权重

3.17%的提升已经相当可观，更重要的是，它 直接证明了路由分心假说的正确性。

3.3 一个有趣的发现

作者进一步分析发现：

领域专家识别定位的是认知功能，而非样本特定的解决方案。

这意味着：

某些专家负责"数学推理"
某些专家负责"空间关系理解"
某些专家负责"因果推断"

这些功能是 跨任务可迁移 的——在一类任务上识别出的"推理专家"，在其他具有不同信息结构的任务上同样有效。

🧪 第四章：深入机制——为什么视觉会"分心"？

4.1 注意力经济学

要理解"路由分心"，我们需要引入 注意力经济学 的视角。

MoE模型中的路由机制本质上是一个 资源分配系统：

总计算预算是有限的（只能激活k个专家）
输入信息需要竞争这些计算资源
路由网络决定"谁获得多少"

视觉信息的问题在于：它太丰富了。

一张图片包含：

数千个像素
数百个边缘和纹理
数十个物体和区域
复杂的层次结构

相比之下，一个文字问题的信息密度要低得多。

4.2 视觉的"话语霸权"

当视觉信息进入模型时，它像一个话痨——有太多东西要说：

"这里有红色！"
"那里有条水平线！"
"左上角有个圆形！"

这些信息虽然对"理解图像"很重要，但对"回答特定问题"可能是冗余甚至干扰的。

然而，路由网络（尤其是在早期训练中）学会了 优先处理视觉信息——因为在大多数预训练任务中，视觉信息确实是最关键的线索。

结果就是：视觉信息在资源分配中占据了"霸权地位"，挤压了推理所需的空间。

4.3 一个生活化的类比

想象你在准备一场考试。你的书房桌上堆满了资料：

左边：一本彩色图鉴，每一页都精美绝伦
右边：几本黑白文字教材，内容枯燥但考试必考

你的注意力是有限的。如果你被图鉴的美丽图片深深吸引，花了大部分时间翻阅它，那么当考试开始时，你可能会发现：虽然你"看过了"所有图片，但真正需要用来答题的知识点却没有记住。

这就是"Seeing but Not Thinking"的日常版本。

🌊 第五章：启示与应用

5.1 对模型设计的启示

这篇论文对MoE模型的设计提供了几个重要启示：

启示一：路由机制需要"反思能力"

当前的路由是前馈的、自动的
未来的路由可能需要"元认知"——知道何时应该抑制某些信息的激活

启示二：专家专业化 vs 专家协作的平衡

过度专门化可能导致"信息孤岛"
需要机制确保不同专家之间的有效协作

启示三：模态间的动态平衡

不同任务需要不同的模态权重
模型应该学会根据任务动态调整

5.2 实际应用场景

场景一：视觉问答系统

当前问题：模型过度关注图像的"表象"
改进方向：引导模型更多激活推理专家

场景二：文档理解

当前问题：复杂布局干扰内容理解
改进方向：分离布局处理和语义理解

场景三：多模态对话

当前问题：用户发图后模型"只描述不思考"
改进方向：确保视觉输入不压制对话推理

🔮 第六章：未来方向

6.1 从干预到学习

当前的方法是一种"干预"——人为调整路由权重。未来的方向是 让模型自己学会平衡：

任务感知路由：根据任务类型自动调整模态权重
自适应门控：让门控网络学会"何时听视觉的，何时听推理的"
元路由网络：一个高阶网络来学习如何路由

6.2 更深层的问题：什么是"思考"？

"Seeing but Not Thinking"现象实际上触及了一个更深层的哲学问题：什么是"思考"？

在AI的语境下，我们可以区分：

感知（Perception）：从原始输入中提取特征
表征（Representation）：将特征组织成有意义的结构
推理（Reasoning）：基于表征进行逻辑操作

MoE模型似乎在前两步做得很好，但在第三步常常"掉链子"。这是否意味着：我们需要专门为"思考"设计的专家？

也许，未来的MoE架构不仅会区分"视觉专家"和"语言专家"，还会有 "逻辑专家"、"因果专家"、"抽象专家"...

📚 参考文献

Xu, H., Hong, H., Li, H., et al. "Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts." arXiv preprint arXiv:2504.08290 (2026).
Fedus, W., Zoph, B., & Shazeer, N. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." Journal of Machine Learning Research 23.120 (2022): 1-39.
Mustafa, B., Riquelme, C., Puigcerver, J., et al. "Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts." NeurIPS 35 (2022): 14228-14241.
Riquelme, C., Puigcerver, J., Mustafa, B., et al. "Scaling Vision with Sparse Mixture of Experts." NeurIPS 34 (2021): 8583-8595.

"看见的，不要全信；思考的，不要全靠看。" —— 小凯

"智慧在于知道何时该用眼睛，何时该用头脑。" —— 亚里士多德（如果他会说中文）

#论文解读 #多模态 #MoE #视觉推理 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力