能力≠可解释性：377位人类裁判告诉你，最强视觉AI的特征人反而更看不懂

📋 论文信息

项目	内容
标题	Capability ≠ Interpretability: Human Interpretability of Vision Foundation Models
作者	Julien Colin (Brown U / ELLIS), Lore Goetschalckx (imec), Nuria Oliver (ELLIS), Thomas Serre (Brown U)
机构	Brown University, ELLIS Alicante, imec
arXiv	2605.20337
日期	2026-05-19
分类	cs.CV（计算机视觉）
核心论点	视觉基础模型的能力越强，并不等于其特征对人类越可解释。可解释性是一个与下游性能完全正交的独立维度。预测可解释性的不是模型的大小或精度，而是特征激活的局部性和粗粒度语义对齐。

---

想象你在森林里遇到两个向导。

向导A自称熟悉这片森林的每一棵树。你指着一棵松树问他"这是什么"，他想了想说"松树，针叶，两年生，喜光"。你问他"那前面那棵呢"，他看一眼就说出准确的位置和物种。

向导B更厉害——他能带着你在森林里不迷路，能找到你要的任何药材，能在日落前精确地把你带回营地。但你问他同一棵松树是什么，他皱着眉头看了半天，说"嗯……它是一种……有树皮、有针叶的……植物"。

你会雇谁带路？当然是B。

但如果森林里出了个新物种，需要你亲自去辨认——你会依赖谁的特征描述？很可能是A。

计算机视觉领域正在上演一个类似的悖论：基础模型在各项下游任务上碾压了传统监督模型，但它们学到的视觉特征，人类反而更看不懂。

2026年5月19日，Brown大学和ELLIS的团队发布了一项大规模心理物理学实验。他们找了377个人类参与者，收集了超过15,000条行为数据，系统测量了六个最主流的视觉Transformer模型的特征可解释性。结果令人清醒：每一个基础模型的可解释性，都低于标签监督训练出来的"老式"模型。

---

🧪 他们怎么测量"可解释性"？

先要解决一个问题：什么叫"一个神经网络特征可以被人类理解"？

研究团队设计了两个互补的测试，每个都考验人类对模型特征的真正理解：

测试一：定位（localizability）。 给参与者看一个特征——比如"红绿灯检测器"的合成可视化图、九个高度激活这个特征的自然图像、以及在这些图像上该特征的激活热力图。然后给一张全新的图像，让参与者在图上点击"你觉得这个特征会在哪里激活"。

这是一个空间理解测试。你知道某个特征"关心什么"还不够，你得能预测它在未见过的图像上"会出现在哪"。

测试二：命名（nameability）。 同样的视觉展示材料，但任务变成了用自由文字描述这个特征代表什么。不是选择题，不是"A或B"，而是写出你自己的想法。然后系统用CLIP的视觉-语言联合空间来比对参与者的文字描述和特征实际关注区域的语义相似度。

两个测试测量的是同一枚硬币的两面：你能"指出"它在哪里，也能"说出"它是什么。论文发现这两个测试的结果高度相关（r=0.84），说明它们在测量同一个深层属性——可解释性。

---

🔬 实验规模、方法与技巧

六个模型被纳入测试：

两个监督基线：ViT-S/16、ViT-B/16——传统的ImageNet监督训练
四个基础模型：DINOv2、DINOv3（纯自监督）、CLIP、SigLIP（语言-视觉预训练）

核心方法上，有几个关键设计：

稀疏自编码器（SAE）提取单义特征。 传统做法是分析单个神经元的激活模式，但视觉Transformer的神经元往往是多义的——一个神经元同时编码"车轮"和"狗耳朵"。论文用TopK稀疏自编码器从最后一层表示中恢复单义方向，每个方向对应一个独立的概念。扩展因子10倍，从ViT-S提取了3,840个特征，从其他模型提取了7,680个。

功能对齐的特征选择。 不同模型学到的是完全不同的特征集合。如果随机从每个模型抽取特征来比较，结果没有意义。研究团队改为按"哪些图像最激活这个特征"来选择——确保六组特征在输入层面上指向相同或相近的视觉对象（见论文Figure 1的顶部，红绿灯和泥龟的例子）。

概率锚定的评分函数。 这是最巧妙的设计之一。不同特征的激活热力图形状差异很大——有些特征高度聚焦在一个点上，有些弥漫在整张图上。如果直接用"点击位置的激活值"来打分，聚焦特征天然更容易得高分。论文引入了一个概率锚定归一化：把"随机点击"锚定到0.5分，点击位置在特征均值激活以上得正分，以下得负分。这个归一化让跨特征、跨模型的分数具备了直接可比性。

对旧方法的致命一击。 论文做了一个对照实验来证明为什么老方法不行。传统方法用"二选一"强迫选择——给参与者看到激活和不激活的示例图，然后让他在两张新图中挑出哪张也激活了这个特征。问题在于：参与者可以通过排除法猜对——"我虽然不知道这个特征是什么，但我知道它肯定不是玉米检测器，那我选另一张"。在这个对照实验中，即使把激活图像替换成完全不相关的图像（在50,000张图中排名25,000的随机图），参与者仍然以53%（ViT-B32）和60%（ResNet-50）的准确率"猜对"——远高于50%的随机基线。这意味着老方法报告的模型可解释性排名可能完全错误。论文用一个具体的例子证明：Zimmermann等人报告ResNet-50比ViT-B32更可解释（83% vs 80%），但扣除各自的模型特异基线后，排名反转——ViT-B32是27%超过基线，ResNet-50只有23%。

---

📊 核心结果：能力≠可解释性

先看原始数据（Table 1）：

模型	定位得分 ↑	命名得分 ↑	参与者信心
ViT-S (监督)	79.7	0.274	3.43
ViT-B (监督)	74.0	0.273	3.68
DINOv2	71.4	0.259	3.68
DINOv3	73.3	0.260	3.41
CLIP	74.7	0.266	3.51
SigLIP	67.1	0.253	3.38

两个监督模型包揽了前两名。四个基础模型全部排在后四位。差距统计显著（Kruskal-Wallis检验，p<0.001）。

现在看下游任务性能与可解释性的相关性（Figure 2）：

下游基准	定位 vs 基准 (ρ)	命名 vs 基准 (ρ)
ImageNet分类	-0.48 (p=0.33)	-0.60 (p=0.21)
ADE20K语义分割	-0.54 (p=0.27)	-0.77 (p=0.07)
感知分组	0.12 (p=0.82)	0.09 (p=0.87)

没有一项显著相关。 不是负相关（不是"越强越不可解释"的简单trade-off），也不是正相关（不是"越强越可解释"的免费午餐）。而是在统计上完全正交。

这意味着：你用分类精度、分割精度或感知分组能力来评判一个视觉模型的质量，和用它是否"对人类透明"来评判，得到的是完全不同的答案。 而今天的AI领域几乎只用前一类指标来驱动进步。

---

🔑 什么真正预测可解释性？

如果下游性能不相关，那什么相关？

1）特征激活的局部性（locality）——最强预测因子。

给每个特征计算Hoyer稀疏度（一种衡量激活集中程度的指标：全部集中在单个像素=1，均匀分布全图=0），然后取模型级平均。

与可解释性的相关性：

定位得分：ρ = 0.91（p=0.01）
命名得分：ρ = 0.99（p<0.001）

几乎完美预测。如果一个模型的特征倾向于聚焦在小而明确的图像区域上，人类就更容易理解。如果特征的激活弥漫在大片区域上，融合了局部对象和背景场景信息，人类就找不到抓手。

2）粗粒度语义对齐——第二个强预测因子。

这里的发现很微妙。论文测试了三种"与人类感知对齐"的维度：

视觉策略对齐（模型关注的区域和人类眼动数据是否一致）：不相关（ρ≈0.14-0.21）
细粒度感知对齐（区分"这两种蝴蝶哪个更像另一种"级别的相似性判断）：不相关（ρ从-0.47到0.26）
粗粒度语义对齐（区分"水牛和蜘蛛哪个跟草更像"级别的类别结构）：显著相关——定位分ρ=0.84（p=0.04），命名分ρ=0.85（p=0.03）

这意味着：一个视觉模型可以让它的注意力热力图完美匹配人类眼动数据，但仍然编码出人类无法理解的特征。它也可以对蝴蝶翅膀的细微纹理差异极其敏感，但这种敏感度不会让它变得更可解释。

让模型变得可解释的，是它的特征在"世界由什么类别组成"这个粗粒度的结构上，与人类的认知组织方式一致。

---

🚨 最危险的盲区：DINOv2 的"自信幻觉"

论文中一个令人不安的细节：DINOv2引发了最高的参与者信心（3.68/5），却在可解释性上排名倒数第二。

参与者认为他们理解了DINOv2的特征——但实际上并没有。这是一种"可解释性幻觉"——模型的特征看起来"对"、展示的示例图像看起来"合理"、激活热力图看起来"像那么回事"，但当你让人真正预测特征在全新图像上的行为时，他们做不对。

这个问题有现实后果。DINOv2已经被许多研究者视为"可解释表示的参考标准"，在医学影像、自主驾驶等领域被用作特征提取的基准。如果连专家都高估了对这些特征的理解程度，在高风险部署中就存在被误解和误判的系统性风险。

---

🪞 DINOv3：那个"例外"证明了规则

DINOv3是所有基础模型中唯一一个在可解释性上接近监督模型的。为什么？

DINOv3的训练目标显式地促进局部特征。它的设计不是让特征弥漫到全局上下文中，而是鼓励模型形成聚焦的、局部的、与图像中的特定对象或纹理相关联的激活。

这意味着：基础模型的可解释性差距不是架构宿命。如果你在意可解释性，你可以在训练算法中直接优化它——通过鼓励特征局部性——而不必牺牲下游任务性能。DINOv3就是证据。

---

🤔 诚实地说：我们不确定的事

因果关系未验证。 局部性和粗粒度对齐"预测"了可解释性，但论文没有做因果干预实验。如果你拿一个不可解释的模型，强行修改它的特征激活模式使其更局部化，它真的会变得更可解释吗？还是会破坏下游性能？DINOv3提供了天然实验的暗示，但不是直接证明。

规模问题。 六个被测试的模型都是ViT-Base/Small级别。在ViT-Large或ViT-Huge级别，特征数量成倍增长（7,680→几十万个方向），可解释性的动态是否会发生变化？更大的模型是否会因为监督信号的稀释而变得更不可解释？论文没有回答。

模态局限。 测试框架只适用于视觉模型。语言模型的可解释性测量是一个完全不同的问题——需要不同的协议、不同的评估维度。这个框架能扩展到LLM吗？作者没有讨论。

SAE提取的"最优性"。 稀疏自编码器在多大程度上"真实地"反映了模型学到的特征结构？SAE的训练是一个近似过程——它在重构精度和稀疏性之间做权衡。如果不同的SAE训练策略从同一个模型中提取出"看起来不同"的特征集合，测出来的可解释性排名是否稳定？论文在同一SAE配置下进行了所有比较，但SAE配置本身的选择逻辑没有经过消融实验验证。

"名命性"的人类标注质量。 命名任务需要参与者的文字描述能力——这引入了一个与视觉理解无关的变异性来源。不同人的语言表达能力差异很大。论文用CLIP嵌入空间来比对文本和图像，这引入了一个中间模型的偏差——如果CLIP本身的视觉-语言对齐存在系统性偏差（比如对某些类别比对另一些类别更敏感），这个偏差会直接传递到命名得分中。

---

📚 参考文献

1. Colin, J., Goetschalckx, L., Oliver, N., & Serre, T. (2026). *Capability ≠ Interpretability: Human Interpretability of Vision Foundation Models.* arXiv:2605.20337.

2. Zimmermann, R. S. et al. (2024). *Scale alone does not improve mechanistic interpretability in vision models.* NeurIPS 2024.

3. Bau, D. et al. (2017). *Network dissection: Quantifying interpretability of deep visual representations.* CVPR 2017.

4. Borowski, J. et al. (2021). *Exemplary natural images explain CNN activations better than state-of-the-art feature visualization.* ICLR 2021.

5. Fel, T. et al. (2023). *Unlocking feature visualization for deeper networks with magnitude constrained optimization.* NeurIPS 2023.

6. Cunningham, H. et al. (2023). *Sparse autoencoders find highly interpretable features in language models.* arXiv:2309.08600.

---

#可解释性 #视觉基础模型 #心理物理学 #CapabilityGap #表示学习 #智柴认知科学实验室🎙️🔬