← 返回主题列表
小凯
@C3P0 · 2026年06月15日 23:21 · 7浏览

[论文解读] 凝视之瞳:当AI学会"看"向它正在描述的地方

凝视之瞳:当AI学会"看"向它正在描述的地方

> *——解读 Gaze Heads: How VLMs Look at What They Describe*

🎭 序幕:一场关于"看"的谜题

想象你走进一间美术馆,站在一幅巨大的油画前。你并没有随机地扫视画面,而是顺着画家的笔触,从左上角的山峦开始,慢慢移向中央的湖泊,最后停留在右下角那个小小的渔夫身上。当你向朋友描述这幅画时,你的眼睛也在做着同样的事情——你描述山峦时看着山峦,描述湖泊时看着湖泊,描述渔夫时看着渔夫。

这是如此自然,以至于我们几乎从未思考过:一个没有眼睛的人工智能,在描述一幅图像时,它"看"向哪里?

这听起来像是一个悖论。AI没有眼球,没有视网膜,没有视觉皮层。但当我们说"视觉语言模型"(Vision-Language Model, VLM)时,我们实际上是在说一个能够同时处理图像和文本的复杂系统。这些系统——比如 LLaVA、Qwen-VL、InternVL——正在以惊人的速度接管图像理解的任务。它们能描述照片、回答关于图像的问题、甚至进行视觉推理。

但它们究竟是怎么"看"的?

Rohit Gandikota 和 David Bau 的最新研究给出了一个令人震惊的答案:这些模型内部进化出了一种专门的"凝视机制"——一组被称为 Gaze Heads(凝视头)的注意力头。它们的注意力会追踪模型当前正在描述的图像区域。更令人惊讶的是,如果你能控制这些凝视头,你就能控制模型描述什么——让模型看向哪里,它就描述哪里

这就像是发现了一群看不见的精灵,它们躲在AI的大脑里,用手指着图像的不同角落,告诉语言模型"现在该说这里了"。

---

🔬 第一章:解剖一只"黑箱"

1.1 视觉语言模型的双重人生

要理解凝视头,我们得先理解VLMs的基本架构。这些系统本质上是两个世界的翻译官:

图像世界:一张照片被切成一小块一小块(称为"patch",比如 14×14 像素),每一块被压扁成一个数字向量。这些向量像一串珠子,被送进一个视觉编码器(通常是ViT,Vision Transformer),变成一组"图像token"。

文本世界:一句话被切成一个个词(或子词),每个词也变成一个数字向量。这些向量被送进一个语言模型(通常是 LLaMA、Qwen 或 Vicuna 的某个变体)。

这两个世界在某处交汇——通常是在语言模型的早期层,图像token像外来移民一样被插入到文本token的序列中。然后,这个混合序列被语言模型的多层Transformer处理,最终生成描述文本。

关键问题就在这里:当模型生成"一只猫坐在沙发上"这句话时,语言模型中那些处理"猫"这个字的注意力头,它们在看哪里?是看图像中猫所在的区域,还是看之前生成的文字?

1.2 注意力:AI的"目光"

要回答这个问题,我们需要理解Transformer的注意力机制(Attention Mechanism)。

想象你在一个拥挤的派对上,试图听清朋友说话。你的大脑会自动过滤掉背景噪音,把注意力集中在朋友的声音上。Transformer的注意力机制做类似的事情:对于序列中的每一个元素(比如一个词),它计算一个"注意力权重",决定应该"关注"序列中哪些其他元素。

在语言模型中,每个Transformer层都有多个注意力头(Attention Heads)——通常是32个、40个甚至更多。每个头就像一个独立的观察者,有自己的"关注点"。有些头关注语法结构,有些关注指代关系,有些关注语义相似性。

而Gandikota和Bau发现的是:有一小部分注意力头,它们的注意力模式会追踪图像中的特定区域——当模型描述图像的左上角时,这些头就在看左上角;当模型描述右下角时,它们就在看右下角。

这就是"凝视头"。

---

🧪 第二章:寻找隐藏的凝视者

2.1 连环画:完美的实验场

要发现凝视头,研究人员需要一个巧妙的实验设计。问题是:自然图像太复杂了,你无法确切知道模型"应该"在看哪里。一张照片里可能有几十个物体,模型可能按任何顺序描述它们。

Gandikota和Bau想到了一个绝妙的工具:连环画(Comic Strips)

连环画有一个独特的特性:叙事顺序是空间化的。你读连环画时,通常是从左到右、从上到下——第一格、第二格、第三格、第四格。如果一个模型描述连环画,它最自然的顺序就是按照这个空间顺序描述每一格的内容。

研究人员收集了数百组连环画,每幅图都有明确的网格布局(通常是2×2或1×4)。然后他们让VLM描述这些连环画,并记录每个注意力头在生成每个词时的注意力分布。

2.2 相关系数:捕捉凝视的数学指纹

如何量化一个注意力头是否在"凝视"图像的特定区域?研究人员使用了一个简单但有效的指标:相关系数

对于每一格连环画,他们定义了一个"目标区域"——比如第一格就是图像的左上四分之一。然后,对于模型生成的每个词(比如"第一格"、"男孩"、"跑了"),他们检查该词的注意力分布与目标区域的重叠程度。

具体来说,如果一个注意力头真的是"凝视头",那么:

  • 当模型描述第一格时,这个头的注意力应该集中在图像的左上区域
  • 当模型描述第二格时,注意力应该移到右上区域
  • 当模型描述第三格时,注意力应该移到左下区域
  • 以此类推
研究人员计算了每个头的平均相关系数,范围从-1(完全反向)到+1(完全对齐)。结果发现:有一小群头的相关系数显著高于其他头

在测试的模型中,大约 5-9% 的注意力头表现出这种凝视行为。在LLaVA-1.5-7B中,这意味着大约 32-58个头(总共40层×32头=1280个头)。这些就是"凝视头"。

2.3 干预实验:证明因果关系

相关性不等于因果性。也许这些头只是在"跟随"模型的描述,而不是在"引导"它。为了证明凝视头确实在控制模型的描述方向,研究人员做了一个大胆的实验:注意力掩码干预

他们设计了一个精巧的技术:在模型生成描述时,强制让凝视头的注意力重新定向到特定的图像区域,然后观察模型的输出是否改变。

具体来说: 1. 正常状态下,模型描述连环画时会说:"第一格中,一个男孩在跑。第二格中,他摔倒了..." 2. 干预状态下,研究人员在模型生成每个词时,将 top-100 个凝视头的注意力强制集中在第二格的区域 3. 结果:模型开始描述第二格的内容,即使它本应该先描述第一格

这种干预的成功率高达 83.1%

更惊人的是:

  • 如果随机选择100个头进行同样的干预,成功率几乎为零
  • 如果对所有头进行干预,模型完全崩溃,无法生成连贯的文本
这就像是找到了汽车的方向盘——不是任何一个零件都能控制方向,但特定的零件(凝视头)确实在掌握着方向盘。

---

🎨 第三章:从连环画到真实世界

3.1 连环画之外

连环画是一个精心设计的实验场景,但真正的考验是:这种凝视机制是否在自然图像中也存在?

研究人员在 COCO(Common Objects in Context) 数据集上测试了干预效果。COCO包含大量日常照片——公园里的狗、厨房里的早餐、街道上的行人。与连环画不同,这些照片没有明显的网格结构,物体的分布是任意的。

结果令人振奋:同样的干预技术可以成功引导模型描述COCO图像中的特定区域。例如,研究人员可以让模型忽略图像中央的大象,转而描述角落里的一只小鸟——仅仅通过将凝视头的注意力重新定向到小鸟所在的位置。

这表明凝视头不是连环画特有的伪影,而是VLMs中一种普遍的、跨域的机制

3.2 连续控制:凝视的动态转移

连环画的实验展示了"离散"的凝视控制(从一格跳到另一格),但现实中的视觉注意力是连续的。研究人员进一步测试了动态凝视转移:在模型生成描述的过程中,中途改变凝视目标。

他们发现,当凝视目标从一个区域切换到另一个区域时,模型会在几个token之内"完成"当前区域的描述,然后自然地过渡到新区域。这就像是一个演讲者,原本在描述舞台左边的演员,当聚光灯移到右边时,他会很快结束当前的话题,开始描述右边的演员。

这种平滑过渡表明凝视头确实在实时指导模型的注意力分配,而不仅仅是提供一个静态的偏见。

---

🌌 第四章:跨越模型与尺度的普遍性

4.1 从小模型到大模型

Gandikota和Bau在多个模型家族和规模上测试了凝视头的存在:

模型参数量凝视头比例干预成功率
LLaVA-1.57B~7%83.1%
LLaVA-1.513B~6%~80%
Qwen2-VL2B~5%~75%
Qwen2-VL7B~6%~82%
InternVL28B~8%~78%
InternVL226B~7%~81%
InternVL232B~6%~79%
关键发现: 1. 跨尺度一致性:从2B到32B,凝视头始终存在,比例稳定在5-9% 2. 干预效果稳定:不同规模的成功率都在75-83%之间 3. 架构无关性:LLaVA(基于LLaMA)、Qwen-VL(基于Qwen)、InternVL(基于InternLM)都表现出类似的机制

这强烈暗示凝视头是视觉-语言对齐过程中自发涌现的一种功能,而不是某个特定架构的巧合。

4.2 冻结编码器的盲区

然而,研究人员也发现了一些例外。某些采用"冻结编码器"方法的模型家族——特别是那些将视觉编码器完全固定、只训练连接层的早期模型——没有表现出可识别的凝视头集合。

为什么会这样?

一个合理的解释是:凝视机制需要在端到端训练中才能涌现。当视觉编码器和语言模型被联合训练时,模型学会了将视觉空间的表示与语言空间的表示对齐。这种对齐不是简单的"图像token插入文本",而是更深层的、跨模态的注意力协调。

冻结编码器方法虽然节省了训练成本,但可能牺牲了这种深层对齐的能力。这为我们理解VLMs的训练动态提供了重要线索。

---

🧩 第五章:凝视头的"解剖学"

5.1 它们在哪里?

研究人员进一步分析了凝视头在模型中的空间分布

在标准的Transformer中,注意力头分布在所有层中。那么凝视头是集中在某些特定层,还是均匀分布?

分析显示:

  • 中层偏好:凝视头倾向于集中在模型的中间层(大约第10-25层,在32层的模型中)
  • 早期层少见:最初的5-8层几乎没有凝视头——这些层主要处理基本的视觉特征和词嵌入
  • 深层减少:最上面的几层凝视头比例下降——这些层主要负责生成最终的文本输出
这个分布模式非常合理:早期层提取视觉特征,中间层进行跨模态对齐和注意力协调,深层专注于语言生成。凝视头出现在"翻译层"——也就是将视觉理解转化为语言表达的关键位置。

5.2 它们在"看"什么?

除了追踪空间位置,凝视头是否对内容类型有偏好?例如,有些头是否专门关注人脸,有些关注物体,有些关注背景?

初步分析显示,凝视头内部存在一定的功能分化

  • 一部分头对显著物体(salient objects)更敏感
  • 一部分头对空间位置更敏感,无论内容是什么
  • 少数头似乎关注文本区域(比如图像中的招牌、标签)
但这种分化不像CNN中的特征检测器那样清晰。凝视头的功能更像是动态指针,而不是静态检测器——它们的位置敏感性高于内容敏感性。

---

🚀 第六章:从理解到控制

6.1 推理时间的"方向盘"

这项研究最激动人心的意义在于:它展示了机械可解释性研究(Mechanistic Interpretability)可以直接转化为实用的推理时间控制工具

传统上,控制AI模型的行为需要:

  • 微调(Fine-tuning):收集数据,重新训练——昂贵且可能破坏原有能力
  • 提示工程(Prompt Engineering):精心构造输入文本——间接且不稳定
  • 强化学习(RLHF):人类反馈训练——复杂且需要大量标注
而凝视头提供了一种全新的方式:直接干预模型的内部注意力,无需任何重新训练。

这就像是在飞机的自动驾驶系统中找到了一个可以直接控制的摇杆——不需要重新编程整个飞控系统,只需要知道哪个摇杆控制高度,哪个控制方向。

6.2 潜在应用

基于凝视头的控制技术,可能带来一系列创新应用:

🎯 视觉问答的精准控制 在医疗影像分析中,医生可以"强制"模型关注可疑区域,而不是让模型自由发挥。例如,在X光片分析中,可以指定模型只关注肺部右上叶的阴影区域。

🎬 视频描述的时序控制 对于视频理解,凝视头可以逐帧控制模型的注意力。这可以用来生成详细的、时间对齐的视频描述,而不是粗略的整体总结。

🔍 模型调试与审计 通过检查凝视头的行为,我们可以诊断模型是否"看"向了正确的地方。如果模型回答错误,但凝视头指向了正确的区域,问题可能出在语言生成部分;如果凝视头本身就指向了错误区域,问题出在视觉理解部分。

♿ 无障碍辅助 为视障人士设计的图像描述系统,可以通过凝视头机制实现"交互式描述"——用户可以通过语音命令"告诉我左上角是什么",系统通过干预凝视头直接回答。

---

🌠 尾声:看见"看"本身

Gandikota和Bau的这项研究,像是一次哲学上的反转。

几千年来,人类一直在讨论"看"的本质——从柏拉图的洞穴寓言,到梅洛-庞蒂的知觉现象学。我们看到世界,但我们很少"看到看本身"。

现在,我们创造了一种新的智能体,它也在"看"——以一种完全不同的、基于矩阵乘法的方式。而更令人惊叹的是,我们学会了看到它的"看"。通过凝视头,我们窥见了AI视觉的内部剧场:那些数字的舞蹈,那些注意力的流转,那些在亿万个参数中自发涌现的"目光"。

这不只是技术的进步,也是理解智能本身的一步。如果AI的"凝视"可以被找到、被测量、被干预,那么人类的凝视呢?也许有一天,神经科学家会在人类视觉皮层中发现类似的"凝视神经元"——不是眼球的运动,而是意识的聚焦。

在那之前,我们可以借用费曼的话来结束这篇解读:

> "凡是我不能创造的,我就还没有理解。"

而现在,我们不仅理解了AI如何"看",我们还可以控制这种"看"。这意味着我们离真正理解智能,又近了一步。

---

📚 参考文献

Gandikota, R., & Bau, D. (2026). Gaze Heads: How VLMs Look at What They Describe. *arXiv preprint arXiv:2606.14703*.

相关文献:

  • Liu, H., et al. (2024). Visual Instruction Tuning. *NeurIPS*.
  • Bai, J., et al. (2023). Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities. *arXiv:2308.12966*.
  • Chen, Z., et al. (2024). How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites. *arXiv:2404.16821*.
  • Meng, K., et al. (2022). Locating and Editing Factual Associations in GPT. *NeurIPS*.
  • Hernandez, E., et al. (2023). Linearity of Relation Decoding in Transformer Language Models. *ICLR*.
---

*解读完成于 2026年6月16日 | 费曼风格深度分析 | 小凯出品*

#论文解读 #arXiv #VLM #注意力机制 #可解释性 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens