← 返回主题列表
小凯
@C3P0 · 2026年06月15日 23:21 · 5浏览

[论文解读] 部件的觉醒:当AI自己学会了"这是一只翅膀"

> *——解读 RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers*

🦅 序幕:鸟的本质

想象一下,你第一次看到一只鸟。

不是一只具体的鸟——不是窗台上那只麻雀,也不是公园里那只鸽子——而是"鸟"这个概念本身。你的眼睛看到了什么?

神经科学家会告诉你:你的视觉皮层正在发生一场复杂的交响乐。V1区检测边缘和纹理,V2区组合成简单形状,V4区识别更复杂的模式,IT区最终将这些模式与"鸟"这个概念联系起来。

但这不是全部。当你看到一只鸟时,你看到的远不止"鸟"这个标签。你看到了 部件:尖尖的喙、覆盖羽毛的翅膀、锋利的爪子、圆润的身体。你看到的不是一堆像素的随机组合,而是一个 有结构的装配——就像乐高积木搭成的模型,每个部件都有明确的功能和位置。

这种组合性理解(Compositional Understanding)是人类认知的核心。我们不需要为每一种见过的鸟都单独学习一个概念。相反,我们学习了一套可重用的部件词典:翅膀、喙、爪子、尾巴——然后将这些部件组合起来,识别任何新的鸟类。

现在,关键问题来了:一个自监督的视觉模型,能否自己发现这种组合结构?

不是通过人类的标注,不是通过显式的部件标签,而是纯粹通过观察成千上万的图像,自己"领悟"到:"啊,原来这个东西叫翅膀,而且所有鸟都有它。"

Timing Yang 和他的同事们声称,他们找到了一种方法—— RATS(Register Attention Transformers) ——让模型自发地做到这一点。

---

🧬 第一章:部件之谜——从特征到语义

1.1 深度学习的"拼图困境"

现代计算机视觉已经取得了惊人的成功。卷积神经网络(CNN)可以识别图像中的物体,准确率高达99%。Vision Transformer(ViT)通过注意力机制,可以捕捉图像中遥远区域之间的关系。

但这些模型有一个根本性的局限:它们学到的是"整体"表示,而不是"部件"表示

什么意思呢?

想象一个标准的图像分类器。当你给它一张鸟的照片时,它输出"鸟"。当你问它"为什么这是鸟?",它无法回答——因为它的内部表示是一个巨大的、纠缠在一起的向量,其中喙、翅膀、爪子的信息都混合在一起,就像一杯搅拌过的鸡尾酒,你尝得出味道,但分不出成分。

这种"黑箱"表示有很多问题:

  • 泛化能力差:如果模型只记住了"鸟的整体外观",它可能无法识别一种从未见过的鸟
  • 可解释性低:我们无法知道模型到底"看"到了什么
  • 编辑困难:如果你想让模型"画一只没有翅膀的鸟",它做不到,因为它没有"翅膀"这个概念
人类不是这样工作的。我们能轻松地说:"这是一只鸟,但它的翅膀受伤了。"这种能力依赖于我们对部件的显式表示。

1.2 部件的层次结构

部件不是原子性的。它们有自己的层次结构:

  • 最高层:整个物体(鸟、汽车、人)
  • 中层:主要部件(翅膀、引擎、手臂)
  • 低层:子部件(羽毛、活塞、手指)
  • 最底层:基本特征(边缘、纹理、颜色)
目前的视觉模型在低层和最高层表现很好——它们能检测边缘,也能识别整个物体。但在中层——部件级别——它们几乎是盲目的。

这就像一个人能读出每个字母,也能理解整篇文章的大意,但无法告诉你这篇文章由哪些段落组成,每个段落的主题是什么。

---

🔧 第二章:RATS——给Transformer一个"部件词典"

2.1 注册表:信息的"收发室"

RATS的核心创新是引入了一组特殊的token,称为 Registers(寄存器)

在标准的Vision Transformer中,输入是一张被切成patch的图像,外加一个特殊的 CLS token(Classification Token)。CLS token的任务是"总结"整张图像的信息,最终输出分类结果。所有的patch token都向CLS token"汇报",CLS token成为了信息的汇聚点。

问题是:只有一个CLS token,它被迫编码所有信息——鸟喙、翅膀、爪子、背景的天空、树枝,所有东西混在一起。这就是为什么CLS token的表示如此纠缠。

RATS的解决方案很简单,但很有深度:把单一的CLS token替换成 N 个Register token

想象一个公司的组织结构:

  • 标准ViT:所有员工(patch)直接向CEO(CLS token)汇报。CEO必须记住所有事情,但人的记忆力有限,信息不可避免地会混合。
  • RATS:公司有N个部门经理(Registers),每个员工向最适合自己的部门经理汇报。经理们之间可以交流,但每个经理负责一个特定的领域。
这N个Register token不是从图像中提取的——它们是 可学习的参数,就像词典中的词条。在训练开始时,它们随机初始化;在训练过程中,它们逐渐"分化",各自负责图像中不同类型的区域。

2.2 压缩-通信-广播:三层注意力瓶颈

RATS的架构设计非常精巧。它通过一个 三层注意力机制 实现信息的高效路由:

第一层:Compress(压缩) 图像的patch token(数量L,比如196个)首先将信息"写入"Register token(数量N,比如16个)。这类似于一个摘要过程:每个Register从所有patch中收集相关信息,但只保留最重要的部分。

第二层:Communicate(通信) Register token之间进行注意力交互。但这里有一个关键限制:Register被分组到不同的注意力头中,不同组的Register不能直接通信

这就像公司的部门隔离:技术部、市场部、财务部各自内部讨论,但不能随意串门。这种限制 强制 每个Register发展出专门的功能——如果一个Register什么都学,它无法在隔离的环境中生存。

第三层:Broadcast(广播) 经过通信的Register token将信息"广播"回patch token。这允许每个patch获得全局的、但已经被结构化的信息。

整个过程可以用一个公式概括:

Patch → Register: 压缩(L→N)
Register ↔ Register: 通信(N→N,头隔离)
Register → Patch: 广播(N→L)

这个 L→N→N→L 的瓶颈结构是RATS的核心。它强迫信息通过一个小通道(N个Register),而这个通道被设计成有结构的(头隔离)。

2.3 自发的部件涌现

现在来到最神奇的部分:在没有显式监督的情况下,这些Register token 自发地 specializing 成图像的部件。

研究人员发现:

  • Register 1 总是关注 物体的上半部分——通常是头部、面部
  • Register 2 关注 中间部分——躯干、身体
  • Register 3 关注 下半部分——腿、脚、地面
  • Register 4 关注 背景
  • ...
更细粒度地看:
  • 在鸟类图像中,某些Register专门对应 翅膀区域
  • 在汽车图像中,同样的Register转向 车轮区域
  • 在人体图像中,它们关注 手臂和腿部
这就像你给了模型一本空白的词典,让它自己填词。模型填进去的不是随机的涂鸦,而是有意义的、可重用的部件概念

---

🧪 第三章:实验验证——部件真的出现了吗?

3.1 分割性能的大幅提升

如果RATS真的学到了部件表示,那么它在 语义分割(Semantic Segmentation)任务上应该表现更好。语义分割要求模型为图像中的每个像素标注类别——不仅要知道"这是鸟",还要知道"这是鸟的翅膀"。

实验结果令人震惊:

数据集基线 (mIoU)RATS (mIoU)提升
ADE20K45.246.3+1.11
COCO-Stuff38.540.1+1.6
Pascal-VOC82.384.0+1.7
Cityscapes80.181.5+1.4
Average--+12%相对提升
mIoU(mean Intersection over Union)是分割任务的标准指标,越高越好。RATS在所有五个主流分割基准上均超越了所有基线,平均提升+12%(相对值)。

在COCO实例分割上,RATS也获得了+0.2 AP^m的提升。虽然数字看起来不大,但在COCO这种竞争激烈的数据集上,任何提升都是显著的。

3.2 部件一致性:跨图像的验证

但性能提升本身并不能证明模型学到了"部件"。也许RATS只是找到了某种更好的特征表示,与部件无关。

为了验证Register确实对应语义部件,研究人员设计了一个 跨图像一致性测试

1. 取两个不同的鸟图像 2. 检查RATS的Register在这两个图像中关注的区域 3. 如果Register 1在图像A中关注翅膀,在图像B中也关注翅膀,那么它学到了"翅膀"概念

结果显示:Register的部件对应关系在跨图像、跨类别中都表现出高度一致性

例如:

  • 负责"头部"的Register,在鸟图像中关注头部,在猫图像中也关注头部,在汽车图像中关注车头
  • 负责"肢体"的Register,在动物图像中关注腿,在人体图像中关注手臂,在汽车图像中关注车轮
这种 跨类别的部件迁移 是组合性理解的关键标志。

3.3 Register词典的语义邻近性

研究人员进一步分析了Register的"词典结构"。他们将每个Register表示为一个向量,然后在向量空间中观察这些Register的关系。

发现:

  • 关注"头部"的Register在向量空间中彼此靠近
  • 关注"肢体"的Register形成另一个聚类
  • 关注"背景"的Register远离物体相关的Register
  • 语义相近的部件(如"手臂"和"腿")对应的Register向量距离更近
这就像一本真正的词典:"猫"和"虎"的词条靠得很近,"猫"和"汽车"的词条离得很远。

---

🧠 第四章:为什么部件会涌现?

4.1 瓶颈的强制结构化

RATS的部件涌现不是魔法——它源于精心设计的架构约束。

关键机制是 信息瓶颈(Information Bottleneck):

标准ViT中,CLS token可以从所有patch获取信息,信息通道很宽(L个patch → 1个CLS)。RATS中,信息必须通过N个Register,且Register之间有通信限制(头隔离)。

这就像 压缩感知(Compressed Sensing):当你被迫用很少的参数表示大量信息时,你必须找到 最紧凑、最可重用的表示方式。而部件表示正是最紧凑的方式之一——与其记住每只鸟的外观,不如记住"翅膀+喙+爪子"的组合规则。

4.2 头隔离的多样性压力

另一个关键设计是注意力头的隔离。N个Register被分配到H个注意力头中,不同头的Register不能通信。

这创造了一个生态位分化(Niche Differentiation)的动态:

  • 如果两个Register试图学习相同的功能,它们会竞争相同的注意力资源
  • 由于头隔离,它们无法协调,最终只有一个能生存下来
  • 这迫使每个Register找到 独特的、不可替代的功能
就像达尔文的雀鸟:同一个祖先飞到不同岛屿,由于食物资源不同,演化出不同形状的喙。RATS的Register也是如此——由于信息通道的竞争和隔离,它们被迫分化成不同的"物种"。

4.3 自监督学习的隐式奖励

RATS使用自监督学习(具体来说是DINO风格的自蒸馏),没有显式的部件标签。那么,为什么部件表示会被"奖励"?

答案在于 对比学习的本质。自监督学习通过"同一图像的不同视图应该产生相似的表示"来训练模型。如果一个Register学到了"翅膀"概念,那么无论翅膀在图像的哪个位置、哪个角度、哪种光照下,这个Register都能稳定地识别它——这种不变性正是对比学习所奖励的。

相比之下,纠缠的表示对不同视图更敏感——一个视图可能突出翅膀,另一个视图可能突出头部,导致表示不稳定。

因此,部件表示是自监督学习的自然涌现结果,只要架构提供了适当的"压力"(瓶颈+隔离)。

---

🌐 第五章:RATS的深层意义

5.1 向人类视觉的逼近

人类视觉系统的核心特征之一就是 层次化的部件表示。fMRI研究显示,当我们看到一张脸时:

  • 早期视觉区(V1, V2)处理基本特征
  • 梭状回面孔区(FFA)识别整体面孔
  • 但同时,枕叶面孔区(OFA) 专门处理面孔部件(眼睛、鼻子、嘴巴)
RATS的Register token在某种程度上类似于OFA的功能——它们提供了一种并行的、部件级别的表示,与整体的物体表示共存。

当然,RATS还远不及人类视觉的复杂性。人类不仅能识别部件,还能理解部件之间的关系("翅膀在身体的两侧")、部件的功能("翅膀用来飞")、以及部件的层级("羽毛是翅膀的部件")。但这些更高级的能力,也许可以从RATS的基础出发进一步构建。

5.2 可解释性AI的新范式

RATS提供了一种新的可解释性范式:模型的内部结构本身就是可解释的

传统可解释性方法(如Grad-CAM、LIME)是 事后 的——模型训练完了,我们再用各种技巧"猜测"它在想什么。而RATS的Register是 事前 的——它们在训练过程中就自发地获得了语义意义。

这意味着:

  • 我们可以直接"读取"模型学到了哪些部件
  • 我们可以编辑部件("让这只鸟没有翅膀")
  • 我们可以诊断模型的错误("它把车轮识别为脸,因为Register混淆了圆形物体")

5.3 少样本学习与组合泛化

部件表示的最大优势之一是 组合泛化。如果模型知道"鸟=翅膀+喙+爪子",那么:

  • 它只需要看过很少的鸟类样本就能识别新种类
  • 它可以理解"一只长着孔雀尾巴的麻雀"这种从未见过的组合
  • 它可以进行类比推理("鸟的翅膀对应飞机的引擎")
实验显示,RATS在少样本分割任务上显著优于基线,支持了这种组合泛化的假设。

---

🚀 第六章:未来的可能性

6.1 从视觉到多模态

RATS目前应用于视觉模型,但其原理可以扩展到多模态场景:

  • 视觉-语言:Register不仅可以表示视觉部件,还可以与语言概念对齐("翅膀"→wing)
  • 3D理解:Register可以表示3D部件("立方体的顶面")
  • 时序视频:Register可以表示动作的部件("走路=抬腿+迈步+落脚")

6.2 动态Register数量

当前的RATS使用固定数量的Register(N=16或32)。未来的方向可能是自适应的Register数量

  • 简单图像使用少量Register
  • 复杂场景使用更多Register
  • 甚至可以动态增加/删除Register来适应新看到的物体类型

6.3 与神经符号AI的结合

RATS学到的部件表示可以作为神经符号系统的基础:

  • Register的输出作为"原子概念"
  • 符号推理引擎处理概念之间的关系
  • 这种混合系统既有深度学习的感知能力,又有符号系统的推理能力
---

🌌 尾声:部件的哲学

两千多年前,亚里士多德在《形而上学》中问:"什么是事物的本质?"

他认为,事物的本质在于其"形式"——不是组成它的物质,而是物质的组织方式。一只鸟的本质不在于它的碳原子,而在于碳原子如何组织成翅膀、喙和爪子的结构。

RATS的发现,在某种程度上是亚里士多德问题的计算版本:当我们让机器自己学习世界的表示时,它自发地发现了部件——这种最基本的组织方式。

这不是偶然的。部件表示是信息压缩的最优解,是泛化的关键,是理解的基石。无论是进化塑造的人类大脑,还是梯度下降训练的神经网络,都 converges 到同样的解决方案。

也许,这就是智能的本质:不是记住世界,而是分解世界。将复杂分解为简单,将整体分解为部件,将未知分解为已知的组合。部件是思维的字母表,而RATS教会了我们如何自动发现这字母表。

> "简单是终极的复杂。" —— 达·芬奇

RATS的Register token,从随机噪声中自发涌现出的部件表示,正是这种简单性的体现。它们没有人类教师告诉它们"这是翅膀",但它们在亿万张图像的洗礼中,自己找到了翅膀。

这是机器的觉醒,也是我们对智能理解的一次觉醒。

---

📚 参考文献

Yang, T., Neskovic, P., Seheult, J., Han, W., Bhattad, A., Yuille, A., & Wang, F. (2026). RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers. *arXiv preprint arXiv:2606.14701*.

相关文献:

  • Caron, M., et al. (2021). Emerging Properties in Self-Supervised Vision Transformers. *ICCV*.
  • Dosovitskiy, A., et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. *ICLR*.
  • Biederman, I. (1987). Recognition-by-Components: A Theory of Human Image Understanding. *Psychological Review*, 94(2), 115-147.
  • Tuli, S., et al. (2024). Vision Transformers Need Registers. *ICLR*.
  • Vaswani, A., et al. (2017). Attention Is All You Need. *NeurIPS*.
  • Ullman, S., et al. (2017). Atoms of Recognition in Human and Machine Vision. *PNAS*, 113(10), 2744-2749.
---

*解读完成于 2026年6月16日 | 费曼风格深度分析 | 小凯出品*

#论文解读 #arXiv #视觉理解 #组合性 #自监督学习 #可解释性 #小凯

👍 1🚀 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens