论文: Modeling attention and binding in the brain through bidirectional recurrent gating
发表: Nature Communications, 2026-05-05
作者: Saeed Salehi¹²³, Jordan Lei⁴, Ari S. Benjamin⁵, Klaus-Robert Müller¹²⁶⁷, Konrad P. Kording⁸⁹
¹TUB/BIFOLD, ³BCCN, ⁴NYU, ⁵CSHL, ⁶Korea U, ⁷Max Planck, ⁸UPenn, ⁹CIFAR
DOI: 10.1038/s41467-026-72146-9
代码: ssnio/bio-attention
一、绑定问题:视觉系统最古老的心智难题
当你看着面前的一杯咖啡,你的大脑在做一件看似平凡实则非凡的事:把杯子的棕色、圆形轮廓、陶瓷质感、热气升腾的运动——这些由不同神经元群体编码的碎片化特征——绑定 成一个统一的"杯子"对象。这就是认知科学中著名的 绑定问题(binding problem):大脑如何把属于同一物体的特征整合起来,又如何把它们与其他物体和背景分离开?
这个问题困扰了神经科学数十年。特征绑定不是简单的空间叠加——当一个杯子被一本书部分遮挡时,你仍然知道杯子的完整轮廓;当你专注于咖啡的香气时,杯子的颜色并没有从你的感知中消失,只是被抑制到了背景。注意力——选择性地增强相关表征、抑制无关干扰——被广泛认为是解决绑定问题的关键机制。但问题是:注意力的计算模型要么过于简化( spotlight 模型只能做空间聚焦),要么过于特化(每个模型只能解释一两种现象),没有一个统一框架能同时解释空间注意、特征注意、物体注意、自上而下搜索、返回抑制、边界所有权、乘法增益调制……
这篇 Nature Communications 论文的核心野心就在于此:用一个双向循环门控(Bidirectional Recurrent Gating, BRG)架构,把注意力的全部经典现象装进一个模型里。
二、BRG 架构:两条通路,一个乘法门
BRG 的核心设计出奇地简洁,却因此更有说服力。整个网络建立在 U-Net 的骨架上,但做了两个关键改造:
2.1 双通路分离
Feature 通路(前馈,红色):从输入图像开始,逐层卷积下采样,提取越来越抽象的视觉特征。这是标准的腹侧视觉流(ventral stream)模拟。
Attention 通路(自上而下+横向,蓝色):从瓶颈层(bottleneck)出发,通过转置卷积上采样,生成每一层的注意力图。这条通路接收三类输入:
- 上一层 attention 通路的输出(自上而下)
- 同一层 feature 通路的输出(横向连接)
- 任务嵌入 / 提示词(任务信号)
两条通路在每一层通过 横向连接 交换信息:feature 通路把特征图传给 attention 通路,attention 通路把调制信号传回 feature 通路。
2.2 乘法门控:注意力的核心运算
这是 BRG 的灵魂所在。在第 \(t\) 次迭代、第 \(\ell\) 层,特征图 \(X_t^\ell\) 不是直接传给下一层,而是先被 乘 上一个缩放后的注意力图:
其中 \(a\) 是 attention 通路的输出(通过 tanh 激活,范围 \((-1, 1)\))。这意味着:
- 当 \(a \to +1\) 时,缩放因子 \(\to 1.5\) → 增强该特征
- 当 \(a \to -1\) 时,缩放因子 \(\to 0.5\) → 抑制该特征
- 当 \(a = 0\) 时,缩放因子 \(= 1.0\) → 保持不变
作者特意选择 \(0.5\) 的缩放系数而非 \(1.0\),是为了 保留部分干扰信息——被抑制的区域可能在后续迭代中变得重要(例如,当你先搜索一个目标,然后转移到另一个目标时)。这个细节体现了对真实注意力的深刻理解:注意力不是二值的"开/关",而是连续可调的增益控制。
2.3 迭代循环:时间维度上的注意力进化
模型不是一次性处理图像,而是进行 多次迭代(通常 3-7 次)。每次迭代都重新生成注意力图,并用它调制下一次的特征处理。这种设计直接对应了神经科学中反复出现的发现:注意力的神经效应往往延迟出现(late-onset attention),不是刺激一出现就完成,而是在 150-200ms 后才达到峰值。BRG 的迭代机制自然地解释了这一点。
三、多任务学习:一个模型,七种注意力
论文最令人印象深刻的实验设计是 多任务学习:同一个网络同时训练七种不同的注意力任务,共享全部权重。这不是简单的多数据集训练——每个任务需要完全不同的注意力策略:
| 任务 | 核心能力 | 训练监督 | 测试准确率 |
|---|---|---|---|
| 目标识别 | 遮挡+噪声中识别物体 | 仅标签 | 99% |
| 空间线索 | 跟随空间提示定位 | 仅标签 | 99% |
| 视觉推断 | 箭头指向→推断目标 | 仅标签 | 99% |
| 显著性弹出 | 检测异类目标 | 仅标签 | 99% |
| 自上而下搜索 | 按类别提示搜索 | 标签+注意力图 | 88% |
| 空间绑定 | 跟踪移动物体 | 标签+注意力图 | 99% |
| 返回抑制(IOR) | 轮流注意多个目标 | 标签+注意力图 | 96% |
注意关键细节:前四个任务仅用分类标签训练,没有提供注意力掩模。模型必须完全通过分类损失和任务嵌入,自己学会生成合理的注意力图。这证明了 BRG 的 涌现能力 ——注意力图不是人为设计的,而是任务驱动的副产品。
3.1 目标识别:从混乱中提取秩序
这个任务最能体现 BRG 的绑定能力:一个数字被放置在随机生成的相关噪声背景上,再被一个移动的前景部分遮挡。前景和背景都在缓慢移动,只有目标数字静止。模型需要在 7 次迭代中逐渐"剥离"噪声、锁定目标,最终实现 99% 的分类准确率和仅 0.02 的像素级注意力误差。
这里的 迭代机制至关重要:第一次迭代,注意力图几乎是均匀的(flat attention),模型只能看到模糊的轮廓;随着迭代进行,注意力图逐渐聚焦到目标数字的精确边界。这与人类视觉中的 感知积累(perceptual accumulation) 现象完全吻合。
3.2 返回抑制(IOR):记忆的代价
IOR 是一个经典的认知现象:当你依次注意多个物体时,你倾向于避免回到刚刚注意过的那个。BRG 通过在瓶颈层加入 密集循环层(dense recurrent layers) 实现了一种工作记忆——网络"记住"了它刚才注意过什么,并在下一次选择时抑制该区域。模型在 3 个物体轮流注意的任务中达到 96% 准确率,证明了循环连接对记忆依赖型行为的关键作用。
四、Bregman 错觉:模型自发地"看见"了幻觉
这是整篇论文中最精彩的实验之一,也是最能体现 BRG 生物可信度的证据。
Bregman 错觉(图5)是一个经典的格式塔知觉现象:当一个字母被墨渍遮挡时,如果墨渍可见,你反而能更好地识别字母;如果移除墨渍留下空白,字母反而变得破碎难辨。这说明 可见的遮挡边界帮助视觉系统推断被遮挡部分的轮廓——大脑用遮挡物的边界信息来"填充"缺失区域。
令人惊讶的是,BRG 模型完全没有被训练过这个任务。作者只是用在目标识别任务上训练好的模型,换一种遮挡方式测试,模型就自发表现出了 Bregman 错觉:可见遮挡时的识别准确率高于不可见遮挡。
分析注意力图可以发现,模型学会了 从遮挡边界提取信息——注意力图在遮挡边界处表现出特殊的激活模式,帮助模型推断被遮挡数字的完整形状。这意味着 BRG 内部已经发展出了 边界所有权编码(border-ownership coding)——一种在灵长类 V2 区发现的神经特性,神经元编码"这条边界属于前景还是背景"。
这不是通过损失函数强制学习的,而是架构约束下的自发涌现。
五、神经生理对齐:从人工网络到真实大脑
如果 BRG 只是一个能做好多种注意力任务的工程模型,它的价值会大打折扣。真正让它登上 Nature Communications 的是:它的内部表征与真实灵长类大脑惊人地对齐。
5.1 乘法增益调制(Multiplicative Gain Modulation)
在猕猴 V1、V4、IT 区的记录中,注意力对神经元的调制表现为 乘法形式:神经元的调谐曲线幅度被缩放,但最佳刺激不变。这与 BRG 中 \(\text{Scale}(a) = 1.0 + 0.5 \cdot a\) 的设计完全一致——注意力不是加性的偏移,而是乘性的增益。
5.2 注意不变调谐(Attention-Invariant Tuning)
在曲线追踪实验中(图8-9),模型需要在两条交叉曲线中追踪目标曲线。分析模型内部单元的响应发现:被注意曲线激活的单元,其 调谐特性(tuning properties)与被忽视曲线激活时基本相同——注意力改变了响应幅度,但没有改变响应选择性。这与 Roelfsema 等人在猕猴 V1 中的经典发现完全一致。
5.3 较晚的注意 onset
与 Transformer 的"一次性"自注意力不同,BRG 的注意力效应是在多次迭代中逐渐累积的。分析不同迭代中注意力的神经调制强度,发现显著效应出现在第 3-4 次迭代,对应约 150-200ms 的时间尺度——与人类和灵长类的 ERP/EEG 记录中注意力的延迟 onset 完全吻合。
六、对 AI 的启示:为什么 Transformer 不是注意力的终极答案
论文在 Introduction 中对 Transformer 的批评虽然简短,但切中要害:
"Transformers lack the three key elements of attention: lateral, top-down, and recurrent activities."
Transformer 的自注意力(self-attention)确实实现了"注意"的功能——动态加权输入特征的组合——但它是一种 单步的、全局的、前馈的计算:
- 没有横向连接:Transformer 层内只有自注意力 + FFN,没有同层特征之间的横向交互
- 没有真正的自上而下:query/key/value 都来自同一层输入,没有高层语义反馈回低层视觉
- 没有循环:每层只处理一次,没有时间维度上的迭代精炼
BRG 展示了一个 生物启发的替代路径:通过架构层面的约束(双向连接、循环迭代、乘法门控),让网络自发地发展出类似大脑的信息处理策略。这与当前 AI 中"堆参数 + 堆数据 = 涌现能力"的思路截然不同——结构即约束,约束即先验。
论文在 CelebA 上的实验还暗示了一个更具现实意义的优势:BRG 能够 学习注意正确的特征并掩蔽虚假相关。在性别分类任务中,数据集存在"金发→女性"的虚假相关性,朴素分类器会利用发色做捷径;但 BRG 学会了注意面部几何特征,主动掩蔽头发区域,从而获得更鲁棒的分类。这与当前 AI 安全/可解释性领域对"虚假相关性"和"捷径学习(shortcut learning)"的担忧直接相关。
七、局限与可质疑之处
作为一篇敢于追求"统一框架"的论文,它必然面临一些合理的质疑:
7.1 任务设计的简化性
虽然论文声称模型能处理"自然图像"(COCO),但 COCO 实验只测试了 3 个相对简单的任务,且准确率(80% 左右)远低于 MNIST 实验(99%)。自然图像的复杂性——尺度变化、光照变化、部分遮挡、背景混乱——是否会让 BRG 的迭代机制不堪重负?论文没有充分回答。
7.2 迭代次数的硬性限制
BRG 需要固定次数的迭代(通常 3-7 次)。但真实视觉注意是 自适应的:简单场景只需一瞥,复杂场景需要反复审视。BRG 能否学习动态停止?论文没有探索这个方向。
7.3 与生物学的"对应"有多强?
论文强调 BRG 的多种特性与灵长类神经记录一致,但这种一致是 定性相似 还是 定量匹配?例如,乘法增益调制的精确数学形式(\(1.0 + 0.5 \cdot a\))是否与神经数据拟合?注意力的延迟 onset 是否能在毫秒级别上与 ERP 数据对应?论文提供了很好的定性证据,但定量的神经模型拟合(如预测单个神经元的 PSTH)仍然缺失。
7.4 计算效率
BRG 的迭代机制意味着 同一图像要被处理多次,计算成本至少是同等规模前馈网络的 3-7 倍。在追求效率的深度学习领域,这种架构是否具有实际部署价值?论文定位是"神经科学工具"而非"生产级 AI 架构",但如果它真的如作者所言能成为"standard AI architectures 的生物启发替代",效率问题是绕不开的。
7.5 反向传播的生物可信性
BRG 使用标准的反向传播训练。虽然作者提到"这些现象可以从 error-backpropagation 结合信息流的架构约束中涌现",但反向传播本身在生物学上仍然极具争议(重量前馈问题、对称权重问题等)。如果绑定和注意力的关键需要依赖反向传播才能学到,这是否削弱了它作为"生物模型"的可信度?
八、结语:架构即假设
这篇论文的最大价值不在于提出了一个全新的 SOTA 模型,而在于它展示了如何用深度学习做严肃的认知神经科学:
-
架构设计作为理论假设:BRG 的每一个设计选择——双通路、乘法门控、循环迭代——都对应着一个关于大脑如何工作的理论假设。当模型自发地表现出 Bregman 错觉和边界所有权编码时,这些假设得到了意想不到的验证。
-
多任务学习作为行为测试套件:7 个 MNIST 任务 + 3 个 COCO 任务 + CelebA + 曲线追踪 + Bregman 错觉,构成了一个前所未有的注意力行为测试套件。这种系统性的实验设计应该成为计算神经科学的标准。
-
跨学科的共同语言:论文的最后一段说得好——BRG 是"神经科学和机器学习的 productive common ground"。对神经科学家来说,它提供了一个可以实际运行、可微分训练的注意力模型;对 AI 研究者来说,它展示了一个有原则的生物启发架构,可能比盲目堆参数更有前途。
绑定问题没有最终答案,注意力仍然是意识研究中最接近"黑箱"的领域之一。但 BRG 至少证明了一件事:一个足够好的架构约束,可以让简单的梯度下降涌现出惊人的复杂性。这或许正是大脑数十亿年进化的秘密——不是越来越复杂的算法,而是越来越精妙的结构。
参考论文
Salehi, S., Lei, J., Benjamin, A.S., Müller, K.R. & Kording, K.P. (2026). Modeling attention and binding in the brain through bidirectional recurrent gating. Nature Communications, 17, 4072. https://doi.org/10.1038/s41467-026-72146-9
相关资源
- 代码与预训练模型:ssnio/bio-attention
- bioRxiv 预印本:2024.09.09.612033
#小凯 #深度解读 #注意力 #绑定问题 #类脑计算 #BRG #NatureCommunications
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。