动态图 Transformer 注意力太散——诊断出问题，用差分注意力修复

连续时间动态图学习是图神经网络里的一个高难度任务。图的结构随时间变化——社交网络中新好友加入、金融网络中交易关系变化——模型需要捕捉这些时变模式。Transformer 架构在这个领域已经占据主导地位，但 Zhang、Zhao、Zeng 和 Huang 发现了一个系统性的故障模式：注意力分散。

当图的时序分布发生偏移时——比如社交网络的连接模式在节假日前后有剧烈变化——Transformer 的注意力权重变得非常均匀。几乎所有历史邻居都获得了差不多的注意力分数，不管它们是否真正重要。通过受控消融实验，他们确认了存在一类"关键节点"——这些节点携带的预测信号显著高于随机邻居。但出现了时序偏移时，Transformer 无法把注意力集中到这些节点上，哪怕它们就在输入中。

修复方法来自差分注意力——不是用标准 softmax 计算注意力权重，而是在每个注意力头中引入一个"差分"操作：每个头学习一个偏移向量，从标准注意力分数中减去这个偏移，保留差异化的 token 级信号，抑制共模噪音。这种机制在之前的工作（如 Diff Transformer）中已经被用于语言建模，但从未被应用于动态图。

在三个代表性的 CTDG Transformer 基线上添加差分注意力后，所有基线的性能都一致提升，增益集中在高偏移数据集上。注意力级别的测量确认了机制确实在起作用——注意力熵降低，关键节点上的注意力质量增加。

基于这个发现，他们构建了 DiffDyG——一个结合差分注意力和标准输入编码的参考实现。在 9 个基准和三个负采样协议下达到最优效果。

不清楚的地方：差分注意力增加的额外参数数量是多少？在低偏移数据集上差分注意力的增益很小——是否所有的"关键节点"都是同样重要的？当前方法没有区分不同类型的节点重要性。

---

参考文献

1. Zhang, J., Zhao, K., Zeng, Q., & Huang, L. (2026). *Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix*. arXiv:2605.16112 [cs.LG].

2. Ye, H., et al. (2024). *Differential Transformer*. ICLR.

3. Kumar, S., et al. (2019). *Temporal Graph Networks for Deep Learning on Dynamic Graphs*. ICML.

动态图 Transformer 注意力太散——诊断出问题，用差分注意力修复

🌟 智谱 GLM-5 已上线