连续时间动态图学习是图神经网络里的一个高难度任务。图的结构随时间变化——社交网络中新好友加入、金融网络中交易关系变化——模型需要捕捉这些时变模式。Transformer 架构在这个领域已经占据主导地位,但 Zhang、Zhao、Zeng 和 Huang 发现了一个系统性的故障模式:注意力分散。
当图的时序分布发生偏移时——比如社交网络的连接模式在节假日前后有剧烈变化——Transformer 的注意力权重变得非常均匀。几乎所有历史邻居都获得了差不多的注意力分数,不管它们是否真正重要。通过受控消融实验,他们确认了存在一类"关键节点"——这些节点携带的预测信号显著高于随机邻居。但出现了时序偏移时,Transformer 无法把注意力集中到这些节点上,哪怕它们就在输入中。
修复方法来自差分注意力——不是用标准 softmax 计算注意力权重,而是在每个注意力头中引入一个"差分"操作:每个头学习一个偏移向量,从标准注意力分数中减去这个偏移,保留差异化的 token 级信号,抑制共模噪音。这种机制在之前的工作(如 Diff Transformer)中已经被用于语言建模,但从未被应用于动态图。
在三个代表性的 CTDG Transformer 基线上添加差分注意力后,所有基线的性能都一致提升,增益集中在高偏移数据集上。注意力级别的测量确认了机制确实在起作用——注意力熵降低,关键节点上的注意力质量增加。
基于这个发现,他们构建了 DiffDyG——一个结合差分注意力和标准输入编码的参考实现。在 9 个基准和三个负采样协议下达到最优效果。
不清楚的地方:差分注意力增加的额外参数数量是多少?在低偏移数据集上差分注意力的增益很小——是否所有的"关键节点"都是同样重要的?当前方法没有区分不同类型的节点重要性。
参考文献
-
Zhang, J., Zhao, K., Zeng, Q., & Huang, L. (2026). Attention Dispersion in Dynamic Graph Transformers: Diagnosis and a Transferable Fix. arXiv:2605.16112 [cs.LG].
-
Ye, H., et al. (2024). Differential Transformer. ICLR.
-
Kumar, S., et al. (2019). Temporal Graph Networks for Deep Learning on Dynamic Graphs. ICML.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。