1. 核心突破:实现对新实体和新关系的归纳推理
MAYPL(Structure Is All You Need: Structural Representation Learning on Hyper-Relational Knowledge Graphs)这篇论文在人工智能领域,特别是知识图谱(Knowledge Graph, KG)表示学习方面,取得了显著的突破性进展。其核心贡献在于提出了一种能够同时对新实体(new entities) 和新关系(new relations) 进行归纳推理(inductive inference) 的框架。这一能力使得MAYPL在处理动态、不断演化的知识库时,展现出远超现有方法的优越性和泛化能力。传统的知识图谱补全方法大多局限于转导式学习(transductive learning),即在训练和测试阶段使用固定的实体和关系集合,无法有效处理现实世界中不断涌现的新知识。而MAYPL通过其创新的、纯粹基于结构的学习机制,打破了这一限制,为知识图谱的增量更新和动态扩展提供了全新的解决方案。该论文明确指出,MAYPL是唯一一种能够处理超关系知识图谱(Hyper-relational Knowledge Graphs, HKGs)并在归纳推理场景下同时应对新实体和新关系挑战的方法 。这一突破不仅提升了模型在标准链接预测任务上的性能,更重要的是,它赋予了模型真正的“学习如何学习”的能力,使其能够将从一个知识图谱中学到的模式和规则,无缝迁移并应用于一个全新的、包含未知元素的图谱中,这在人工智能领域是迈向更高级别通用智能的关键一步。
1.1 归纳推理能力的定义与重要性
归纳推理在知识图谱领域指的是模型在训练完成后,能够处理在训练阶段从未见过的实体或关系,并对涉及这些新元素的链接进行准确预测的能力。这与传统的转导式学习形成鲜明对比,后者要求所有待预测的实体和关系都必须在训练集中出现过。MAYPL的归纳推理能力具体体现在,当模型在一个训练知识图谱(Training HKG)上完成训练后,可以直接应用于一个完全不同的推理知识图谱(Inference HKG),而这个推理图谱中可以包含全新的实体集合(V')和全新的关系集合(R'),即 V ⊄ V' 或 R ⊄ R' 。这种能力对于构建真正实用和可扩展的知识图谱系统至关重要,因为现实世界的知识库,如Wikidata和YAGO,是持续动态增长的,新的实体(如新的人物、事件、概念)和新的关系(如新的交互方式、属性描述)会不断涌现。一个具备归纳推理能力的模型,无需针对每一个新出现的实体或关系进行耗时的重训练或微调,从而极大地提高了知识图谱的维护效率和扩展性。MAYPL通过其独特的结构驱动学习方法,成功地将学习到的计算、传播和聚合消息的模式泛化到了未知的图结构上,从而实现了这一关键的归纳推理能力 。
1.1.1 归纳推理在知识图谱补全中的应用场景
归纳推理在知识图谱补全任务中具有广泛的应用前景,尤其是在处理动态和开放域的知识系统时。一个典型的应用场景是新闻事件的知识图谱构建。当一个新的突发事件(如一场新的国际会议或一次自然灾害)发生时,会涌现出大量全新的实体(如新的会议名称、新的受灾地点)和新的关系(如“参与国”、“影响范围”)。一个基于MAYPL的系统,可以利用其在历史新闻数据上训练得到的模型,直接对这些新事件相关的知识图谱进行链接预测,例如预测哪些国家可能参与该会议,或哪些地区会受到灾害影响,而无需重新训练模型。另一个重要场景是生物医学领域的知识发现。随着研究的深入,新的基因、蛋白质和药物分子不断被发现,它们之间的新型相互作用关系也需要被快速整合到现有知识库中。MAYPL的归纳推理能力使其能够处理这些全新的生物实体和关系,加速新药靶点发现或疾病机理研究的进程。论文中明确定义了归纳式链接预测任务:模型在训练HKG G = (V, R, H) 上训练,然后在推理HKG G' = (V', R', H') 上进行预测,其中 V 和 V' 或 R 和 R' 可以完全不同 。这种设定完美契合了上述动态知识更新的需求,使得知识图谱能够像一个不断学习和进化的“大脑”,持续吸收和理解新知识。
1.1.2 与传统转导式学习的对比
为了更清晰地理解MAYPL的突破性,必须将其归纳推理能力与传统的转导式学习进行对比。转导式学习是当前知识图谱补全领域的主流范式,其假设训练集和测试集共享相同的实体和关系集合。在这种模式下,模型学习的是为训练集中每个特定的实体和关系找到一个最优的嵌入向量(embedding)。因此,当遇到训练集中不存在的实体或关系时,模型将无法为其生成有效的表示,从而导致预测失败。这种方法的局限性在于其封闭世界的假设,无法适应现实世界的开放性和动态性。相比之下,MAYPL采用的归纳式学习范式则打破了这一限制。它不学习特定实体或关系的固定嵌入,而是学习一种通用的、基于图结构的消息传递和聚合机制 。这种机制能够处理任意拓扑结构的图,并为图中任何位置的实体和关系动态地生成上下文相关的表示。论文中通过一个对比表格清晰地展示了这一点:大多数现有方法,如StarE、HyNT、HAHE等,虽然能处理超关系知识图谱,但都属于转导式学习,无法处理新实体和新关系 。而MAYPL是首个能够在HKG上同时处理新实体和新关系的归纳式方法。这种从“学习特定嵌入”到“学习通用计算模式”的转变,是MAYPL实现归纳推理的核心,也是其相较于传统方法最根本的优势所在。
| 特性 | 转导式学习 (Transductive) | 归纳式学习 (Inductive) - MAYPL |
|---|
| **核心机制** | 学习特定实体和关系的固定嵌入向量 | 学习通用的结构处理和消息传递规则 |
| **处理新实体** | ❌ 无法处理 | ✅ 可以根据其结构角色动态生成表示 |
| **处理新关系** | ❌ 无法处理 | ✅ 可以根据其结构角色动态生成表示 |
| **泛化能力** | 局限于训练数据中的特定元素 | 能够泛化到包含全新元素的图结构 |
| **知识更新** | 需要重训练或微调 | 无需重训练,可直接应用于新图谱 |
| **代表方法** | TransE, RotatE, StarE, HyNT | **MAYPL** |
Table 1: 转导式学习与归纳式学习(以MAYPL为例)的核心对比。
1.2 学习新关系:处理未知或新型关系
MAYPL在学习新关系方面的突破性进展,是其归纳推理能力的核心体现之一。传统知识图谱表示学习方法,无论是基于平移距离模型(如TransE)还是基于图神经网络(GNN)的模型,通常都依赖于为每个关系学习一个固定的表示向量。这种设计使得它们在面对训练数据中从未出现过的新关系时完全失效,因为模型无法为新关系生成一个有效的嵌入向量。MAYPL则从根本上解决了这个问题,它不再为关系学习一个全局的、固定的表示,而是通过分析关系在超关系知识图谱(HKG)中的局部结构角色来动态地生成其表示。具体来说,MAYPL的框架通过一种精巧的消息传递机制,学习如何根据一个关系所连接的头实体、尾实体以及相关的限定词(qualifiers)来计算其表示 。这意味着,即使是一个全新的关系,只要它在HKG中拥有明确的结构(即它连接了哪些实体和限定词),MAYPL就能够根据其周围的结构信息为其生成一个有意义且上下文相关的表示,从而能够理解和处理这种新型关系。这种能力使得MAYPL能够适应知识图谱中关系的不断演化和扩展,例如,在社交媒体分析中,新的交互类型(如“转发”、“点赞”的变体)可以被快速整合和理解,而无需重新训练整个模型。
1.2.1 在推理阶段处理全新关系的能力
MAYPL在推理阶段处理全新关系的能力,是其区别于所有现有HKG处理方法的关键特征。论文中反复强调,MAYPL是“唯一能够对新实体和新关系进行归纳推理的HKG处理方法” 。这一能力的实现,源于其纯粹基于结构的学习哲学。MAYPL的模型在训练过程中,学习的是一种通用的“计算模式”,即如何在一个给定的HKG结构上计算、传播和聚合信息。这个模式不依赖于任何特定关系的身份或语义,而是依赖于关系的“位置”和“连接性”。例如,一个关系是作为三元组的主关系(primary relation)还是作为限定词(qualifier relation)出现,以及它连接了哪些实体,这些信息构成了其结构身份。当模型在推理阶段遇到一个全新的关系时,它会将这个关系视为图中的一个新节点,并应用其在训练中学到的消息传递规则,根据其连接的结构(它所参与的HKG事实)来动态地构建其表示。因此,模型无需预先知道关系的任何语义信息,就能对其进行有效的链接预测。例如,如果训练数据中有“A 是 B 的 CEO”和“C 是 D 的 创始人”这类事实,模型学习到了“CEO”和“创始人”这类关系连接“人”和“公司”的模式。当在测试时遇到一个新的关系“E 是 F 的 董事长”,即使“董事长”这个关系从未在训练集中出现,模型也能根据其连接“人”和“公司”的结构,推断出它可能与“CEO”和“创始人”具有相似的功能,从而进行合理的预测。
1.2.2 与现有方法的对比:现有方法无法处理新关系
为了凸显MAYPL在处理新关系方面的独特性,论文将其与多种现有的先进方法进行了对比。分析表明,无论是处理N-ary关系表示(NRR)的方法(如NaLP, RAM),还是处理知识超图(KHG)的方法(如G-MPNN, HCNet),亦或是直接处理HKG的方法(如StarE, HyNT),它们都无法在推理阶段处理全新的关系 。这些方法的共同缺陷在于,它们的学习过程高度依赖于为每个关系分配一个唯一的、可学习的嵌入向量。例如,G-MPNN和HCNet虽然在处理新实体方面取得了一定进展(G-MPNN能处理一跳距离内的新实体,HCNet能处理所有实体都是新的情况),但它们都明确假设所有关系在训练时都是已知的,并为这些关系学习特定的表示 。因此,当遇到一个在训练集中不存在的新关系时,这些模型将束手无策,因为它们没有为该关系预设的嵌入向量,也无法动态地生成一个。这种设计上的根本限制,使得它们在面对关系动态变化的知识库时显得僵化。相比之下,MAYPL通过其结构驱动的消息传递机制,完全摆脱了对关系特定嵌入的依赖,从而成为首个能够真正意义上处理HKG中新关系的归纳式表示学习方法。这一突破不仅解决了长期困扰知识图谱领域的一个难题,也为构建更具适应性和扩展性的智能系统开辟了新的道路。
1.3 学习新知识:整合新实体与新事实
MAYPL在学习新知识方面的能力,主要体现在其对新实体和新事实的高效整合上。这里的“新知识”不仅指全新的实体和关系,也包括由这些新元素构成的复杂事实。MAYPL的框架设计使其能够像搭积木一样,将新出现的实体和关系无缝地整合到现有的知识图谱结构中,并立即开始对这些新知识进行推理。其核心优势在于,MAYPL学习的是一种通用的图结构处理算法,而不是记忆特定实体的静态属性。当一个新实体出现时,模型不会试图去“理解”它的语义,而是将其视为图中的一个新节点,并根据它与其他已知或未知节点之间的连接关系(即新的事实)来动态地构建其上下文表示 。这种机制使得MAYPL能够以一种非常高效和灵活的方式吸收新知识。例如,当一个新的人物实体“X”被添加到知识图谱中,并伴随着事实“X 出生于 中国”和“X 的职业是 科学家”时,MAYPL能够立即利用这些结构信息来更新“X”的表示,并可以进一步用于预测其他缺失的链接,如“X 毕业于 哪所大学”。这种即时整合和推理的能力,使得知识图谱的更新过程不再是批处理式的、耗时的重训练,而是变成了一个动态的、持续的学习过程。
1.3.1 在推理阶段处理全新实体的能力
MAYPL在推理阶段处理全新实体的能力,是其归纳推理框架的另一个基石。与处理新关系类似,MAYPL同样能够优雅地应对在测试时才首次出现的全新实体。传统的转导式方法,如InGram,虽然在某些特定场景下表现良好,但它们的核心机制是为每个实体学习一个固定的嵌入向量,这天然地限制了它们处理新实体的能力。而MAYPL则完全不同,它不为任何实体存储或学习一个持久的、全局的嵌入。相反,一个实体的表示是在每次推理时,根据其周围的局部图结构动态计算得出的 。具体来说,当一个新实体 v_new 出现在推理阶段的HKG中时,MAYPL会收集所有与 v_new 相关联的HKG事实。然后,它利用在训练阶段学到的消息传递函数,将这些事实中的信息(包括连接的关系、其他实体以及限定词)聚合起来,从而为 v_new 生成一个丰富且上下文相关的表示。这个过程是即时的,不需要任何额外的训练或微调。论文中明确指出,MAYPL能够处理在推理时出现的“新实体和新关系” 。这意味着,无论新实体与已知实体是直接相连(一跳邻居)还是通过其他新实体间接相连,MAYPL都能够有效地为其生成表示并进行链接预测,这相较于只能处理一跳新实体的G-MPNN等方法,是一个巨大的进步。
1.3.2 与现有方法的对比:部分方法仅能处理有限的新实体
在MAYPL出现之前,已有一些研究尝试解决知识图谱中的归纳推理问题,但大多存在明显的局限性。论文中特别提到了G-MPNN和HCNet这两种方法,它们代表了在处理新实体方面的前沿尝试,但与MAYPL相比仍有显著差距。G-MPNN(Yadati, 2020)能够处理新实体,但其能力被严格限制在这些新实体必须是训练图谱中已有实体的一跳邻居 。这意味着,如果一个新实体在训练图谱中没有直接的连接,G-MPNN将无法为其生成有效的表示。而HCNet(Huang et al., 2024)虽然能够处理在推理时所有实体都是全新的情况,但它同样无法处理新关系,并且其应用场景可能更为特定 。更重要的是,这两种方法,以及其他大多数现有方法,都共享一个根本性的缺陷:它们无法处理在推理阶段出现的新关系。这是因为它们的学习范式本质上仍然是基于为已知关系学习特定嵌入的。MAYPL则通过其纯粹的结构驱动方法,一举解决了这两个难题。它不仅能够处理任意连接模式的新实体,还能处理任何全新的关系类型。论文中的对比表格清晰地展示了MAYPL是唯一一个在所有这些维度上都打勾(✓)的方法,即在处理HKG的同时,支持对新实体和新关系的归纳推理 。这种全面的归纳能力,使得MAYPL在动态和开放世界的知识图谱应用中,具有无与伦比的优势。
| 方法 | 处理HKG | 归纳新实体 | 归纳新关系 |
|---|
| **MAYPL** | **✓** | **✓** | **✓** |
| StarE, HyNT, HAHE | ✓ | ❌ | ❌ |
| NaLP, RAM | ❌ (处理NRR) | ❌ | ❌ |
| G-MPNN | ❌ (处理KHG) | ✓ (仅限一跳) | ❌ |
| HCNet | ❌ (处理KHG) | ✓ | ❌ |
| QBLP | ✓ | ✓ (依赖文本) | ❌ |
Table 2: MAYPL与现有知识图谱表示学习方法的综合能力对比 。
2. 技术核心:纯粹基于结构的消息传递框架
2.1 核心思想:“结构就是一切”
2.1.1 摒弃对实体和关系特定特征的依赖
MAYPL论文的核心思想可以概括为 “结构就是一切”(Structure Is All You Need) ,这一理念颠覆了传统知识图谱表示学习对实体和关系特定特征的依赖。在传统的知识图谱嵌入方法中,模型通常为每个实体和关系分配一个唯一的、可学习的嵌入向量。这些向量是模型的核心参数,模型的训练过程就是优化这些向量的过程,使其能够最好地拟合训练数据中的三元组。这种方法虽然简单有效,但其本质上是“记忆”了训练数据中的特定事实,导致模型缺乏泛化能力,无法处理训练图谱之外的全新实体或关系。此外,一些方法为了提升性能,会引入额外的特征,如实体和关系的文本描述、类型信息等。然而,这些外部特征并非总是可用,且其质量难以保证,从而限制了模型的普适性。
MAYPL则另辟蹊径,它完全摒弃了对任何特定于实体或关系的固定特征(包括嵌入向量和外部文本特征)的依赖 。MAYPL认为,一个实体或关系的语义信息和其在图谱中的功能角色,完全可以由其所在的图结构——即它如何与其他实体和关系相互连接、共现以及在事实中所处的位置——来唯一确定。例如,一个“首都”关系,无论它连接的是“巴黎”和“法国”,还是“北京”和“中国”,其在图谱中的结构角色是相似的。MAYPL正是抓住了这种结构上的共性,通过学习一种通用的、基于结构的表示函数,来动态地为任何实体和关系生成其表示。这种设计使得MAYPL的模型参数不再是与特定实体或关系绑定的嵌入向量,而是用于计算和聚合结构信息的一系列可学习函数(如神经网络层),从而赋予了模型强大的归纳推理能力。
2.1.2 仅利用知识图谱的拓扑结构进行学习
MAYPL的整个学习过程,从实体和关系表示的初始化,到最终链接预测的完成,都纯粹地依赖于给定超关系知识图谱(HKG)的拓扑结构 。这里的“拓扑结构”不仅包括实体和关系之间的连接关系,还涵盖了它们在事实中的具体位置和角色。一个HKG中的事实由一个主三元组(头实体、主关系、尾实体)和一组限定词(限定词关系、限定词实体)构成。MAYPL充分利用了这种复杂的结构信息。例如,在计算一个实体的表示时,MAYPL会考虑它作为头实体、尾实体或限定词实体时分别连接了哪些关系和实体。同样,在计算一个关系的表示时,也会区分它是主关系还是限定词关系,并考虑其连接的实体以及与之共现的其他关系。
这种对结构信息的极致利用,体现在MAYPL的两个核心组件中:结构驱动初始化器和注意力神经消息传递模块。结构驱动初始化器通过聚合一个实体或关系的邻居信息(共现实体和关系)来生成其初始表示,并且在这个过程中,通过引入位置相关的投影矩阵,精细地刻画了不同结构位置(如头实体与尾实体)的差异性 。而注意力神经消息传递模块则在此基础上,通过多轮的迭代,让信息在事实、实体和关系之间流动和聚合,使得每个节点的表示能够融合更远距离的结构信息。整个过程完全不依赖于任何预定义的特征或外部知识,仅仅是根据HKG自身的连接模式来学习和推理。论文的实验结果有力地证明了这一思想的有效性:纯粹基于结构的表示学习方法,足以在各种链接预测任务上达到最先进的性能,甚至在某些方面超越了那些依赖额外信息的方法 。
2.2 MAYPL框架:消息传递机制
2.2.1 事实级消息的计算与聚合
MAYPL框架的核心是其精心设计的消息传递机制,该机制以“事实”(fact)为基本单元进行信息传播。在超关系知识图谱(HKG)中,一个事实由一个主三元组(例如,(Finding Nemo, set in, Sydney))和一组限定词(例如,{(country, Australia), (state, New South Wales)})组成 。MAYPL首先会计算每个事实的 “事实级消息”(fact-level message) 。这个消息旨在压缩该事实所包含的所有结构信息,即哪些实体和关系参与了该事实,以及它们是如何连接的。具体来说,事实级消息是通过对该事实中所有实体和关系的表示进行组合(例如,通过Hadamard积或连接操作)而生成的。这个过程捕捉了事实内部的局部结构模式。
在计算出所有事实的消息后,MAYPL通过一个注意力机制,将这些消息聚合到实体和关系上,从而更新它们的表示。这个聚合过程是双向的:一方面,实体和关系会从它们所属的事实中接收信息;另一方面,事实的消息也会根据其内部实体和关系的重要性被加权聚合。例如,一个实体可能参与多个事实,MAYPL会学习为每个事实分配一个注意力权重,以决定该事实对更新当前实体表示的贡献程度。这种基于注意力的聚合方式,使得模型能够区分不同事实的重要性,从而更精准地捕捉实体和关系在全局图谱中的角色。通过多轮这样的消息计算与聚合,信息得以在整个HKG中高效传播,使得每个节点的最终表示都蕴含了丰富的局部和全局结构信息。
2.2.2 实体与关系表示的初始化与更新
MAYPL框架中实体和关系表示的学习过程分为两个关键阶段:结构驱动的初始化和基于消息传递的更新。在初始化阶段,MAYPL并不为每个实体和关系分配随机的或固定的嵌入向量,而是通过一个结构驱动的初始化器来计算它们的初始表示。这个初始化器的设计思想是,一个节点的初始语义可以由其最直接的邻居(即与之共现的实体和关系)来定义。具体来说,对于一个实体,其初始表示是通过聚合所有与它出现在同一个事实中的其他实体的信息,以及所有与它直接相连的关系的信息来生成的。同样,对于一个关系,其初始表示也是通过聚合其共现关系和关联实体的信息来计算的。为了精细地刻画结构差异,MAYPL在聚合过程中引入了位置相关的可学习投影矩阵,使得模型能够区分实体作为“头实体”、“尾实体”或“限定词实体”等不同角色时的不同含义 。
在初始化之后,实体和关系的表示会通过一个多层的注意力神经消息传递模块进行迭代更新。在每一层中,模型首先计算所有事实的“事实级消息”,然后以实体为中心和以关系为中心地进行消息聚合。在实体为中心的聚合中,每个实体都会接收来自其所属所有事实的信息,并通过注意力机制对这些信息进行加权求和,以更新自身的表示。在关系为中心的聚合中,过程类似,每个关系会聚合来自其所属事实的信息来更新自己的表示。这个过程会重复多轮,使得每个节点的表示能够逐步融合来自更远邻居的结构信息,从而得到更加丰富和精确的语义表达。论文的消融研究表明,这个两阶段的学习过程(结构驱动初始化 + 消息传递更新)对于MAYPL的性能至关重要,移除任何一个部分都会导致性能显著下降 。
2.2.3 组件级连通性的考量
除了事实级的结构信息,MAYPL的注意力神经消息传递机制还进一步考虑了 “组件级”(component-level)的连通性,这是其能够深刻理解HKG复杂结构的关键 。在HKG中,一个事实由多个组件构成,包括主三元组的头实体、尾实体、主关系,以及一组限定词实体和限定词关系。MAYPL不仅关注事实作为一个整体所传递的信息,还关注这些组件之间的相互作用和连接方式。例如,模型会区分一个实体是作为主三元组的头实体还是作为限定词实体出现,因为这两种角色在语义上通常具有不同的重要性。
在消息聚合的过程中,MAYPL通过其精心设计的注意力机制,隐式地捕捉了这种组件级的连通性。当一个实体聚合来自不同事实的消息时,注意力权重不仅取决于事实本身,还取决于该实体在该事实中的具体角色(即组件位置)。同样,当一个关系聚合信息时,模型也会考虑它作为主关系或限定词关系的不同身份。这种对组件级连通性的细致考量,使得MAYPL能够更准确地评估不同连接的重要性,从而生成更具区分度的实体和关系表示。例如,模型可以学习到,一个作为“出生地”关系尾实体的“城市”实体,与一个作为“限定词”的“城市”实体(例如,说明某个事件发生的城市),在语义上应该有不同的表示。这种对结构细节的极致利用,是MAYPL区别于其他GNN或Transformer-based方法的重要特征,也是其取得优异性能的原因之一。
2.3 实现归纳推理的原理
2.3.1 学习如何计算、传播和聚合消息
MAYPL实现归纳推理的核心原理在于,它在训练阶段学习的并非特定实体或关系的固定表示,而是学习一种通用的“方法论”,即如何在一个给定的超关系知识图谱(HKG)结构上计算、传播和聚合消息 。这个“方法论”由两个主要部分构成:结构驱动的初始化器和注意力神经消息传递模块。这两个模块的参数(例如,神经网络中的权重矩阵)是在训练过程中通过优化链接预测任务的目标函数(如交叉熵损失)来学习的。然而,这些参数并不与任何特定的实体或关系绑定,而是定义了一套普适的计算规则。
具体来说,模型学习的是如何根据一个节点(实体或关系)的局部结构信息(如邻居的身份、共现关系、在事实中的位置)来生成其初始表示。然后,它学习如何通过一个注意力机制,在事实、实体和关系之间传递和加权这些信息。这个学习过程的本质是,模型在大量不同的HKG子结构上进行训练,从而抽象出一种能够捕捉图结构共性的能力。例如,模型可能学习到,一个连接两个高度中心实体的关系通常比连接两个孤立节点的关系更重要,或者一个作为多个事实限定词的实体可能具有某种特定的语义属性。这些学习到的规则是关于“如何表示”的,而不是关于“表示什么”的。因此,当模型面对一个全新的HKG时,它可以将这套已经学习到的计算规则直接应用到这个新图谱的结构上,从而为其中任何新的实体和关系生成有效的表示。
2.3.2 将学习到的模式应用于全新的图结构
MAYPL的归纳推理能力最终体现在它能够将训练阶段学习到的关于“如何计算、传播和聚合消息”的模式,无缝地应用于一个与训练图谱在实体和关系集合上完全不同的全新图结构 。这个过程不需要任何微调或重新训练。当一个全新的HKG被输入到训练好的MAYPL模型中时,模型会按照以下步骤进行推理:首先,它会对新图谱中的所有实体和关系应用其结构驱动的初始化器。这个初始化器会根据每个节点在新图谱中的局部连接模式(即其邻居信息)来生成它们的初始表示。这个过程完全基于结构,因此即使是全新的节点也能得到合理的初始表示。
接下来,模型会启动其多层的注意力神经消息传递模块。在每一层中,模型会计算新图谱中所有事实的“事实级消息”,然后通过注意力机制将这些消息聚合到实体和关系上,迭代更新它们的表示。由于消息传递的规则(即注意力权重的计算方式和信息的聚合函数)已经在训练阶段被学习并固定下来,模型可以直接将这些规则应用于新图谱的结构。通过多轮迭代,信息在新图谱的拓扑结构中充分传播,最终为每个实体和关系生成一个融合了全局结构信息的、具有丰富语义的表示。最后,在进行链接预测时,模型只需计算查询实体与候选实体最终表示之间的相似度(如点积),即可预测出最可能的链接。整个过程,从初始化到最终预测,MAYPL都只是在执行其在训练中学到的结构处理流程,因此它能够高效地处理并整合来自全新图结构的知识。
3. 研究背景:超关系知识图谱(HKG)
3.1 HKG的定义与特点
3.1.1 由主三元组和限定词组成的事实表示
超关系知识图谱(Hyper-relational Knowledge Graphs, HKGs)是对传统知识图谱(KGs)的一种重要扩展,旨在解决传统三元组(主语、谓词、宾语)形式在表达复杂信息时的局限性。在HKG中,信息的基本单元不再是简单的三元组,而是一个 “超关系事实”(hyper-relational fact) 。一个超关系事实由一个主三元组(primary triple) 和一组限定词(qualifiers) 组成 。主三元组遵循传统KG的形式,例如 (Finding Nemo, set in, Sydney),表达了核心的语义关系。而限定词则以键值对的形式出现,例如 (country, Australia) 和 (state, New South Wales),它们为主三元组提供了额外的上下文或辅助信息 。
这种结构使得HKG能够更精确、更丰富地表示现实世界中的复杂知识。例如,一个关于“某人担任某公司CEO”的事实,在传统KG中可能只表示为 (PersonX, CEO_of, CompanyY)。但在HKG中,可以通过添加限定词来表达更多信息,如 (PersonX, CEO_of, CompanyY), {(start_time, 2020), (end_time, 2023), (location, USA)},从而将事实的有效期、地理位置等关键信息整合进来。这种表达能力上的提升,使得HKG在处理需要多维度、多上下文信息的任务(如复杂问答、事件推理)时,具有天然的优势。MAYPL论文正是基于这种更富表达力的知识表示形式,设计其结构驱动的学习框架,以充分利用HKG中蕴含的丰富结构信息。
3.1.2 在现实世界知识库(如Wikidata)中的应用
超关系知识图谱(HKG)并非纯粹的理论构想,它已经在现实世界的知识库中得到了广泛应用,其中最具代表性的就是Wikidata和YAGO 。Wikidata作为一个自由、协作编辑的知识库,旨在为维基百科及其他项目提供结构化的数据源。在Wikidata中,大量的陈述(statements)都采用了类似HKG的结构。一个陈述包含一个主三元组(在Wikidata中称为“声明”),并且可以附加多个“限定符”(qualifiers)来提供额外的上下文信息,如时间、地点、数量、来源等。例如,关于“埃菲尔铁塔的高度”这一事实,其主三元组可能是 (Eiffel Tower, height, 300 meters),同时可以附加限定词 (point in time, 2023) 和 (determination method, laser measurement),从而提供了关于该高度测量值的时间和方式等关键信息。
这种丰富的表示方式使得Wikidata能够存储比传统三元组KG更为精确和全面的知识。然而,这种复杂性也给知识图谱的表示学习和推理带来了新的挑战。传统的KG嵌入方法大多是为处理简单的三元组而设计的,它们难以直接有效地利用HKG中由限定词引入的复杂结构信息。许多现有的HKG表示学习方法,为了简化问题,会选择将HKG转换为其他形式,如知识超图(KHG)或n元关系表示(NRR),但这种转换往往会导致信息的丢失 。MAYPL的研究正是直面这一挑战,提出了一种能够直接在原始HKG结构上进行学习的方法,旨在充分挖掘和利用Wikidata等真实世界知识库中蕴含的丰富信息,从而提升推理的准确性和深度。
3.2 现有方法的局限性
3.2.1 将HKG转换为其他形式(如知识超图)导致信息丢失
面对超关系知识图谱(HKG)的复杂性,许多现有的表示学习方法采取了一种简化的策略,即把HKG转换为其他更易于处理的形式,如知识超图(Knowledge Hypergraphs, KHGs) 或n元关系表示(N-ary Relation Representations, NRRs) 。然而,MAYPL论文明确指出,这种转换过程不可避免地会导致原始HKG中部分结构信息的丢失,从而限制了模型的表达能力 。例如,在将HKG转换为NRR时,一个包含主三元组和限定词的事实可能会被分解为一组角色-值对。在这个过程中,主三元组中头实体和尾实体之间的核心关系可能会被弱化,或者限定词与主三元组之间的依赖关系可能会变得不明确。
同样,在将HKG转换为KHG时,每个事实被表示为一个无序的元组,实体和关系的原始角色和位置信息(如头实体、尾实体、主关系、限定词关系)可能会丢失 。论文中通过一个具体的例子说明了这种信息丢失:在一个原始HKG中,某个实体可能同时作为两个不同事实的限定词实体,从而与两个不同的主关系产生间接关联。但在转换为KHG或NRR后,这种间接关联的结构信息可能就无法被保留 。这种信息的损失意味着,转换后的表示无法完全等价地表达原始HKG的语义。因此,直接在原始HKG结构上进行学习,而不是将其转换为其他形式,是更为可取和有效的策略。MAYPL正是基于这一洞察,设计了一种能够原生处理HKG结构的方法,从而避免了因格式转换带来的信息损失问题。
3.2.2 现有方法多为转导式学习,无法处理新实体和关系
现有的大多数知识图谱表示学习方法,无论是针对传统KG还是HKG,其主流范式仍然是转导式学习(Transductive Learning) 。这些方法的核心思想是为训练图谱中的每个实体和关系学习一个唯一的、固定的嵌入向量。例如,像TransE、RotatE这样的经典模型,以及一些基于Transformer的先进方法如StarE和HyNT,都遵循这一范式 。这种设计的直接后果是,模型的表示空间与训练数据中的特定元素紧密耦合。当在推理阶段遇到训练数据中未曾见过的全新实体或关系时,这些模型将无法为其生成有效的嵌入表示,从而无法进行链接预测。
这种局限性在动态和不断扩展的知识库中尤为突出。现实世界中的知识图谱,如Wikidata,是持续增长的,新的实体和关系类型不断涌现。一个无法处理新元素的模型,其实用价值会大打折扣。虽然近年来出现了一些归纳式知识图谱补全方法,但它们的能力也往往受限。例如,一些方法(如G-MPNN)只能处理与已知实体“一跳”范围内的新实体;另一些方法(如InGram)虽然能处理更广泛的新实体,但通常假设关系集合是固定的 。而像QBLP这样的方法,虽然能在HKG上处理新实体,但依赖于外部文本特征,且无法处理新关系 。MAYPL的突破性在于,它提出了一种纯粹的、基于结构的学习框架,能够在一个统一的模型中同时处理全新的实体和全新的关系,而无需任何外部信息,这使其在归纳推理能力上显著优于现有的转导式和部分归纳式方法。
4. 实验验证与性能优势
4.1 实验设置与数据集
4.1.1 10个基准数据集的测试
为了全面、客观地评估MAYPL的性能,论文作者在多达10个不同的基准数据集上进行了广泛的实验 。这些数据集涵盖了多种场景和任务,确保了实验结果的可靠性和普适性。具体来说,这些数据集可以分为三类:1)用于转导式链接预测的超关系知识图谱(Transductive HKG)数据集;2)用于归纳式链接预测的传统知识图谱(Inductive KG)数据集;3)用于归纳式链接预测的超关系知识图谱(Inductive HKG)数据集。这种多样化的数据集选择,旨在从不同角度测试MAYPL的能力,包括其在处理复杂HKG结构、泛化到新实体以及同时处理新实体和新关系方面的表现。
这些数据集的具体名称在论文的GitHub代码仓库中有所提及,例如 WD50K, WikiPeople-, WD20K100v1, WK-50 等 。这些数据集在规模、领域和结构复杂性上各不相同。例如,WikiPeople 数据集通常包含关于人物的丰富属性和关系,而 WD50K 等数据集则来源于大规模的Wikidata子集,具有更高的复杂性和噪声。通过在如此多样化的数据集上进行测试,论文有力地证明了MAYPL方法的鲁棒性和广泛适用性。实验结果表明,MAYPL在所有这些不同的数据集上均表现出色,超越了大量的基线方法,这充分验证了其“结构就是一切”核心思想的正确性和有效性。
4.1.2 涵盖转导式和归纳式两种学习场景
MAYPL的实验设计非常全面,不仅测试了其在传统的转导式(transductive) 链接预测任务上的性能,更重要的是,重点评估了其在更具挑战性的归纳式(inductive) 链接预测任务上的表现 。转导式场景是知识图谱补全领域的经典设置,其目标是预测训练图谱中已存在实体之间的缺失链接。在这个场景下,所有实体和关系在训练时都是已知的。而归纳式场景则更加贴近现实世界的应用需求,它要求模型能够在一个与训练图谱完全不同的新图谱上进行推理,这个新图谱包含训练时从未见过的实体和关系。
论文的实验涵盖了三种不同的归纳设置:1)在传统知识图谱(KG)上进行归纳链接预测,即测试图谱和训练图谱的关系集合相同,但实体集合完全不同;2)在超关系知识图谱(HKG)上进行归纳链接预测,即测试图谱的实体和关系集合都与训练图谱不同 。通过在转导式和多种归纳式场景下进行全面的性能对比,论文清晰地展示了MAYPL相较于现有方法的优势。实验结果有力地证明,MAYPL不仅在转导式任务上达到了最先进的性能,更在归纳式任务上取得了显著的突破,尤其是在处理全新实体和关系的HKG归纳推理方面,其性能远超其他基线方法。这充分验证了MAYPL结构驱动学习框架在实现知识泛化方面的强大能力。
4.2 性能对比
4.2.1 在40种知识图谱补全方法中取得最优性能
在广泛的性能对比实验中,MAYPL展现了其卓越的性能,在多达10个基准数据集上,与40种不同的知识图谱补全基线方法进行了比较,并在绝大多数情况下取得了最优(state-of-the-art) 的性能 。这些基线方法涵盖了多种技术流派,包括传统的转导式嵌入模型、基于图神经网络(GNN)的方法、基于Transformer的模型,以及一些最新的归纳式学习方法。这种全面的对比,充分证明了MAYPL在知识图谱补全领域的领先地位。
具体来说,在转导式超关系知识图谱链接预测任务上,MAYPL在多个数据集上的性能指标(如MRR, Hits@N)均显著优于StarE、HAHE等专门为HKG设计的先进模型。而在更具挑战性的归纳式链接预测任务上,MAYPL的优势更为明显。无论是在传统KG上还是在HKG上,当面对全新的实体和关系时,MAYPL的性能都大幅超越了InGram、G-MPNN等归纳式基线方法。例如,在WK-50和WD20K(100)v2等归纳数据集上,MAYPL的MRR(Mean Reciprocal Rank)得分远高于其他方法 。这些实验结果强有力地支持了论文的核心论点:彻底学习和利用HKG的结构信息,是实现高效知识图谱表示学习和推理的关键。MAYPL的成功表明,一个纯粹基于结构的方法,足以在复杂的知识图谱任务中达到甚至超越那些依赖额外信息或更复杂模型的方法。
4.2.2 在归纳推理任务上的显著优势
MAYPL最引人注目的性能优势体现在归纳推理任务上。如前所述,归纳推理要求模型能够泛化到包含全新实体和关系的知识图谱上,这对模型的泛化能力提出了极高的要求。实验结果清晰地表明,MAYPL在这一任务上具有显著的优势。与那些只能处理新实体但无法处理新关系的方法(如G-MPNN、HCNet)相比,MAYPL能够同时对两者进行有效推理,这使其在处理动态和不断扩展的知识库时具有无与伦比的优势。
论文的消融研究进一步揭示了MAYPL在归纳推理上取得成功的关键。研究发现,MAYPL的结构驱动初始化器和注意力神经消息传递模块对于其在归纳设置下的高性能至关重要。当移除结构驱动初始化器,改用普通的可学习向量时,模型在归纳任务上的性能会大幅下降 。同样,当移除注意力机制,让所有事实的贡献相等时,性能也会受到严重影响 。这表明,正是MAYPL这种纯粹基于结构、动态计算表示的方式,赋予了其强大的归纳能力。定性分析也显示,通过MAYPL的最终表示选择的相似实体或关系,比仅使用初始化器时更加相关和语义上更接近,这说明其消息传递机制能够有效地细化和优化初始的结构驱动表示 。这些发现共同证实了MAYPL在归纳推理任务上的显著优势,并为其成功提供了深刻的解释。