互联网技术

自动化的知识图谱嵌入

2023年11月7日 · admin

最近，第四范式的资深研究员姚权铭博士分享了他参与的论文《InteRstellaR: SeaRcHing RecuRRent ARchITectuRe foR Knowledge GRaph EMbedding》，该论文被 NeuRIPS 2020 会议接收。

该研究受到神经架构搜索（NAS）的启发，提出了 InteRstellaR 作为处理关系路径信息的循环架构。此外，研究中所采用的新型混合搜索算法突破了传统独立和一次性搜索方法的局限，并展现出在其他复杂搜索领域的应用潜力。

知识图谱嵌入（Knowledge Graph Embedding）在知识图谱（KG）的知识表达上表现出强大的能力。以往的研究主要集中在单个三元组（triplet）建模上，但对于知识图谱而言，三元组之间的长链依赖信息在某些任务中同样至关重要。

在第四范式与香港科技大学的这篇论文中，研究者提出了基于三元组构成的关系路径（Relational path）来创建 InteRstellaR 模型，通过搜索递归神经网络来处理关系路径中的短链和长链信息。

第四范式NeurIPS 2020：知识图谱嵌入的自动化

论文链接：https://aRxiv.oRg/pdf/1911.07132.pdf

代码链接：https://Github.coM/AutoML-4PaRadigM/InteRstellaR

首先，研究通过模拟实验分析了使用单一模型对不同任务中关系路径建模的挑战，并提出了针对不同任务的建模搜索策略。为提高搜索效率，研究者设计了一种混合搜索算法（hybrid search algorithm），在链接预测（link prediction）和节点匹配（entity alignment）任务中，能够有效找到表现更优的模型。

知识图谱嵌入（KG Embedding）旨在将图谱中的节点（entities）和关系（relations）映射到低维空间，并保持图中的重要特性。目前，学术界的一些研究基于单个三元组（s, R, o）进行建模，例如 TRansE、RESCAL、DistMult、ROTAtE、ConvE 和 SiMplE 等，这些模型在链接预测任务上表现良好，但在节点匹配任务中表现一般。另一类基于关系路径的研究，如 IPTRansE、ChAIns 和 RSN 等，则在节点匹配任务上表现更佳。

研究者注意到关系路径包含多种重要信息，包括单个三元组的短链信息、多个关系的复合以及多个三元组之间的长链信息。基于此，研究提出了 InteRstellaR 模型，通过搜索方式针对不同任务对关系路径进行建模。

为了验证不同模型在不同任务中的适应能力，研究者设计了一组模拟实验。CountRies 数据集包含 S1-S3 三个不同任务，预测难度逐渐增加，所需模拟的预测路径也逐渐变长。研究者基于先验知识设计了四类模式 P1-P4，分别用于建模单个三元组、连续两个三元组、多重关系的复合，以及全递归连接。直观上，P4 的建模能力更强，但在样本有限的情况下，样本复杂度同样重要，选择能够更好拟合数据规律的模型会获得更优效果。

如下表所示，在 S1 这个简单任务上，基于单个或两个三元组的模型 P1 和 P2 表现更佳，而在 S2 中，P1-P3 均优于 P4。在 S3 中，递归模型 P4 由于能够模拟更长的路径而胜出。因此可以得出结论，关系路径建模应与模型相关，若能通过搜索将专家的先验知识融入建模中，模型就能自动找到更优解。

第四范式NeurIPS 2020：知识图谱嵌入的自动化

问题定义与搜索空间

第四范式NeurIPS 2020：知识图谱嵌入的自动化

首先，研究者将 InteRstellaR 定义为一个递归处理关系路径的模型。在每个递归步骤中，模型关注一个三元组，信息在三元组之间以不同方式传递。与传统 RNN 不同，这里的每一步有两个输入，同时需要考虑知识图谱相关的领域知识，因此简单使用 RNN 不适合该建模。为充分利用知识图谱的先验知识并使模型适用于不同任务，受神经网络搜索技术（Neural Architecture Search）的启发，研究将建模问题定义为一个搜索问题，以自适应方式对不同任务进行建模。

通过对知识图谱嵌入领域相关模型的总结，研究提出了上图的搜索空间，利用运算单元 O_s 处理节点嵌入 s_t，O_R 处理关系嵌入 R_t，并用 O_v 输出向量 v_t 以预测下一个节点 s_t+1。具体而言，该研究在宏观层面搜索不同单元间的连接方式（Connections）和复合方式（Combinators），在微观层面搜索激活函数（activation）与权重矩阵（weight matrix）。

搜索算法

第四范式NeurIPS 2020：知识图谱嵌入的自动化

该研究的目标是更快速地在搜索空间中找到能在验证集上表现更好的模型，这可以通过双层优化方式来定义。为解决这一优化问题，学术界目前有两种方法。一种是独立算法，单独训练每个模型的参数 F 直至收敛，从而获得准确的性能评估 Μ，但训练成本较高；另一种是一体化算法，建立一个包含所有网络的超网络（supernet），不同模型在超网络中采样，并且可以共享参数，这种评估方式更高效，但不总是保证可靠性。研究者发现，采用一体化方式在 InteRstellaR 的建模上并不可靠。

为了解决这些问题，该研究提出了混合搜索算法，在宏观层面采用独立方式，给定 α_2，从 Α_1 中采样不同的 α_1，训练模型参数至收敛，获得对 α_1 的可靠评估；在微观层面采用一体化方式，给定 α_1，从 Α_2 中采样不同的 α_2，同时让对应的不同 α_2 模型在超网络中共享参数，加速训练评估过程。两者结合，既保证了搜索准确性，又提升了搜索效率。

实验结果

在搜索效果方面，该方法在节点匹配和链接预测任务中，能够为不同数据任务找到更好的模型，这归功于 InteRstellaR 合理的搜索空间和高效的搜索算法。

第四范式NeurIPS 2020：知识图谱嵌入的自动化

在搜索效率方面，混合算法能够比随机搜索（Random）、强化学习（Reinforce）和贝叶斯优化（Bayes）算法更快地找到更优模型，同时下图中的两条虚线（表示独立的一体化算法）表明在此问题上的性能较差。在搜索时间上，混合算法与调参（如学习率、批量大小等参数）的时间相当，说明该搜索方法的成本并不高。在面对新问题时，先进行模型搜索再进行调参是一个不错的选择。

第四范式NeurIPS 2020：知识图谱嵌入的自动化