查看原文
其他

HIRE——基于异构图神经网络的高阶关系级知识蒸馏方法

刘静 PaperWeekly 2022-09-26


©PaperWeekly 原创 · 作者 | 刘静

单位 | 中科院计算技术研究所博士生

研究方向 | 异构图神经网络、知识蒸馏


由于异构图在学术界和工业界的普遍存在,研究人员最近提出了大量的异构图神经网(HGNN)。与追求更强大的 HGNN 模型不同,本文更加感兴趣的是设计一个通用的即插即用模块,该模块从预先训练的 HGNN 中提取相关知识。据我们所知,本文是首篇提出异构图神经网络上的高阶关系(HIgh-order RElational, HIRE)知识蒸馏框架,该框架可以显著提高异构图神经网络模型的性能。

具体来说,该方法通过进行节点级知识蒸馏(Node-level Knowledge Distillation, NKD),对预训练异构教师模型的单个节点语义进行编码;通过进行关系级知识蒸馏(Relation-level Knowledge Distillatio, RKD),对预训练异构教师模型的不同类型节点之间的语义关系进行建模。

通过整合节点级知识蒸馏和系级知识蒸馏,这种高阶关系知识蒸馏方法成为一种实用且通用的训练方法,适用于任意的异构图神经网络,不仅提升了异构学生模型的性能和泛化能力,而且保证了对异构图神经网络的节点级和关系级知识提取。


论文标题:
HIRE: Distilling high-order relational knowledge from heterogeneous graph neural networks

论文单位:

中科院计算技术研究所 & 浙江大学

论文链接:

https://www.sciencedirect.com/science/article/pii/S0925231222009961 https://arxiv.org/abs/2207.11887





方法

1.1 动机

近年来,为了解决异构图中节点和边的异质性问题,研究人员提出了许多基于 HGNN 的方法,主要分为基于元路径的方法和基于边关系的方法。虽然现有的 HGNN 已经取得了很好的性能,但它们的表示能力受限于(1)数据标注不精确。一般来说,HGNN 的训练方式属于半监督学习,因此其性能高度依赖于大量高质量的标签数据。然而,模糊的数据标注将成为 HGNN 建模的瓶颈;(2)不同类型节点之间的语义关系建模困难。尽管元路径被用于异构图中的高阶语义建模,但是不同领域的元路径选择仍然具有挑战性,因为它需要足够的领域知识。
近年来,深度学习中的知识蒸馏(KD)技术在提升模型的性能上展现出一定的优点。目前,有一些工作尝试将知识蒸馏方法和图神经网络结合在一起进行应用。虽然这些蒸馏方法的性能很好,但它们都是为同构图神经网络设计的,其中处理的数据中每个节点或边都是相同的类型。

那么如何在 HGNN 上设计出一种高效通用的知识蒸馏方法呢?本文提出 HIRE 方法来解决该问题,具体实现见下文。

1.2 创新
本文工作的创新点主要有 3 点:
1. 据我们所知,本文是第一个研究异构图上的知识蒸馏研究问题的工作。值得注意的是,本文通过考虑异构图的二阶关系知识来建模 HGNN 的高阶知识。
2. 本文提出了一个新的知识蒸馏框架——HIRE,同时考虑单个节点软标签和不同节点类型之间的相关性知识。后者通过引入类型相关的注意层来获取异构图中不同类型节点的丰富语义信息,从而将不同节点之间的关系知识传递给学生。

3. 本文在流行的 HGNN 模型上进行了广泛的实验,证实了 HIRE 框架的有效性和强泛化能力。

1.3 HIRE

本文提出的高阶关系知识蒸馏 HIRE 模型框架如下图 2 所示,主要包含两个组件:一阶节点级知识蒸馏 NKD 和二阶关系级知识蒸馏 RKD,分别用来解决 HGNN 目前面临的两大挑战。



其中 RKD 的具体实现可见下图 1c。


1.4 NKD

针对数据标签标注不精确的问题,本文引入一阶节点级知识蒸馏(NKD)方法,将目标节点(如电影数据中的电影)的软标签传递给学生,为下游任务(如节点分类)提供一般的监督信息,解决节点标注问题。



1.5 RKD

针对异构图中不同类型节点之间的语义关系建模问题,设计二阶关系级知识蒸馏(RKD)方法,从预训练教师模型中编码不同节点类型之间的关系知识转移到学生模型中,为下游任务(如节点分类)提供高阶关系语义监督信息,解决软性建模语义关联问题。



1.6 训练

HIRE 模型训练过程见下面算法 1:





实验

本文通过大量的实验主要回答以下三个问题:
  • RQ1:HIRE 在节点分类、节点聚类和节点可视化任务上的整体表现如何?

  • RQ2:HIRE 中的 NKD 和 RKD 这两个组件分别起着什么样的作用?

  • RQ3:超参数的不同设置如何影响 HIRE 框架的整体预测性能?

3.1 数据集

本文使用的数据集包括 ACM、IMDB 等常用基准数据集,具体如下表 3 所示:


3.2 节点分类

HIRE 方法在 ACM 数据集上的节点分类实验结果如表 4 所示,发现随着培训比例的增加,学生模型性能均获得一致显著提升,提升范围为 0.1% ∼ 3.1%,这表明本文提出的 HIRE 方法的有效性和强泛化能力。HIRE 在其他两个数据集上的效果详细可见论文。

3.3 节点聚类

如表 7 所示,HIRE 方法在节点聚类任务上仍表现出卓越的性能,学生模型能够持续显著地提高相应教师模型的性能,最高可达∼53.3%


3.4 节点可视化

为了更直观的比较,本文还进行了节点可视化任务。以 ACM 数据集为例,从图 3 中,可以观察到相较于教师模型,学生模型可以提供清晰的边界,使得类内相似性变高,类间隔变大


3.5 消融实验

3.5.1 不同阶知识蒸馏效果对比

为了验证 HIRE 每个组件的有效性,本文进一步对不同的 HIRE 变体进行了实验。其中,CE(交叉熵)等价于教师模型。四种变体的实现效果如下图 5 所示,整体表现出 HIRE ≥ RKD ≫ NKD > CE


3.5.2 注意力值可视化

HIRE 的一个显著特性是加入了一个类型相关的注意层模块,为了验证该模块的作用,本文对不同异构节点的注意力值进行可视化,实验结果如下图 7 所示:发现该模块可以自是定获取不同节点类型和边的高阶语义监督信息


3.6 参数敏感性实验

通过在 3 个数据集上对所有异构模型的超参数进行参数敏感性实验,HIRE 对参数不敏感,具有很好的鲁棒性





总结

本文首次提出了基于 HGNN 的高阶关系(HIgh-order RElational, HIRE)知识蒸馏框架,填补了从异构图神经网络模型中提取知识的空白。在 ACM、IMDB 和 DBLP 数据集上进行的大量实验证明了我们提出的 HIRE 的有效性,尤其可以自适应获取高阶语义,且可适用于任意的异构图神经网络。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存