OGB-知识推理概览必读:三大推理评测任务、数据集与现有模型水平概述
知识推理与知识表示是一个十分有意思的话题,我们在之前的文章对这一话题进行了介绍,团队也在跟进知识表述模型的研制和业务落地工作。例如:
《从OGB评测看大规模知识图谱表示:从TripleRE、InterHT再到Trans模型赏析》、
《KG-Embedding前沿:引入节点位置特征的注意力神经网络表示模型GFA-NN剖析与总结》、
《大规模知识图谱表示必读:从Bert中的wordpiece到KG中的nodepiece》等文章中都提到了大规模知识图谱OGB数据集的相关预测任务。
其实,就OGB评测而言,其包括了面向节点属性补全的Node Property Prediction、预测边缘(节点对)属性的Link Property Prediction以及面向整个图或子图的属性预测的Graph Property Prediction任务。
特别有意思的是,这些数据集不仅仅数据规模较大,还与实际的场景有直接关系,如应用于生物场景的ogbn-proteins、面向科研场景的ogbn-papers100M等。
为了进一步的对该评测进行梳理,并对现实的模型水平进行介绍,本文主要从数据集、任务类型以及现有实际指标几个方面对OGB常见评测进行介绍,供大家一起思考。
一、Node Property Prediction节点属性预测
Node Property Prediction节点属性预测,任务是预测单个节点的属性。主要包括有ogbn-products、ogbn-proteins、ogbn-arxiv、ogbn-arxiv、ogbn-papers100M、ogbn-mag等五个数据集。
1、ogbn-products
ogbn-products数据集是一个无向和未加权的图谱,代表亚马逊产品共同购买网络。
其中,节点代表在亚马逊销售的产品,两种产品之间的边缘表示产品是一起购买的,节点特征是通过从产品描述中提取字袋特征,然后进行主成分分析来生成的,维度为100。
1)任务描述
任务是在多类分类设置中预测产品的类别,包括47目标标签。
在数据集拆分上,考虑一种更具挑战性和现实的数据集拆分,这与[2]中使用的数据集拆分不同,而不是随机分配90%的节点进行训练和10%的节点进行测试(不使用验证集),而是使用销售排名(流行)将节点分成培训/验证/测试集。
2)实际表现
2、ogbn-proteins
ogbn-proteins数据集是一个无向、加权和类型图。节点表示蛋白质,边缘表示蛋白质之间不同类型的生物学意义关联,例如物理相互作用、共表达或同调。
所有边都具有8维特征,其中每个维度表示单个关联类型的近似置信,并取值在0到1之间,这些蛋白质来自8个物种。
1)任务描述
该任务是预测蛋白质的112种标签,使用ROC-AUC的平均分数来衡量。
在数据集拆分上,根据蛋白质来自的物种将蛋白质节点分为训练/验证/测试集
2)实际表现
3、ogbn-arxiv
ogbn-arxiv数据集是一个有向图,表示由MAG索引的所有计算机科学(CS)arXiv论文之间的引用网络。
每个节点都是一张arXiv论文,每个定向边缘表示某篇论文引用了另一篇论文。每篇论文都配有一个128维特征向量,通过平均标题和摘要中的单词嵌入来获得。单个单词的嵌入是通过在MAG语料库上skip-gram模型来计算的。
1)任务描述
该任务是预测arXiv CS论文的40个主题领域,例如cs.AI、cs.LG和cs.OS,这些主题领域由论文作者和arXiv版主手动确定。
在数据集拆分上,根据论文的出版日期对数据进行拆分。对2017年之前发表的论文进行培训,对2018年发表的论文进行验证,并对2019年以来发表的论文进行测试。
2)实际表现
4、ogbn-papers100M
ogbn-papers100M数据集是由MAG索引的1.11亿篇论文的定向引用图。
它的图形结构和节点特征与ogbn-arxiv的构造方式相同,在其节点集中,其中约150万篇是arXiv论文,每篇论文都手动标记为arXiv的主题领域之一。
1)任务描述
该任务是给定完整的ogbn-papers100M图,预测在arXiv上发表的论文子集的主题区域。大多数节点(对应于非arXiv论文)与标签信息无关,仅给出其节点特征和参考信息。
该任务利用整个引用网络来推断arXiv论文的标签。总共有172个arXiv主题领域,使预测任务成为172类分类问题。
在数据集拆分上,与ogbn-arxiv中使用的策略相同,使用基于时间的拆分。训练集(带标签)都是2017年之前出版的arXiv论文,而验证节点是2018年发布的arXiv论文,模型在2019年以来发表的arXiv论文上进行测试。
2)实际表现
5、ogbn-mag:
ogbn-mag数据集是一个由Microsoft Academic Graph(MAG)的子集组成的异构网络,包含四种类型的实体—论文(736,389个节点)、作者(1,134,649个节点)、机构(8,740个节点)和研究领域(59,965个节点)。
以及连接两种实体的四种类型的定向关系—作者“隶属于”一个机构,一个作者“写”一篇论文,一篇论文“引用”一篇论文,一篇论文“有一个”研究领域的主题。
与ogbn-arxiv类似,每篇论文都与128维word2vec特征向量相关联,所有其他类型的实体都与输入节点特征无关。
1)任务描述
该任务鉴于异构ogbn-mag数据,任务是预测每篇论文的内容、参考文献、作者和作者的隶属关系,其地点(会议或期刊),ogbn-mag总共有349个不同的场地,使这项任务成为349级分类问题。
在数据集拆分上,遵循与ogbn-arxiv和ogbn-papers100M相同的基于时间的策略,在异构图中拆分纸张节点,以预测2018年之前发布的所有论文的场地标签,分别在2018年和2019年以来发表的论文上验证和测试模型。
2)实际表现
二、Link Property Prediction 链接属性预测
Link Property Prediction 链接属性预测,任务是预测边缘(节点对)的属性,包括ogbl-ppa、ogbl-collab、ogbl-ddi、ogbl-citation2、ogbl-wikikg2、ogbl-biokg等6大数据集。
1、ogbl-ppa
ogbl-ppa数据集是一个无向、未加权的图。节点代表来自58个不同物种的蛋白质,边表示蛋白质之间具有生物学意义的联系,例如物理相互作用、共同表达、同源性或基因组邻域。
1)任务描述
该任务是预测给定训练边缘的新关联边缘。评估基于模型将阳性测试边缘与阴性测试边缘进行排名。
具体来说,将验证/测试集中的每个正边与300万个随机采样的负边进行排名,并计算排名Hits@k。
2)实际表现
2、ogbl-collab
ogbl-collab数据集是一个无向图,表示由MAG索引的作者之间协作网络的一个子集。
每个节点代表一个作者,边表示作者之间的协作,所有节点都具有128维特征,通过平均作者发表的论文的单词嵌入获得。
1)任务描述
所有边都与两种元信息有关:年份和边缘权重,代表该年发表的合著论文数量。该图可以被视为动态多图,因为如果两个节点在一年以上的协作中,它们之间可以有多个边。
该任务是预测未来的作者协作关系,在数据集拆分上,根据时间拆分数据,将2017年之前的合作用训练集,将2018年的协作用作验证集,2019年的协作作为测试集。
2)实际表现
3、ogbl-ddi
ogbl-ddi数据集是一个未加权的无向图,表示药物-药物的相互作用网络。每个节点代表FDA批准的或实验性药物。
边代表药物之间的相互作用,可以解释为一种现象,即将两种药物结合在一起的联合作用与药物相互独立作用的预期效果大不相同。
1)任务描述
该任务是根据已知的药物-药物相互作用的信息,预测药物-药物相互作用,希望该模型对真实药物相互作用的排名高于非相互作用药物对。
在评估上,在一组大约10万个随机采样的阴性药物相互作用中对每种真正的药物相互作用进行排名,并计算Hits@K
2)实际表现
4、ogbl-citation2
ogbl-citation2数据集是一个有向图,表示从MAG 提取的论文子集之间的引用网络。Dach节点是一篇具有128维word2vec特征的论文,总结了其标题和摘要,每个有向边缘都表明一篇论文引用了另一篇论文。
所有节点还附带元信息,表明相应论文的出版年份。
1)任务描述
为了模拟引用推荐中的现实应用,例如,用户正在撰写一篇新论文,并且已经引用了几篇现有论文,但希望推荐其他参考文献)。该任务是预测现有引文缺失的引文,对于每篇原始文件,其两个参考文献被随机删除,希望该模型对缺失的两个参考文献进行预测
2)实际表现
5、ogbl-wikikg2
ogbl-wikikg2数据集是从维基数据知识库中提取的知识图谱,包含一个三元组(head、relation、tail),捕捉了世界实体之间的不同类型的关系,例如(加拿大、公民、辛顿)。
通过检索维基数据中的所有关系语句,并过滤掉稀有实体,形成的KG包含2,500,604个实体和535种关系类型。
此外,还有个超大版本WikiKG90Mv2,产生了91,230,610个实体、1,387个关系和601,062,811个三倍。
1)任务描述
该任务是预测新三元组,即给定一组训练三元组,预测一组新的测试三元组,也就是对于每个测试三重(head、relation、tail),要求模型从(head、relation)预测tail实体。
通过用随机采样的1000个负实体(head500个,tail500个)替换其head或tail来生成每个测试三元组,并确保由此产生的三元组不会出现在原始KG中,目标是对真实head(或tail)实体进行高于负实体的排名。
在数据集拆分上,根据时间拆分三元组,以模拟现实的KG补全场景,旨在填充在特定时间戳下缺失三元组。具体的,在三个不同的时间戳(2015年5月、8月和11月)下载了维基数据,并构建了三个KG,并只保留了最早5月KG中出现的实体和关系类型。
最后,使用5月KG进行培训,并使用8月和11月KG中的新增数据进行验证和测试。
2)实际表现wikikg2
3)实际表现WikiKG90Mv2
6、ogbl-biokg
ogbl-biokg数据集是一个知识图谱,包含5种实体:疾病(10,687个节点)、蛋白质(17,499个)、药物(10,533个节点)、副作用(9,969个节点)和蛋白质功能(45,085个节点)。
其中,包括有51种类型的定向关系连接了两种类型的实体,包括39种药物-药物相互作用,8种蛋白质-蛋白质相互作用,以及药物-蛋白质、药物副作用、药物-蛋白质、功能-功能关系。
此外,所有关系都被建模为有向边,其中连接相同实体类型(例如蛋白质-蛋白质、药物-药物、功能-功能)的关系总是对称的,即边是双向的。
该数据集与生物医学和基础机器学习研究都相关。在生物医学方面,数据集使我们能够更好地了解人类生物学,并生成预测,以指导下游生物医学研究。
ogbl-biokg数据集涉及从分子规模(例如细胞内的蛋白质-蛋白质相互作用)到整个人群的异质相互作用(例如,关于特定国家患者经历的不良副作用的报告)。
1)任务描述
该任务是预测预测新三元组。采用ogbl-wikikg2完全相同的评估方式,但只考虑对同一类型的实体进行排名。
2)实际表现
三、Graph Property Prediction图形属性预测
Graph Property Prediction图形属性预测的任务是预测整个图或子图的属性,其中,对于无向图,加载的图的边数将翻倍,因为我们会自动添加双向边。包括ogbg-molhiv、ogbg-molpcba、ogbg-ppa、ogbg-code2等4个数据集。
1、ogbg-molhiv和ogbg-molpcba
ogbg-molhiv和ogbg-molpcba数据集是两个不同大小的分子属性预测数据集:ogbg-molhiv(小)和ogbg-molpcba(中)。
这两个数据集来自于MoleculeNet,是MoleculeNet最大的数据集之一,每个图代表一个分子,其中节点是原子,边是化学键。
输入节点特征是9维的,包含原子序数以及其他额外的原子特征,如形式电荷和原子是否在环中。
为了编码这些原始输入功能,我们准备了名为AtomEncoder和BondEncoder简单模块。它们可用于嵌入原始原子和键特征,以获得atom_emb和bond_emb。
1)任务描述
该任务是尽可能准确地预测目标分子属性,其中分子属性被定义为二进制标签,例如分子是否抑制艾滋病毒的复制。
在数据集拆分上,根据分子的二维结构框架进行拆分,将结构上不同的分子分离成不同的子集。
2)实际表现ogbg-molhiv
3)实际表现ogbg-molpcba
2、ogbg-ppa
ogbg-ppa数据集是一组无向蛋白质关联邻域,从1,581个不同物种的蛋白质-蛋白质关联网络中提取,涵盖37个广泛的分类群(如哺乳动物、细菌科、古生物学)。
为了构建邻接关系,我们从每个物种中随机选择了100种蛋白质,并构建了以每种选定蛋白质为中心的2跳蛋白质关联邻域。然后,从每个邻域中删除中心节点,并对邻域进行子采样,以确保最终的蛋白质关联图足够小(小于300个节点)。
每个蛋白质关联图中的节点代表蛋白质,边缘表示蛋白质之间具有生物学意义的关联。关系边与7维特征相关,其中每个元素的值在0到1之间,并表示特定类型蛋白质关联的近似置信度,如基因共发生、基因融合事件和共表达。
1)任务描述
该任务是给定蛋白质关联邻域图,以预测该图来自哪个分类群,目的是了解跨物种蛋白质复合物的进化、随着时间的推移蛋白质相互作用的重新布线、发现基因之间的功能关联。
2)实际表现
3、ogbg-code2
ogbg-code2数据集是从大约45万个Python方法定义中获取的抽象语法树(AST)的集合。
从GitHub上最受欢迎的项目中总共13587个不同的存储库中提取,数据包括:AST边缘、AST节点和令牌化方法名称。
1)任务描述
该任务是给定AST表示的Python方法主体及其节点特征,预测形成方法名称的子令牌。
这项任务通常被称为“代码总结”,因为模型经过训练,可以为完整的逻辑单元(即方法主体)找到简洁准确的描述(即开发人员选择的方法名称)。
代码总结是机器学习领域的一项具有代表性的任务,不仅因为它在开发人员工具中被直接采用,还因为它是评估模型捕获代码语义程度的代理指标。
2)实际表现
总结
OGB评测,包括了面向节点属性补全的Node Property Prediction、预测边缘(节点对)属性的Link Property Prediction以及面向整个图或子图的属性预测的Graph Property Prediction任务。
这些数据集不仅仅数据规模较大,还与实际的场景有直接关系,如应用于生物场景的ogbn-proteins、面向科研场景的ogbn-papers100M等。
当然,OGB还针对超大规模图预测设置了在异构学术图表中预测论文的主题领域MAG240M数据集、预测知识图表中缺失的事实WikiKG90Mv2数据集。
本文主要从数据集、任务类型以及现有实际指标几个方面对OGB常见评测进行介绍,我们可以发现,如何针对一个特定场景,选择一个特定的数据集构造方式和评估方式,是个很有讲究的事情。
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。