知识图谱:如何让计算机读懂现实世界?
引言
对海量互联网知识资源进行表示、推理和应用,是推动人工智能学科发展的一个前沿研究课题,也是支撑智能信息服务应用的重要基础技术。近年来,知识图谱作为表征现实世界中概念、实体及其关系的网络,已成为人工智能和信息检索技术突飞猛进发展的基础。如何让计算机更好地对知识图谱进行表示和计算,也受到了学术界和工业界的广泛关注。
一、知识图谱
知识图谱是表征现实世界中概念、实体及其关系的网络,描述现实世界不同层次、不同粒度的概念抽象,实现对客观世界从字符串描述到结构化语义描述的跃迁。知识图谱已成为互联网资源组织的基础,是互联网理解世界的基础设施。具体地,知识图谱包含以下几种元素:
1、实体 (Entity):知识库中最基本的元素。
2、关系 (Relation):表示两个实体之间的关系。
3、属性 (Attribute):表示实体的属性信息。又由属性键 (attribute key) 和属性值 (attribute value)两部分组成,例如“身高”是属性键,“229 厘米”是属性值。
4、概念 (Concept):表示一个实体集合,例如“国家”是一个概念,“中国”、“美国”等实体都是该概念的实例。
5、关系型知识 (Relational Knowledge):用于表示两个实体间关系的三元组, 由 (实体,谓语,实体) 组成,例如“(姚明,出生地,上海)”。
6、属性型知识 (Literal Knowledge):用于表示一个实体属性信息的三元组,由 (实体,属性键,属性值)组成,例如“(姚明,身高,229 厘米)”。
7、修饰型知识 (Qualifier Knowledge):用于对一个关系型或属性型的三元组进行进一步的修饰,包含一个修饰键 (qualifier key) 和一个修饰值 (qualifier value)。由 (三元组,修饰键,修饰值) 组成,例如“( (姚明,身高,229 厘米),测量时间,2005 年)”。
二、知识表示学习
知识表示学习是面向知识图谱中实体和关系的表示学习,通过将实体或关系投影到低维向量空间,实现对实体和关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联,对知识图谱的构建、推理及应用均有重要意义。知识表示学习可以分为基于平移距离、基于语义匹配、基于神经网络和融合外部信息共四种方法。
1.基于平移距离的模型
受到词向量空间中平移不变现象的启发,(Bordes et al., 2013)提出了TransE模型,将知识图谱中的关系看作实体之间的某种平移,即对于每个三元组,TransE用关系的向量作为头实体向量和尾实体向量之间的平移。TransE简单高效,但在处理一对多、多对一等复杂关系时捉襟见肘。由此,研究者提出大量关于TransE的扩展模型来解决这一问题,其基本思路是,让一个实体在不同的关系下有不同的表示。TransH(Wang et al., 2014)提出将头尾实体分别投影到关系所在的超平面;TransR(Lin et al., 2015)则提出将头尾实体分别投影到对应的关系空间中;TransD(Ji et al, 2015)为头实体、尾实体和关系分别设置投影向量,通过对投影向量的运算动态构建头尾实体的投影矩阵。此外,TransA(Xiao et al, 2015)用马氏距离提高模型适应性,TransA(Qian et al, 2018)在平移模型中融入注意力机制,TransMS(Yang et al, 2019)通过非线性函数和线性偏移向量来传递多方向语义等。
2.基于语义匹配的模型
另一种方法是通过计算语义相似度来寻找实体和关系的语义联系。最早的语义匹配模型是SME(Bordes et al, 2014),为(头实体,关系)和(关系,尾实体)分别计算匹配向量,以匹配向量的点积作为三元组的得分。RESCAL(Nickel et al., 2011)将关系表示为满秩矩阵,利用基于关系的双线性变换,刻画实体和关系之间的二阶联系。由于满秩矩阵容易造成模型过拟合的问题,DISTMULT(Yang et al., 2014)将关系矩阵设置为对角阵,降低了模型复杂度且提升了效果;ComplEx(Trouillon et al., 2016)对DISTMULT进行改进,将实体和关系映射到复数空间,可以对非对称关系进行建模;HOLE(Nickel et al., 2016)提出使用头、尾实体向量的“循环相关”操作来表示实体对,利用“循环操作”对关系的不可交换性进行建模;近来的TuckER(Balažević et al., 2019)基于二元张量表示的Tucker分解,模型简单但效果拔群。
3.基于神经网络的模型
近年来,有不少工作利用深度神经网络的强大表达能力,进行实体和关系的特征学习,包括卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Network, RNN)、Transformer以及图神经网络(Graph Neural Network, GNN)等。
ConvE(Dettmers et al., 2018)对实体和关系的向量进行二维卷积操作,并通过多层非线性操作,实现实体和关系向量的交互;ConvKB(Nguyen et al., 2018)对ConvE进行改进。与只能编码局部特征的ConvE相比,ConvKB保留了平移特性,具有更好的实验性能。基于CNN的模型只能学习三元组层面的特征,为了捕获知识图谱中的关系路径特征,基于RNN的模型应运而生,如RSN(Guo et al., 2019)将递归神经网络与残差学习相结合,以有效地捕获实体的长期关系依赖关系。受到文本表示学习中Transformer对上下文文本表示能力的启发,为了利用知识图中的上下文信息,CoKE (Wang et al., 2019)采用Transformer对边和路径序列进行编码;KG-BERT (Yao et al., 2019)则借用预训练语言模型的思想,并将来自Transformer(BERT)的双向编码器表示作为实体和关系的编码器。另外,由于知识图谱具有天然的图结构,还有一些工作利用GNN对知识图谱进行建模,如R-GCN(Schlichtkrull et al., 2018)、SACN(Shang et al., 2019)等。
4.融合外部信息的模型
另一类方法是将外部信息与知识图谱结合在一起,融合外部信息来提升知识图谱的表示。这样的外部信息包括文本描述、类型约束、关系路径和视觉信息等。如TEKE模型(Wang et al., 2016)通过实体链接技术,将文本语料中的实体标注出来,进而结合文本的表示,加强实体的表示学习;DKRL模型(Xie et al., 2016)利用知识图谱中的多数实体存在文字描述的特点,用实体的描述来增强表示学习的结果;IKRL模型(Xie et al., 2017)将实体对应的图片编码到实体空间,进行联合表示学习;RUGE模型(Guo et al., 2018)将一些规则动态地引入到知识表示学习的过程中,并且可以对规则进行训练,很大程度上提升了模型的表现。
三、OpenKE——知识表示开源系统
OpenKE是一个面向知识图谱表示学习的开源工具包,其为知识图谱表示学习设计了一个统一的底层框架来管理数据和内存,并在该框架下实现了多数经典的表示学习模型。OpenKE使用了模块化的设计,具有很强的扩展性。基于OpenKE,研究者可以方便的实现新的模型,而无需过多关心数据处理和存储。此外,OpenKE还从高效率负采样、GPU加速和多线程并行加速等方面入手,全面提升了工具包的运行效率。OpenKE的创新点主要包括以下四个方面:
1.统一框架流程
OpenKE首次将知识图谱表示学习模型统一到一个框架流程中,即数据内存管理、模型设计和训练评测。它有一个统一高效的底层平台来管理数据和内存,以及若干常用的训练策略和评测方式。基于OpenKE,研究者可以专注于模型设计,而无需关注复杂的数据处理。这大大的减少了研究者的开发成本,可以高效地进行模型验证。
图1 用OpenKE统一知识表示学习的框架
2.统一数学形式
OpenKE将各种经典表示学习模型的数学形式进行了统一,并在统一框架下实现。对于该领域的初学者来说,这极大地减少了复现工作的耗时。
图2 用OpenKE统一模型的数学形式
3.提升运行效率
OpenKE设计了高效率负采样、GPU加速和多线程并行加速等策略,以提高运行效率。其中,高效率负采样是对传统负采样策略的改进与加速,它在性能不受影响的前提下,极大地提升了负采样的效率。在最终的性能比较中,OpenKE在所有的表示学习模型中,能达到平均10倍左右的速度提升。而对于最经典的表示学习模型TransE,OpenKE更是有约93倍的速度提升。
图3 OpenKE支持空间的连续存储优化
4. 扩大适用范围
得益于高效的运行效率,OpenKE可以很好的应用于超大规模知识图谱的表示学习。OpenKE首次将已有的表示学习模型应用到整个Wikidata上,并提供了预训练的向量,以供下载,方便更多研究者使用。
结语:
知识表示学习是通过知识来推动人工智能发展的必由之路。然而,由于缺少统一的实现与评估方法,以及计算效率偏低等问题,限制了知识表示学习的研究和应用落地。OpenKE是一个面向知识表示的开源平台,实现了2013年以来具有代表性的线性模型、平移模型、矩阵分解模型。此外,通过底层数据管理优化并引入GPU加速,极大地提升了框架的计算效率。平台的多样性和计算效率均能满足科研工作与产品开发的复杂需求。得益于平台的计算性能,OpenKE于2017年公布了大规模知识图谱Wikidata、Freebase、Xlore的知识表示模型,这是领域内首次公开大规模知识图谱的表示模型。OpenKE平台的系统论文发表于自然语言处理领域顶级国际会议EMNLP 2018上。2年来,Google Scholar统计该论文被引用超过178次,是EMNLP 2018大会引用次数统计中排名第3的系统论文。
作者 | 韩旭 曹书林 吕鑫
排版 | 王昕阳 孟飞
审核 | 傅宇杰 陈星安 许鹤麟 程泽堃
联系我们
清华大学探臻科技评论社是清华大学服务国家战略科技发展,履行高水平科技自立使命,为培养关键核心领域青年领跑者创建的科技创新社团。《探臻科技评论》公众号定期推送世界科技前沿动态,以及来自清华大学学生发表的高质量前沿研究,旨在打造汇集尖端资讯的一站式平台。
欢迎联系:techreview@mail.tsinghua.edu.cn
发出您专属的科技声音。
往期推荐
@所有人 快来做本《空天宇航与极端环境探测》纸刊!
一周科技资讯 | 新冠病毒SARS-CoV-2可能利用隧道纳米管向脑传播、首个AI+航天大模型问世
致死率80%?甚至影响生育?关于热射病,你不知道的二三事
“绿色金融”发展与监管如何有效并行?