中孚智库观察 | 知识图谱的构建与应用
知识图谱的概念由Google公司在2012年提出,其初衷是为了优化搜索引擎的返回结果,增强用户搜索质量及体验。目前,随着智能信息服务应用的不断发展,知识图谱技术已经构成了很多现代数据分析功能的基础,可以在各种数据资产之间找到人、地方、事物、事件和位置等之间的关系。根据Gartner预测,到2025年,图形技术将被应用于80%的数据分析创新项目中,高于2021年的10%,图技术将使一切事物产生关联。
1.知识图谱概述
知识图谱本质上是语义网络,在谷歌发布的文档中知识图谱是一种用图模型来描述知识和构建世界万物之间关联关系的技术方法,是一种基于图的数据结构,由节点(point)和边(edge)组成,节点表示实体或概念,边则由属性或关系构成。构成知识图谱的核心是三元组(RDF),基本形式主要包括:“实体-关系-实体”和“实体-属性-属性值”。如图1。
图1:图谱示例
实体:对客观个体的抽象,比如人、车、组织机构、虚拟账号、MAC地址等。
属性值:实体指向的属性的值,比如人的姓名、性别等。
关系:用来表达不同实体之间的某种联系。
2.知识图谱关键技术
知识图谱的构建主要包括数据获取、知识定义、知识抽取、知识融合、知识存储、知识应用等步骤,技术架构如图2。
图2:知识图谱构建技术架构
2.1数据获取
数据获取是建立知识图谱的第一步,按数据结构可分为三种:结构化数据、半结构化数据和非结构化数据,根据不同的数据类型,我们采用不同的方法进行处理。
(1)结构化数据
需把关系数据库中的数据抽取出来,转换成RDF模型或属性图模型的形式存储到图谱数据库中。结构化数据的信息抽取可使用开源工具D2RQ,但难点在于需要依赖人工编写映射规则,难以自动与图谱模式结合与映射。
(2)半结构化的数据
对于行文格式稳定的文本可视作半结构化数据,可以通过格式解析、基于规则的方法进行抽取,而从半结构化的网页数据获取知识主要采用包装器方法。由于半结构化数据具有大量的重复性的结构,因此对数据进行少量的标注,可以让机器学出一定的规则进而使用规则对同类型或者符合某种关系的数据进行抽取。
(3)非结构化数据
首先对非结构化数据提取正文,然后通过自然语言处理技术识别文本中的实体。当用户有知识库时可以使用实体链接将候选实体和知识库链接;当用户没有知识库时则需要使用命名实体识别技术识别出文本中的实体,对于纯文本一般按照篇、章、段、句进行文本切割,基于主题词对文本分类、聚类预处理,并由人工开展数据标注与模型训练,最后集成多种信息抽取模型抽取知识。
2.2知识定义
知识定义可使用本体论技术,描述定义域的实体类型及其属性、关系和实体上的允许操作,常见的方法包括自顶向下和自底向上的构建方式。自顶向下需先定义好本体,即由行业专家预先定义图谱模式,再基于数据完成知识抽取到图谱构建的过程;自底向上,则通过信息抽取技术从非结构化数据中抽取知识,再结合大数据挖掘、机器学习技术完成知识图谱的构建。自顶向下更加准确,自底向上代表着数据驱动的自动图谱构建模式,无论哪一种方法,知识定义都是知识抽取的前提条件。
目前国内部分厂商在进行知识定义时采用的是动态本体技术,动态本体允许对所有不再使用的实体、属性和关系进行移除,并且根据需求添加新的实体、属性和关系。另外,它还支持对实体、属性、关系的功能修改,包括添加修改标签、图标、解析器等。动态本体允许一个组织对领域相关的信息进行建模,而且这种建模比较灵活,可以适应复杂多变的应用场景。比如说,如果要对人的手机号进行建模,有三种建模方式:
(1)可以建模为“实体”:人和电话号码都是实体、两者的关系是“拥有”
(2)可以建模为人的“属性”:属性值是具体的手机号码
(3)可以建模为“关系”:张某和李某共用一个手机号,则构建成同手机号关系
2.3知识抽取
对于结构化和半结构化数据只需要简单预处理即可以作为后续系统的输入,但对于非结构数据需要借助于自然语言处理等技术来进行知识抽取,涉及的关键技术包括实体抽取、属性抽取、关系抽取。
(1)实体抽取,也称为命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词、时间、货币等。主要方法有:基于规则与词典的方法、基于百科或垂直站点提取的方法、基于统计机器学习的方法和基于深度学习的方法。在实际项目中一般结合规则、词典和机器学习等多种方法,充分利用不同方法的优势,从而提高准确率、召回率和完整性。
(2)属性抽取,即实体或关系的特征信息,关系反映实体与外部的联系,而属性体现实体的内部特征,目标是从不同信息源中采集特定实体的属性信息。主要方法包括:从百科类站点、网页表格中提取,从垂直网站中进行包装器归纳,以及利用自动生成或手工定义的模式从句子和日志中提取。
(3)关系抽取,即两个实体或概念之间的关联性知识等,主要方法包括:基于人工构造语义规则以及模板的关系抽取、基本本体的关系抽取、有监督实体关系抽取、弱监督实体关系抽取、基于马尔可夫逻辑网的联合推理的关系抽取和基于深度学习的关系抽取等。
关系可以分为直接关系和间接关系。直接关系(A-B),表示A和B直接产生关系,比如A的配偶是B。间接关系(A-X-B、A-X-X-B等),表示A和B通过一些事件或条件而产生的关系。比如转账关系、同火车车厢关系,见图3、图4。
①转账关系(A-X-B)
②同火车车厢关系(A-X-X-B)
2.4知识融合
经由知识抽取之后存在大量冗余甚至错误的信息碎片,同时信息间的关系是扁平化的,缺乏层次性和逻辑性。知识融合,简而言之就是将多源异构的数据整合成一个知识库,该过程就需依赖实体消歧、指代消解、实体对齐、实体属性值判定等技术手段。
◆实体消歧指的是同样的词汇可能表示不同的实体,就需要基于语义从上下文信息推测出哪个词代表哪个实体,比如“苹果”可能是水果·类别中的“苹果”,也可能是“苹果”互联网公司,需要根据上下文进行歧义消解,例如通过上下文包含“乔布斯”信息确认它是互联网公司。
◆指代消解指的是我们在文章中遇到一些指示代词,例如:“他”、“这个”、“那个”,我们去判断这些代词表示的是什么意思,例如:今天小明生病了,小张陪他去看病,看完病他很快就好了。这里面的“他”指的是谁。
◆实体对齐指两个或者多个不同信息来源的实体是否指向同一个对象,比如大家在填写地址的时候,同一个地址可能有多种写法。还有很多人都有多个手机,我们可以通过一些访问信息来判断是不是属于同一个人使用不同手机操作的。
◆实体的属性值判定指同一个实体从多个来源得到的属性描述差异,我们需要使用知识来源并结合其他数据交叉验证来确定属性值的置信度。
将现实环境中多源、异构、海量的数据进行全面的数据融合、构建关联索引,把各级数据本体及其属性、相互联系等融合成有机整体,并根据其中的属性联系、时空联系、语义联系、特征联系等建立相互的关系,最终形成一张关系大网,真正激发大数据价值。示例如图5:
图5:知识图谱示例
2.5知识推理
知识推理是通过对已有实体间关系、实体的属性值进行计算,获取新的知识、新的关系、新的规则、新的公理等的过程,也是知识图谱更新的重要手段。比如:<姚明,妻子,叶莉>和<姚明,女儿,姚沁蕾>,通过知识推理,可以得到<叶莉,女儿,姚沁蕾>。
知识推理的主要任务有:通过规则挖掘对知识图谱进行补全、不一致性检测、查询扩展、关联关系推理以及知识融合中的实体对齐和属性对齐等。
知识推理的方法主要包括:
◆基于规则的推理,通过定义或学习知识中存在的规则进行挖掘推理,常见算法有:ILP、FOIL、AMIE等。
◆基于本体的推理,利用现有本体已经蕴含的语义和逻辑,对实体间的关系及实体的类型等进行推理,常见方法有:Tableaux运算、基于规则逻辑编程改写、基于一阶查询重写、基于产生式规则等方法。
◆基于分布式表示学习的推理,其中心思想是找到一种映射函数,将符号表示映射到向量空间进行数值表示,从而减少维数灾难,同时捕捉实体和关系之间的隐式关联,常见的方法有:TransE系列算法、RESCAL、DistMul等。
◆基于神经网络的推理,通过神经网络进行更为复杂的推理,目前还处于初期,主要包括:NTN、R-GCN、IRN等算法。
2.6图谱存储
知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
3.知识图谱的应用场景
目前,知识图谱已经在智能搜索、自动问答、个性化推荐、分析决策等通用领域得到广泛的应用,同时在互联网、金融、制造、政府等诸多领域落地。
3.1辅助智能搜索
将自然语言处理能力、意图识别能力和知识图谱深度融合,能快速分析用户的输入内容,智能识别出搜索意图。首先利用中文分词、命名实体识别等自然语言处理工具找到搜索内容中所涉及到的实体和关键词,然后去知识资源库中去进行检索,基础运作流程如图6所示。
图6:基于知识图谱的智能搜索的基础运作流程
比如搜索“京XXXXXX车牌号码的车主的亲属”,先根据车牌号码检索出车实体,再根据车和人的拥有关系关联出车主,最后对检索出的车主进行亲属关系扩线,检索出目标人群。
图7:智能搜索
3.2辅助认知智能
知识图谱通过非线性的、高阶关系的分析,为描绘物理世界的生产生活行为提供了有效的方法与工具,是认知智能的底层支撑。
比如通过感知设备抓拍到的卡口过车记录图片,识别出驾驶人的真实身份的场景,如图8。我们通过图像识别技术可以识别出图片中的车牌号码,通过人脸识别技术可以识别出与驾驶人人脸相似前N名人员,但由于光线、角度、遮挡和复杂的环境背景等原因,无法保证人脸相似度最高的是否是当前驾驶员。
图8:卡口过车记录图片(来源网络)
结合知识图谱,通过人车之间的背后的关系进行驾驶人的身份落地。如图9所示,通过该车发现其车主为张某,再根据关系分析,发现张某和识别出的20个人中的“人4”曾火车邻座4次,即可推断出该图片中的实际驾驶人为“人4”,从而实现从感知智能到认知智能。
图9:知识图谱关系分析,辅助认知智能
3.3辅助情报分析研判
图10:情报分析研判(来源:palantir)
例如著名的大数据公司Palantir借助知识图谱技术将多源、异构、分散的情报数据进行全面整合,并提供基于知识图谱的交互探索式分析,分析研判与目标相关的人、物、组织、关系、事件、视频、图片等,以关注目标为中心串联相关内容,并以时间线、地图、关系图、对象浏览、直方图等方式进行分析。模拟人的思考过程去发现、求证、分析、推理,实现实战经验和技术算法的互相转换,业务人员自己就可以完成全部过程,不需要专业人员的协助,极大提高了情报分析和指挥决策的效率和能力。
3.4安全事件溯源
图11:利用知识图谱构建攻击场景
通过威胁建模等方式对多源异构的网络安全领域信息进行加工、处理、整合,转化成为的结构化的智慧安全领域知识库,基于图分析方法可以实现威胁识别与攻击溯源。
3.5团伙情报挖掘
图12:团伙分析
隐性关系+显性关系,一度、二度关系和N度关系,能将数据间有价值的关联关系深度挖掘出来,且支持用户自定义设置时间、空间、属性等条件进行动态关系的实时分析,支撑复杂关系网络挖掘和团伙分析。
3.6资金流分析
图13:资金链分析(来源:艾匀科技公众号)
追踪涉案资金来源及去向,逐级扩展追踪流向,并通过交易时间段及金额限定,快速锁定资金链路。
4.总结与展望
知识图谱是一个充满挑战的领域,知识图谱领域一个最重要的作用是知识推理,而且知识推理是走向强人工智能的必经之路,也是目前的研究热点。知识图谱被认为是从感知智能通往认知智能的重要基石,继AI后逐渐成为各大人工智能与互联网公司的必争之地。
只要有正确的实际应用场景,知识图谱所能发挥的价值是值得期待的,知识图谱技术会普及到各个领域当中。目前在安全领域知识图谱的应用还处于起步阶段,基于知识图谱对信息的整合能力,安全知识图谱将在安全事件分析、敌手画像构建、攻击线索侦查、团伙情报挖掘、APT攻击发现等实际场景中发挥重要作用。
【猜你喜欢】