查看原文
其他

AI人必看!89页全网最全清华知识图谱报告(附PDF)

智东西 博通大数据 2021-04-21


▲点击图片领取人工智能书籍

公众号后台回复:“图谱”,获取本文报告

公众号后台回复:“社群”,进入区块链分享社群

热文推荐:

你在的城市,决定了你的命运(深度)





知识图谱(Knowledge Graph)是人工智能的重要分支技术,它在2012年由谷歌提出,成为建立大规模知识的杀手锏应用,在搜索、自然语言处理、智能助手、电子商务等领域发挥着重要作用。知识图谱与大数据、深度学习,这三大“秘密武器”已经成为推动互联网和人工智能发展的核心驱动力之一。

本期我们推荐来自清华大学人工智能研究院、北京智源人工智能研究院、清华-工程院知识智能联合研究中心联合推出的人工智能知识图谱报告,详细解读了知识图谱的这一人工智能技术分支的概念、技术、应用、与发展趋势。公众号后台回复:“图谱”,获取本文报告。


公众号后台回复:“图谱”,获取本文图谱


知识图谱的概念与分类

知识图谱(Knowledge Graph)于2012年由谷歌提出并成功应用于搜索引擎当中。它以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。

知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说,知识图谱通常分为两种:通用知识图谱、特定领域知识图谱。

▲知识图谱示意图

常见的知识图谱示意图主要包含有三种节点:实体、概念、属性

实体指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

概念指的是具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。

属性则用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。

知识图谱的三大典型应用

现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。如何根据业务需求设计实现知识图谱应用,并基于数据特点进行优化调整,是知识图谱应用的关键研究内容。

知识图谱的典型应用包括语义搜索智能问答以及可视化决策支持三种。

1、语义搜索

当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。

语义搜索可以利用知识图谱可以准确地捕捉用户搜索意图,进而基于知识图谱中的知识解决传统搜索中遇到的关键字语义多样性及语义消歧的难题,通过实体链接实现知识与文档的混合检索。

语义检索需要考虑如何解决自然语言输入带来的表达多样性问题,同时需要解决语言中实体的歧义性问题。同时借助于知识图谱,语义检索需要直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。

2、智能问答

问答系统(Question Answering,QA)是信息服务的一种高级形式,能够让计算机自动回答用户所提出的问题。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。

智能问答系统被看作是未来信息服务的颠覆性技术之一,亦被认为是机器具备语言理解能力的主要验证手段之一。

智能问答需要针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案,其关键技术及难点包括准确的语义解析、正确理解用户的真实意图、以及对返回答案的评分评定以确定优先级顺序。

3、可视化决策支持

可视化决策支持是指通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。例如,决策支持可以通过图谱可视化技术对创投图谱中的初创公司发展情况、投资机构投资偏好等信息进行解读,通过节点探索、路径发现、关联探寻等可视化分析技术展示公司的全方位信息。

可视化决策支持需要考虑的关键问题包括通过可视化方式辅助用户快速发现业务模式、提升可视化组件的交互友好程度、以及大规模图环境下底层算法的效率等。

通用知识图谱与特定领域知识图谱

1、通用知识图谱

通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。由于现实世界的知识丰富多样且极其庞杂,通用知识图谱主要强调知识的广度,通常运用百科数据进行自底向上(Top-Down)的方法进行构建,下图展示的即是常识知识库型知识图谱。


国外的DBpedia使用固定的模式从维基百科中抽取信息实体,当前拥有127种语言的超过两千八百万实体以及数亿RDF三元组;YAGO则整合维基百科与WordNet的大规模本体,拥有10种语言约459万个实体,2400万个事实。

国内的Zhishi.me从开放的百科数据中抽取结构化数据,当前已融合了包括百度百科、互动百科、中文维基三大百科的数据,拥有1000万个实体数据、一亿两千万个RDF三元组。

2、领域知识图谱应用

领域知识图谱常常用来辅助各种复杂的分析应用或决策支持,在多个领域均有应用,不同领域的构建方案与应用形式则有所不同。


以电商为例,电商知识图谱以商品为核心,以人、货、场为主要框架。目前共涉及9大类一级本体和27大类二级本体。

一级本体分别为:人、货、场、百科知识、行业竞对、品质、类目、资质和舆情。人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述。


上图描述了商品知识图谱的数据模型,数据来源包含国内-国外数据,商业-国家数据,线上-线下等多源数据。目前有百亿级的节点和百亿级的关系边。

电商知识图谱,这个商品“大脑”的一个应用场景就是导购。而所谓导购,就是让消费者更容易找到他想要的东西,比如说买家输入“我需要一件漂亮的真丝丝巾”,“商品大脑”会通过语法词法分析来提取语义要点“一”、“漂亮”、“真丝”、“丝巾”这些关键词,从而帮买家搜索到合适的商品。

在导购中为让发现更简单,“商品大脑”还学习了大量的行业规范与国家标准,比如说全棉、低糖、低嘌呤等。


此外,它还有与时俱进的优点。“商品大脑”可以从公共媒体、专业社区的信息中识别出近期热词,跟踪热点词的变化,由运营确认是否成为热点词,这也是为什么买家在输入斩男色、禁忌之吻、流苏风等热词后,出现了自己想要的商品。

最后,智能的“商品大脑”还能通过实时学习构建出场景。比如输入“海边玩买什么”,结果就会出现泳衣、游泳圈、防晒霜、沙滩裙等商品。


知识工程的五个发展阶

知识图谱技术属于知识工程的一部分。1994年,图灵奖获得者、知识工程的建立者费根鲍姆给出了知识工程定义——将知识集成到计算机系统,从而完成只有特定领域专家才能完成的复杂任务。

回顾知识工程这四十多年来的发展历程,我们可以将知识工程分成五个标志性的阶段:前知识工程时期、专家系统时期、万维网1.0时期、群体智能时期、以及知识图谱时期,如下图所示。


1)1950-1970时期:图灵测试—知识工程诞生前期

这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。

这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。

2)1970-1990时期:专家系统—知识工程蓬勃发展期

由于通用问题求解强调利用人的求解问题的能力建立智能系统,但是忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。从70年开始,人工智能开始转向建立基于知识的系统,通过“知识库+推理机”实现机器智能。

这一时期知识表示方法有新的演进,包括框架和脚本等80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。

3)1990-2000时期:万维网1.0

在1990年到2000年期间,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的HowNet。

Web 1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。

4)2000-2006时期:群体智能

万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。

这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。

5)2006年至今:知识图谱—知识工程新发展时期

“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。

当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购Freebase后在2012年推出的知识图谱(Knowledge Graph),Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识库。


上表中展示的是知识图谱领域10个相关重要国际学术会议,这些会议为知识图谱领域的研究方向、技术趋势与学者研究成果提供重要信息。

把知识变成图谱一共需要花几步?

知识图谱技术是知识图谱建立和应用的技术,参考中国中文信息学会语言与知识计算专委会发布的《知识图谱发展报告2018年版》,本报告将知识图谱技术分为知识表示与建模、知识获取、知识融合、知识图谱查询和推理计算、知识应用技术。

1、知识表示与建模

知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。

目前,随着自然语言处理领域词向量等嵌入(Embedding)技术手段的出现,采用连续向量方式来表示知识的研究(TransE翻译模型、SME、SLM、NTN、MLP,以及NAM神经网络模型等)正在逐渐取代与上述以符号逻辑为基础知识表示方法相融合,成为现阶段知识表示的研究热点。更为重要的是,知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中,用来约束和监督神经网络的训练过程,如下图所示。


相比于传统人工智能,知识图谱时代基于向量的知识表示方法不仅能够以三元组为基础的较为简单实用的知识表示方法满足规模化扩展的要求,还能够作为大数据分析系统的重要数据基础,帮助这些数据更加易于与深度学习模型集成。

同时,随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示,已经成为知识图谱语义链接预测和知识补全的重要方法。

知识表示学习是近年来的研究热点,研究者提出了多种模型,学习知识库中的实体和关系的表示。不过其中关系路径建模工作较为初步,在关系路径的可靠性计算、语义组合操作等方面还有很多细致的考察工作需要完成。

2、知识获取

知识获取包括了实体识别与链接、实体关系学习、以及事件知识学习。

1)实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术,也是海量文本分析的核心技术,为计算机类人推理和自然语言理解提供知识基础。

实体识别是文本理解意义的基础,也就是识别文本中指定类别实体的过程,可以检测文本中的新实体,并将其加入到现有知识库中。

2)实体关系识别是知识图谱自动构建和自然语言理解的基础。实体关系定义为两个或多个实体间的某种联系,用于描述客观存在的事物之间的关联关系。实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。

实体关系抽取分为预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,如上下位关系、国家—首都关系等。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。

3)事件知识学习,就是将非结构化文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。

事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。

3、知识融合

知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。语义集成的提出就是为了能够将不同的知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互建立操作性。

常用的技术包括本体匹配(也称为本体映射)、实力匹配(也称为实体对齐、对象公指消解)以及知识融合等。


一个语义集成的常见流程,主要包括:输入、预处理、匹配、知识融合输出5个环节,如上图所示。

众包和主动学习等人机协作方法是目前实例匹配的研究热点。这些方法雇佣普通用户,通过付出较小的人工代价来获得丰富的先验数据,从而提高匹配模型的性能。

随着表示学习技术在诸如图像、视频、语言、自然语言处理等领域的成功,一些研究人员开始着手研究面向知识图谱的表示学习技术,将实体、关系等转换成一个低维空间中的实质向量(即分布式语义表示),并在知识图谱补全、知识库问答等应用中取得了不错的效果。

与此同时,近年来强化学习也取得了一些列进展,如何在语义集成中运用强化学习逐渐成为新的动向。

4、知识图谱查询和推理计算

知识图谱以图(Graph)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。

知识推理则从给定的知识图谱推导出新的实体跟实体之间的关系,在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。

知识图谱推理可以分为基于符号的推理和基于统计的推理。

在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。

基于统计的方法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。

发展趋势与挑战

整体而言,知识图谱领域的发展将会持续呈现特色化、开放化、智能化的趋势,为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图谱、机器学习、深度学习等)。

虽然当下互联网巨头们已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,但是我们也强烈地感受到,知识图谱还处于发展初期,大多数商业知识图谱的应用场景非常有限,例如搜狗、知立方更多聚焦在娱乐和健康等领域。

同时,根据各搜索引擎公司提供的报告来看,为了保证知识图谱的准确率,仍然需要在知识图谱构建过程中采用较多的人工干预

如何合理设计表示方案,更好地涵盖人类复杂化、多样化的知识?如何准确、高效地从互联网大数据萃取知识?如何将存在大量噪声和冗余的知识有机融合起来,建立更大规模的知识图谱?如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率和应用场景?

在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,这些重要的开放性问题亟待学术界和产业界协力解决。

下面两图是AMiner数据平台绘制的知识图谱领域近期与全局热点词汇。


由以上两图可知,知识库、信息检索、数据挖掘、知识表示、社会网络等方向在知识图谱领域的热度长盛不衰。

除此之外,信息提取、查询应答、问题回答、机器学习、概率逻辑、实体消歧、实体识别、查询处理、决策支持等方向的研究热度在近年来逐渐上升,概念图、搜索引擎、信息系统等方向的热度逐渐消退。

在知识图谱的驱动下,以智能客服、智能语音助手等为首的AI应用正成为首批人工智能技术落地变现的先锋部队,知识图谱也因此成为了各大人工智能与互联网公司的兵家必争之地,它与大数据、深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

不过正如报告中提到的,目前为了保证准确率,知识图谱在构建过程中仍然需要在采用较多的人工干预;同时,知识图谱还处于发展初期,商业应用场景有限,有待进一步开拓。




 区块链报告汇总 


《区块链整体架构及应用》发布
【PPT】华为云区块链报告
腾讯研究院:2019腾讯区块链白皮书(附PDF)
张泉灵:区块链一天,互联网十年哈佛商业评论:关于区块链的真相工信部发布《区块链数据格式规范》标准中国首个区块链标准《区块链参考架构》发布《腾讯区块链方案白皮书》重磅发布(附全文)高盛发布区块链报告:从理论到实践(中文版)央行发布论文:区块链能做什么,不能做什么?(附下载)

长按二维码

关注公众号,后台回复“区块链

获取报告


扫码进入知识分享社群

交流~共享~学习~进步




扫码加入知识星球——智识梦工厂
1000+份大数据热门报告  500+人工智能热门书籍 
500+互联网优质软件+PPT  100+区块链高分书籍
2000本kindle高分书籍,45G小程序资料……
麦肯锡、高盛、波士顿等机构研究报告
经济学人杂志、职场简历模板
为读者找知识,为知识找读者  







干货▶

【干货】45G微信小程序开发合集 

【干货】2000本Kindle电子书免费领取

1000位专家推荐,20本区块链必读书籍

【干货】罗辑思维推荐书单全集,给大脑充电!

苹果发布会PPT源文件,让你的PPT逼格满满!

抖音最火快闪PPT模板,让你的PPT逼格提升

【干货】10本人工智能豆瓣高分书籍,免费领取

【PPT】清华大学演讲:讲解人工智能技术与产业发展

图解丨麦肯锡式逻辑思考术思维导图


互联网

终于有人把云计算、大数据和人工智能讲明白了!

收藏!今日头条、抖音推荐算法原理全文详解

朋友圈大数据:你的朋友圈出卖了你

推荐收藏 | 100页精选PPT封面排版,助你高效搞定PPT

雄安为什么没动静了?清华教授道出实情!

中国互联网公司亏损能力排行榜

推荐收藏丨关于5G最完整的PPT(附PDF)

100页精华PPT,帮你彻底看懂5G!

张一鸣:为什么BAT挖不走我们的人才?

程序员之间的十八层鄙视网络

微信“死于”印度

图解丨麦肯锡式逻辑思考术思维导图

40页PPT看懂麦肯锡的思考方式和沟通法则

几张图看懂高级经理人与普通管理者的区别

腾讯发布95页重磅报告:全面预测中国互联网

大神爬了这些网站的数据,发现价值巨大!

中国全球首发,有光就能上网,比5G还快10倍!

【报告】阿里商业白皮书:每个企业都要变成一个数据公司

马云的妻子曝光,没有她就没有今天的阿里巴巴.....


科技▶

第一批 AI 已经开始诈骗

美国人为什么不待见人脸识别技术?

中国科技真实底子,这篇文章讲透了!

华为为什么认可这四所大学?

《华为基本法》全文,难得一见,值得珍藏!

“性爱机器人”再曝新消息,令无数人哗然!

为什么说人工智能是一个大谎言

罗兰贝格:中国人工智能创新应用白皮书

再见了,快递员!北京打响第一枪!

大数据(生于2006,卒于2019)已死!

日本这个震撼短视频,让你感受5G到来后的生活

什么样的家庭出学霸?大数据研究颠覆你的常识

华为首席科学家告诉你:5G到底有哪些能力?

关于5G的原理,这张图全说清楚了

刘慈欣随笔:永生的阶梯

淘汰语言!麻省理工发明“读心机”

有一种科研叫“中国式科研”!

中国亟待攻克的“卡脖子”技术清单

十大科技丑闻,连娱乐圈都甘拜下风

大神爬了这些网站的数据,发现价值巨大!

第一次有人把 5G 讲的这么简单明了

AI 的寒冬将来临

Science公布:全世界最前沿的125个科学问题

中国这7位年轻人正在改变世界

如何用大数据构建精准用户画像?

不装X地说,在Google十年,到底学到啥?

又一位“海归”回美任教,临别赠言值千金

德勤财务机器人正式上岗,效率相当惊人

美国科学院院士谢宇:中国科学能超越美国吗

19个省市成立大数据局,智慧城市步伐加快

人脸识别哪家强?不如问哪家公司吹牛逼强

美国斯坦福大学发布2025计划, 创立"开环大学"

BBC分析了365个职业,发现最不可能被机器淘汰的居然是……

美国公布长达35页的《2016-2045年新兴科技趋势报告》

大数据分析5万首《全唐诗》,发现了这些秘密

【干货】67页PPT,终于把大数据大趋势讲清楚

中国首批新能源车主陷入困境:修不了也修不起

IBM Watson大裁70% 员工,撕掉了国内大批伪AI企业最后一块遮羞布!

清华硕士集体逃离北京!中科院科研人员的自白:我为什么离开北京


其他▶

当北大博士都去了三流大学任教

雄安为什么没动静了?清华教授道出实情!

数据揭秘:中国最有前途的30座城市

石油的惊世谎言,造就眼下电动车千亿骗局

我为什么建议你留在一线城市

100张经典信息可视化图表,让你脑洞大开

年薪10万,你就打败了90%的中国人

大崩溃前的1990年,日本年轻人有多疯狂?

诺基亚:你以为他死了,其实他已重回世界第二

你在的城市,决定了你的命运(深度)

剩男在村里,剩女在城里

德国:认真是一种可怕的力量

被骗100年,大清的灭亡真的是武器落后的结果

什么区块链,统统是骗子

褚时健:人活着是为了什么?

深圳十几万打工者“大撤退”

中国经济将怎样大规模调整?

清华北大现任省部级校友名录

中国的街道都被“统一店招”毁了

深度长文:中国产业大迁移全景图

北大出疯子,清华出傻子,人大出混混

地球上必定有个人跟你长得一模一样

中科院教授:举国上下身陷功利漩涡

日本人眼中的中国制造企业:聪明反被聪明误

这是一个残忍的提问:中国的钱都到哪里去了?

那盆被骂30天的植物终于死了:语言到底多恐怖

北大数学天才柳智宇出家多年首次接受记者采访

用1.5米落差消灭电费!比利时发明家用水电站!

华为人均工资高达70万,华为员工的15项标准

历劫不死的中华文明,第一次被整理的如此清晰

56岁才创业,如今年利润却是华为1.5倍

施一公最新专访:年轻人如果把钱作为奋斗目标,那就全完蛋了


区块链▶

什么区块链,统统是骗子

《2018区块链整体架构及应用》发布

张泉灵:区块链一天,互联网十年

哈佛商业评论:关于区块链的真相

工信部发布《区块链数据格式规范》标准

中国首个区块链标准《区块链参考架构》发布

《腾讯区块链方案白皮书》重磅发布(附全文)

高盛发布区块链报告:从理论到实践(中文版)




长按二维码

关注锌科技

未来是有限向无限的眺望




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存