查看原文
其他

2020硬核图书系列:《知识图谱:概念与技术》

肖仰华 博文视点Broadview 2020-10-17


小编说: 疫情像施了魔法一样,改变了我们每个人春节的轨迹。时间则从永远不够用突然变成了多得似乎不知干什么用。博文君希望疫情没有改变我们那颗求知若渴的心。

博文菌在前两天已经为您开放了博文视点学院平台上80余本电子书+有声书,供大家免费学习,现在还将连续为您推荐2020必读力作。

人与人的差距也可能就在这个不知何时结束的假期中拉开了。小伙伴们加油!

█ 今 日 主 角 █







2012年Google发布知识图谱以来,知识图谱技术飞速发展,其理论体系日趋完善,其应用效果日益明显。在知识图谱技术的引领下,知识工程新的历史篇章——大数据知识工程已初具轮廓;在知识图谱技术的推动下,各行各业的智能化升级与转型的宏伟画卷正逐步展开。

知识图谱能解决很多问题,比如,知识图谱可以让机器实现语言认知、人工智能、与数据驱动一道成为另外一种解决问题的范式,比如应用在搜索、决策、问答、支持等等。

知识图谱是较为典型的交叉领域,涉及了知识工程、自然语言处理、机器学习、图数据库等多个领域。面对如此庞杂的知识体系,下文为大家带来几点建议。



█ 知识图谱的入门建议 █



无论是一名学生还是一名从业人员,真正要了解所谓的“知识”,阅读是一个很重要途径,所以说要从读一本好书开始。

另外,要牢固掌握基础知识和技能知识表示、数据库(图数据库)管理、自然语言处理、机器学习(深度学习),这些都是要掌握的基本技能,有了这些基础以后,无论是深入学知识图谱,还是看书、理解模型,都会比较顺,更能读懂、理解。 

因为知识图谱是一门偏应用、偏工程的学科,所以落地实践非常重要只有真正的去实践,并秉持数据驱动、应用导向的思想,真正的完成了一个实际的工程项目,碰到实际的问题真正去解决了以后,才能有更好的领悟体会,最终才能有更大的收获。 

最后,由于知识图谱才刚刚起步,还有很多挑战和问题没有解决,有些相关研究还不多,技术不够成熟,暂无真正成功的落地实践。知识图谱领域还有很多挑战,我们要以开放的心态去直面挑战,然后通过解决实际问题中获得的收获,逐渐形成体系,让我们知识的积累、书籍的积累越来越多,才能让我们的学科研究、从业队伍、及各项事业更好的向前发展。 


█ 鸿篇巨制《知识图谱》 █



随着知识图谱技术研究与应用的深化,知识图谱技术吸引了来自工业界与学术界的广泛关注。知识图谱领域涌现出大量的理论与技术研究成果,以及一批优秀的工程实践案例。一方面,对于这些理论工作与工程实践,需要进行系统性的梳理;另一方面,随着研究与应用的深入,业界也迫切需要一本系统性的知识图谱教材。

鉴于此,复旦大学知识工场实验室创始人肖仰华教授携团队带来了人工智能领域重量级作品——《知识图谱:概念与技术》

本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科(特别是自然语言处理、语义网与数据库等学科)的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。

不同于市面上的其他相关书籍,本书更加注重的是关于知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。

本书的内容体系基本成型于2018年8月,从2017年到2019年,其先后两次在复旦大学相关课程中进行讲授,2018年8月和12月其分别在上海财经大学和北京理工大学面向全国公开讲授,累计近千人次完成了课程的学习。从2018年年底至今,本书编写组完成了书稿,并经多轮修订,最终形成大家手中的这个版本。



关于主要作者 

肖仰华博士,复旦大学教授、博士生导师、复旦大学知识工场实验室创始人。曾担任多家企业高级技术顾问与首席科学家。曾获得十多个国家、省/市、企业级的研究奖项,曾承担三十多项国家、省/市、企业级研发项目。在国际顶级学术会议与期刊(包括SIGMOD、VLDB、ICDE、IJCAI、AAAI、ACL、TKDE等)上发表论文百余篇,授权近20项知识图谱专利。担任多个国际期刊编委,百余次为国际/国内学术机构/会议提供学术服务工作。领导构建了知识工场平台,发布了一系列知识图谱,包括CN-DBpedia、CN-Probase等。


█ 本书内容架构 

全书共五篇,由16章构成,力求涵盖知识图谱相关的基本概念与关键技术。

第1篇 基础篇
包含前两章。第1章介绍知识图谱的基本概念、历史沿革、研究意义、应用价值等。第2章介绍知识图谱所必需的基础知识,主要介绍与知识图谱密切相关的知识表示、机器学习、自然语言处理的基本概念。

第2篇 构建篇

介绍知识图谱的构建。大规模高质量知识图谱的构建是整个知识图谱技术落地的核心,因此也是整本书的重点。本篇的核心是第3章与第4章。在这两章中,我们介绍了知识图谱中知识获取的两个核心问题。其中一个是点的识别与建立,知识图谱中的点可以是词汇与实体,因此第3章重点介绍了词汇挖掘与实体识别。有了知识图谱中的点之后,建立点之间的关系是知识图谱构建的核心问题。为此,第4章主要介绍了关系抽取(从文本中获取关系实例)。
在此基础上,第2篇进一步对两类重要的知识图谱,即概念图谱(第5章)与百科图谱(第6章)的构建展开了具体介绍。这两类知识图谱在知识图谱技术发展历程中有着突出地位,有很多实际应用。最后,第2篇再对其中的两个专题:众包构建(第7章)与质量控制(第8章)展开介绍。当前的知识图谱构建还离不开人,如何把人力用好是第7章的主题。质量控制是知识图谱构建的核心,第8章从质量视角再次盘点整个知识图谱构建的全流程。
可以看出,我们在构建部分浓墨重彩,从构建的关键环节(词汇挖掘、实体识别、关系抽取)、两类重要知识图谱的构建,以及构建的两个专题等三个切面对知识图谱构建进行了全方位的论述。其目的在于向读者立体式地呈现知识图谱构建的完整体系。这也从一个侧面说明了知识图谱知识体系的庞杂。

第3篇 管理篇

介绍知识图谱的建模与存储(第9章)、查询与检索(第10章)以及图数据管理系统(第11章)。这一篇旨在从数据管理的角度系统阐述知识图谱如何建模、如何存储、如何查询、如何检索,以及如何实现系统性的高效管理。

第4篇  应用篇

把知识图谱构建好、管理好的目的还是为了应用好。第4篇对于基于知识图谱的应用技术展开介绍,包括搜索与推荐(第13章)、自然语言问答(第14章)。这些应用本质上都依赖基于知识图谱的自然语言理解,因此这一专题也单独成章(第12章)。

第5篇  实践篇

知识图谱实践有哪些基本原则和最佳实践(第15章),以及在知识图谱应用过程中还存在哪些挑战(第16章),都会在这一篇中回答。



如果喜欢本文
欢迎 在看留言分享至朋友圈 三连




 热文推荐 

 





▼ 点击阅读原文,获取本书详情!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存