知识图谱技术研讨精华整理,肖仰华教授带你建立起知识图谱学科体系
知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。
知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。
该课程全面系统讲授与研讨了知识图谱相关概念与技术主题,对当前行业落地过程的一系列困难进行答疑解惑。
下面让我们通过回顾第一章课程的10条“知识图谱概述”研讨,来进一步学习了解知识图谱技术内幕。
本课程配套教材《知识图谱:概念与技术》。
/ 以下为课程第一章《知识图谱概述》的研讨实录 /
1丨知识图谱与语义网络有何差别?
学生:知识图谱是一种富含实体、概念及其之间语义关系的大规模语义网络。普通的语义网络没有这些限制。
肖仰华老师:知识图谱与传统语义网络最明显的区别体现在规模上,知识图谱规模巨大,此外,还体现在其语义丰富、质量精良、结构友好等特性上规模是最明显的区别,还有更深层次的区别。知识图谱在规模上的变化也决定了知识图谱从知识获取到知识应用均与传统语义网络存在显著区别:
(1) 高质量模式缺失
(2) 封闭世界假设不再成立
(3) 大规模自动化知识获取成为前提
所以知识图谱不单单只是表面上的规模大,大家还要注意更深层次的差别。
2丨知识图谱与本体有什么差别?
学生:本体源于哲学中的本体论,侧重于对存在进行规定和刻画。人工智能领域提出本体的一个重要动机是,知识的共享与复用,以及数据的互联与互通。
肖仰华老师:本体刻画了人们认知一个领域的基本框架。计算机领域的本体侧重于表达认知的概念框架,表达概念之间的语义关系,往往也伴随着刻画概念的公理系统。在建设知识图谱的初期,模式定义实质上是在完成本体定义的任务。
3丨什么是开放世界假设,什么是封闭世界假设?
学生:开放世界假设是:在知识库中不存在的不一定不成立;封闭世界假设是,在知识库中不存在的一定不成立。例如人有两只眼睛,即使没有陈述,我们也是默认的,但是在封闭世界假设里面认为没有说就是假。
肖仰华老师:目前针对开放世界假设的研究工作还很少,希望大家重点关注,用于探索这一问题。
4丨属性和关系有何差别?
学生:关系用于刻画实体和实体之间的联系,属性是实体的固有特性。关系连接两个实体,属性连接实体和对应的值。
肖仰华老师:知识图谱中的边可以分为属性与关系两类。属性描述实体某方面的特性,比如人的出生日期、身高、体重等。属性是人们认知世界、描述世界的基础。关系则可以认为是一类特殊的属性,当实体的某个属性值也是一个实体时,这个属性实质上就是关系。比如,某个人的父亲是一个特定的人物实体,因此“父亲”可以认为是一条关系,用于连接这两个实体。
5丨真实的知识图谱中容易发现质量问题,原因有哪些?
学生:大量数据难获取,随着量增大质量会下降。系统中的数据通常存在数据质量差、数据标准不统一、元数据描述缺乏、数据字典不全、数据一致性不完备等问题。
肖仰华老师:这个问题的答案是多方面的。首先,大家都提到了高质量模式缺失,知识图谱构建时往往先规模后质量,这就容易溜进来一些错误。其次,图谱构建往往来源于大规模开放语料,比如互联网文本,web网页,显然,针对这些数据的抽取、获取难以做到100%准确。最后,图谱规模巨大,人工验证也难以做到全量。
6丨传统知识工程与以知识图谱为代表的大数据知识工程的差别是什么?
学生:以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。传统知识工程所成功解决的问题普遍具有规则明确、应用封闭的特点。大数据知识工程则是规模巨大、精度要求相对不高、知识推理简单。
肖仰华老师:这个问题的回答要从知识表示知识获取以及知识应用三个层面来回答。这也是任何知识工程的核心三问。规模大小关系多样等等是表示层面的差别。自动化构建还是专家构建这是知识获取方面的差异。是否适用于开放性简单应用这是应用层面。对于知识工程的学习,大家一定要学会从这三个层面思考问题,解决问题。
7丨传统知识工程有哪些局限?
学生:隐性知识与过程知识等难以表达,知识表达的主观性不一致。传统知识工程依赖专家完成知识获取,容易发生异常。严重依赖专家和人的干预,规模有限,知识获取困难。
肖仰华老师:这里需要强调一点:传统知识工程所成功解决的问题普遍具有规则明确、应用封闭的特点,比如几何定理的证明,规则明确,应用封闭 是当下很多成功AI应用的前提。反之,真正的挑战在于开放性,所以,我们的同学要勇于挑战各自研究问题中的开放性问题。开放性问题是人工智能真正的难题,有大量的研究机会。
8丨为什么说知识图谱是认知智能的基石?
学生:实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良,只有知识图谱是满足所有这些条件的。
肖仰华老师:在解决自然语言问题中,理解、解释、语言认知、可解释AI、增强机器学习能力等等是要点。
9丨为什么可解释AI需要符号知识?
学生:人类的认知是基于概念、属性、关系这些符号知识的。对于机器学习进行显式解释时,符号化知识植入到数值化表示的神经网络中,可以解释习得深度神经网络的中间表示与最终结果。
肖仰华老师:当前的AI系统都是人机混合系统,AI系统需要为人产生结果。而人智能理解符号,无法理解数值化向量,因此,可解释离不开符号化的知识。
10丨如何理解NLP+KB=NLU?
学生:自然语言处理借助知识图谱提供的背景知识能够更好地理解具体的语义。自然语言处理结合了知识,在一定意义上真正做到理解。
肖仰华老师:人类理解世界需要背景知识,那么自然机器理解语言也要有背景知识。人类发展出语言的目的是交流。如果世界上就只有一个人就不需要语言。那么,两个人或者一群人能够进行有效沟通的前提是什么?就是有共同的认知背景,如果共享的背景知识越多,语言表达就越简单。甚至简单到一个单词,一个眼神,一个手势。那么,为了形式越简单的语言表达,就需要越丰富的背景知识。不仅仅需要世界知识,也需要基本的语法语言知识。所以,为了理解互联网上的搜索关键次,首先需要合理的解析模型,比如识别出搜索的核心词,修饰词,这体现的就是平台的语法理解能力。但是仅仅理解语法是不够的,因为没有世界知识,平台无法理解 “trump birthday”中的trump是美国总统。所以,平台高理解搜索关键字这类看似简单的语言表达,既需要语法知识支撑下的语法理解能力,也需要更多背景知识,比如世界知识支撑下 的语义理解能力 ,才能实现真正的理解。
图书推荐
《知识图谱:概念与技术》
肖仰华 等 编著
本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。
本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。
(扫码了解本书详情)
热文推荐