知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。
知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。
课程主要目的和宗旨是系统讲述知识图谱相关知识,让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。
下面让我们通过第五章课程《概念图谱构建》的16条精华研讨,来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。
/ 以下为课程第五章《概念图谱构建》的研讨实录 /
1.人类能理解事物的重要体现之一就是产生概念;
2.概念是人类将万事万物准确归类的前提;
3.概念的发展使得人类以最经济有效的方式认知世界;
4.概念是联想的重要隐含因素;
肖仰华老师:语言离不开认知,认知体现为知识库,三者之间关系密切,建议大家有空可以看看 《The Big Book of Concepts》。2丨概念图谱与通用知识图谱的区别在哪里?(可以从定义、组成等方面)学生:概念图谱是一类专注于实体与概念之间的 isA 关系的知识图谱,主要由实体、概念以及 instanceOf、subClassof 关系构成。通用知识图谱不止局限于此,它涉及的范围更广,由实体以及它们之间各式各样的关系组成。3丨从认知和语言角度,概念图谱可以分哪两类?他们各自有什么特点?概念层级体系:1.其中 isA 关系都是由较具体的实体(或概念)指向较抽象的概念的。2.有严格的层级结构,形成有向无环图。词汇概念层级体系:1.基本关系是词汇之间的上下位关系。2.可能因为歧义而存在环。肖仰华老师:taxonomy 和 lexical taxonomy 是很容易混淆的,大家还是要严格区分语言与认知这两个不同层面的概念。越是传统的人工智能研究,越要注重概念的澄清,当前从大数据中抽取出的大多数都是 lexical taxonomy。肖仰华老师:这两个问题一起回答。实例化和概念化这两个核心功能,大家务必要清楚,基于这两个功能延伸出一系列应用,比如用概念图谱对简历进行画像,对新闻打概念标签。基于 Pattern 的方法:具有高覆盖率的优点;需要预定义模式,仍然需要采用额外的手段清洗,提升抽取的精度和召回率。基于 Wikipedia 的方法:具有高精度的特点;覆盖规模低。基于 Embedding 的方法:基于 Embedding 的方法准确率较低(80%左右),并没有被广泛用于概念图谱构建。肖仰华老师:Embedding based 方法现在准确率 还不高, Embedding 有隐性特征, 应该可以增强 isA 推断的准确性。基于模式:大部分中文模式比相应的英文模式准确率低。基于图谱翻译:译法存在歧义。不同语种倾向于表达不同的知识。肖仰华老师:不同语言在知识表达上的倾向性是个十分有意思的问题,其实即便这个问题本身也很少看到研究工作,我们完全可以开展一些实证研究,分析到底中英文倾向于表达怎样的知识。1.某个特定的文本语料知识对知识全集的一个不完整的表达。
2.大量常识性的 isA 关系,在语料中鲜有提及。
肖仰华老师:对于低频长尾实体,都是好的研究问题,例如低频不代表不成立,低频只是因为语料中出现的少。概念图谱中的环很有可能包含错误的边(isA 关系),环的存在可以定位其中的错误isA 关系。学生:模式前后的噪声词汇会导致抽取错误。例如,对“animals other than dogs such as cats”的抽取得到了错误的关系“cats isA dogs”,这是other than干扰造成的。分词错误会导致抽取错误。例如,在“algorithms including SVM,LR and RF”中,分词模型难以确定“LR and RF”到底是一个实体还是两个实体,从而导致抽取错误。学生:首先进行概念标签识别,维基百科中的标签可分为概念型标签、主题型标签、属性型标签以及管理型标签。YAGO 使用了浅层语言分析来识别概念型标签,其基本思路为识别出标签名称中的中心词。然后进行概念层级体系构建,该过程将概念型标签与 WordNet 知识图谱中的概念建立 isA 关系,进而构建一个比 WordNet 更大的概念层级体系。1.实体集是否相交,如果不相交则可能是互斥的。
肖仰华老师:概念对之间的关系判断其实是个不容易的事情,这个问题也仍有很多研究机会。12丨有哪些指标可以用于评价Probase中的边错误的可能性?1.支持度:出现某条知识的句子的数量。
2.可信度:一般而言,一个更具体的概念在概念图谱中的实例要比抽象的概念少。因此,对一条 isA 关系 x isA y,记 e(x) 为 x 的直接下位词数量,一般有 e(x)<e(y) 。因此,e(y)/e(x) 越大,则 x isA y 越可信。13丨基于传递性的补全与基于协同过滤补全的基本思想是什么?各自适用场景是什么?1.基于传递性补全的基本思想是认为 isA 关系在理论上具有传递性,可以通过 x isA y且 y isA z,推理出 x isA z 并加入概念图谱中,从而实现概念图谱补全。
2.基于协同过滤补全的基本思想是相似实体拥有类似的上位词。
3.基于传递性进行补全的方法只适用于存在一个中间“桥梁”概念的 isA 关系,且在对大规模词汇概念图谱进行补全时,需要判断 isA 关系的传递性是否成立。noise-or:所有指标只要有一个特别好就行,减少噪音异常值的干扰。15丨中文概念图谱构建的典型框架有哪些?各自主要思想是什么?1.抽取+排序。基本思想是通过搜索引擎搜索实体,从搜索结果、在线百科类别标记和实体核心词库等三类来源获取候选上位词;使用大量命名实体及其候选上位词的标注语料训练排序模型,解决 Web 得到的候选词召回率高,而准确率低的问题。其框架主要包括两个模块:候选上位词抽取和上位词排序。2.生成+验证。基本思想是从多个数据源中抽取 isA 关系,确保覆盖率;验证清洗抽取的结果,确保准确率。其框架主要包括两个模块:生成模块和验证模块。肖仰华老师:这个回答比较全面,系统的框架有时十分关键。16丨利用 wordnet 对 transitivity 判断模型构造样本的基本思路是什么?学生:寻找一词多义的词构造负样本,单一的词构造正样本,寻找特征进行训练分类器。图书推荐
《知识图谱:概念与技术》
肖仰华 等 编著
本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。
本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。
(扫码了解本书详情)