知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。
知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。
课程主要目的和宗旨是系统讲述知识图谱相关知识,让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。
下面让我们通过第四章课程《关系抽取》的17条精华研讨,来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。
/ 以下为课程第四章《关系抽取》的研讨实录 /
信息抽取的价值:可以从非结构化或半结构化的文本中抽取出结构化形式,也就是文本结构化,结构化的信息非常具有价值。关系抽取的价值:关系抽取是信息抽取的重要子任务,关系抽取是构建知识图谱最重要的子任务之一,关系抽取的结果可以用于很多下游NLP任务。学生B:信息抽取旨在从非结构化或半结构化文本中抽取出结构化数据;关系抽取旨在从无结构的文本中抽取实体以及实体之间的关系。2丨关系获取有哪些方式?分别是什么?各种方式的特点?1)人工获取:很难获得大规模的关系实例,仅限于对关系实例进行少量的增补与修改。2)众包构建:能实现大规模高质量的知识获取,依赖人力,人的主观性导致知识Bias。3)从结构化数据库转换:任何有良好模式的数据库都可以作为数据源,依赖人工定义映射规则,结构化数据规模有限。4)自动构建:能实现大规模关系获取,仍需质量改造。肖仰华老师:大家的回答里都提到了知识的 Bias,这个问题谁能举个例子?学生B:偏向于一些人的常识,并且过于局限,比如太阳从东边出来。肖仰华老师:好的,那么从语料中抽取出的知识是否也会存在 Bias 呢?肖仰华老师:对的。会不会有些知识在文本中从不提及,或者说几乎不提及?肖仰华老师:对的。所以,当前知识获取的 Bias 问题,从来就没有解决,有什么办法解决这个问题么?这个问题留给大家思考,这是个很难的问题。1)关系实例抽取:给定关系P,从语料中抽取更多该关系的实例。2)关系分类抽取:根据实体对的文本描述,将实体对的关系进行归类(通常需要预定一关系类型)。3)实体关系联合抽取:根据输入文本进行实体和关系的联合抽取。4)开放关系抽取(OpenIE):从文本中抽取出描述关系的文字,通常是未定义的关系。肖仰华老师:所以关系抽取是个很泛的概念,大家如果以此为题开展研究,务必明确具体的输入输出,以及相应的问题建模。学生A:OpenIE 没有给定的实体对和候选关系集,直接从文本中进行抽取。关系分类给定实体对和候选关系集,只需根据实体对上下文进行分类任务即可。学生B:关系分类是根据实体对的文本描述,将实体对的关系进行分类,通常需要预定义关系类型,然而能够定义的关系总是有限的,语料中总会出现大量的未定义的关系描述。为了充分利用开放域中的大规模语料,以得到更多的关系实例,OpenIE 旨在从开放域文本中抽取三元组实例,侧重于从文本中抽取出关系的文本描述,其所指代的关系可以是未定义的,也可以进一步映射到已定义的关系。前序步骤:1)实体识别,识别要抽取关系的实体对。2)属性识别,获取实体的适合谓词,可以从所属概念模板自动继承,也可以根据统计信息判断。后续步骤:1)规范化:比如关系描述的规范化。主要作为开放关系抽取的后续步骤。2)过滤:过滤一些低质量的关系。学生B:基于模式或规则的抽取方法;基于序列标注的监督学习方法;基于文本分类的监督学习方法。7丨远程监督构建的关系抽取数据集有什么优点?有什么问题?问题:噪音大。尤其是对可能存在多种关系的实体对,例如:知识库中有三元组(上海,副市长,汤志平),语料中有句子“汤志平籍贯上海”,就会将该句子给一个“副市长”的关系标签,这显然是不正确的。问题:质量低;容易引入错误;有效标注地样本规模有限;类别不平衡。肖仰华老师:大部分答案都挺好。这里还是要和大家强调一下,数据,特别是高质量的标注数据,在实际应用中至关重要。虽然很多论文是关于模型的,但是数据往往是bottleneck,“重模型、轻数据”是难以有效解决实际问题的数据。相关的研究还是太少了,希望引起大家重视。自动评估:又称“留出法”,比较模型预测的结果和测试集中的标准值来判断对错。优点:无需人工参与,可以快速高效地对结果进行评估。缺点:测试集中可能存在构建时引入的误差,质量难以保证,往往会带来评估偏差。。人工评估:人工评估通过多数投票的方法对预测关系进行评估。学生:准确率、精确率、召回率、F1值、Precision-Recall曲线。10丨基于模式的关系抽取有哪些关键问题?解决这些问题的核心思想是什么?模式的表达:提升模式的表达能力,从而提升模式的质量。模式的获取:降低模式获取的人工代价,同时保证模式的质量。肖仰华老师:对的。虽然机器学习方法当下很流行,基于模式方法仍然很重要。但是近年基于模式的方法缺乏创新,大家要在此基础上,引入一些新的机会,比如 language model 等,提升模式方法中的缺陷与不足。11丨模式的过度精化与过度泛化分别会带来怎样的问题?肖仰华老师:其实我们可以考虑同时使用几类不同粒度的模式。我个人觉得有些 case 要用精化的模式,有些 case 使用 coarse-grained pattern 即可。那么能否发展一些混合方法呢,据我所知,这些思路还没看到相关工作。12丨电商的商品页面抽取通常采用那种模式?为什么?学生A:基于字符模式的抽取,因为电商的商品页面是基于模板生成的,有固定的页面结构,基于字符模式就能取得很好的结果。学生B:如果只考虑一家电商的商品页面,可以通过精化的模式抽取,网页结构很少变化,商品名称等信息可以通过解析 html 直接获得。跨多个电商的页面抽取需要泛化。13丨字符模式、语法模式和语义模式的各自特点是什么?字符模式:定义最为精确,将规则定到字符级别,范围最小。语法模式:需要先对句子进行语法分析,将规则定义到词性级别,表达能力更强,范围更大。语义模式:利用概念定义模式,依赖概念图谱,降低了所匹配实例发生语义漂移的可能性。学生A:NP 抚养 NP 长大。我们利用这个模式抽取父母-儿女关系。但是句子“小红抚养小猫长大”却是错误的,加上语义约束后, $人类抚养 $人类 长大就是抽取正确了。学生B:关系:食品-生产商;模式:S食品由S商家/公司出品;例句:“大白兔奶糖由上海冠生园出品。”学生C:$演员 参演了 $影视作品。例如:“吴京参演了《战狼二》。”学生D:“鲁迅出生于1881年9月25日”、“鲁迅出生于浙江绍兴”。关系:人-出生地,模式:$人 出生于 $地址 。学生E:“小明完成了自我升华”、“小明完成作业”。关系都是“人物->实体”,但是前者不符合,后者符合。肖仰华老师:最后这两个例子比较好。这个问题没有标准答案,但是这两位学生的举例最一目了然。不引入概念的确导致错误。这个错误是什么错误?肖仰华老师:同一个模式,可以表达不同的语义的关系。比如“出生于”,既可以表达“生日”,也可以是“出生地”,那么,如何阻止这个问题出现呢?现在NLP发展的最新结果能否用来解决这个问题呢?学生E:可以预先定义一些语义模版加强自然语言的表示。肖仰华老师:BERT 这类语言模型,可以告诉我们是否正在发生语义漂移。比如,你有一堆种子样本,是关于球队胜负关系的实例,现在抽取来“小明战胜自己”,“猎人战胜野狼”,其中“猎人”、“小明”、“自己”、“野狼”这些词的 embedding,应该偏离各种球队。学生F:发生飘逸的样本 embedding 应该和其他样本的 embedding 相差比较大。15丨语言的多样性和歧义性分别是指什么?分别举例?各自对基于模式的抽取带来怎样的挑战?1)多样性:创办公司的关系,可以表述为:创办、首创、兴办、建设、建立、创始、创立。2)歧义性:“开刀的是她父亲”,可理解为她父亲是开刀的外科医生,也可理解为他父亲有病,医生给他做了手术。多样性给专家定义模式的召回率带来了挑战,歧义性给准确率带来了挑战。多样性:日期可以是 丙申年,2020 年 卅,或 30 日,影响召回。多样性:就比如表达主人和宠物,可以说饲养、喂养、有、领养、养了。肖仰华老师:大家的回答都挺好。不过在歧义性举例方面,与关系抽取的关系都不大。16丨基于模式的自举法的动机是什么?基本过程是怎样的?动机:自动发现更多的模式,提升基于模式方法的recall。基本过程:为该关系类型标注少量初始种子实体对,找到实体对在文本语料库中所出现的句子集合,基于这些句子提取表达关系的模式,然后使用新发现的模式去语料中抽取新的实体对。(“滚雪球”)学生A:在迭代的过程中,可能发生语义漂移。比如:父女关系,可能会发现这样的模式 e1 是 e2 的父亲、e1 和 e2 去了游乐园等,后者在迭代的过程会得到不再属于父女关系的实例。学生B:语义漂移问题。迭代过程中得到的新 Pattern 不再能表达种子关系;迭代会引入噪音实例和噪音模板。举例:关系种子:(苹果,乔布斯)(阿里巴巴,马云)(京东,刘强东)模板:E2 创办了 E1,E1 的创始人是 E2,E2 所在的公司是 E1。新关系实例:(百度,李彦宏),(腾讯,马化腾),(腾讯,张小龙),最后一个关系是错误的。学生C:语义漂移问题。迭代过程中得到新的模式不再能表达种子关系;会引入噪音实例和噪音模板。种子:“陈奕迅唱了红玫瑰”,“绅士的歌手是薛之谦”,模式:”XXX的歌手是XXX“,”XXX唱了XXX“这些模式,但学到的新关系实例中就会存在“刘瑞琦唱了《稻香》”,显然,刘瑞琦只是翻唱,并不是这首歌的原唱。学生E:语义漂移。从<奥巴马,总统,美国>,<特朗普,总统,美国>一组“总统”关系,得到“奥巴马住在白宫”,“特朗普竞选美国总统”这样的模版,误从“希拉里竞选美国总统”、“希拉里住在白宫”中抽出<希拉里,总统,美国>这样的关系。肖仰华老师:大家的例子都挺好。语义漂移是 bootstrapping 方法的核心问题,如何利用深度学习时代的各种方法解决这个问题,是值得探讨的。图书推荐
《知识图谱:概念与技术》
肖仰华 等 编著
本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。
本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。
(扫码了解本书详情)