肖仰华谈知识图谱:知识将比数据更重要,得知识者得天下
CSDN 出品的《2018-2019 中国人工智能产业路线图》V2.0 版即将重磅面世!
V1.0 版发布以来,我们有幸得到了诸多读者朋友及行业专家的鼎力支持,在此表示由衷感谢。此次 V2.0 版路线图将进行新一轮大升级,内容包括 3 大 AI 前沿产业趋势分析,10 位 AI 特邀专家的深度技术分析,15 家一线互联网企业的 AI 实力大巡展,以及 20 个 AI 优秀应用案例,力求为读者呈现更全面的中国人工智能产业发展概况和趋势判断。
V2.0 版将于 11 月 8 日举办的 2018 AI 开发者大会上正式发布,在此之前,我们将不间断公布精要内容,以飨读者。此为 V2.0 版中深度技术分析系列稿件第 3 篇,作者为 CSDN 特邀 AI 专家——复旦大学教授肖仰华。
作者简介:肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。
一、什么是知识图谱
▌1.1 知识图谱的定义
知识图谱是什么?本质上是一种大规模语义网络。理解知识图谱的概念,有两个关键词。
首先是语义网络。语义网络表达了各种各样的实体、概念及其之间的各类语义关联。
图1. 知识图谱示例
比如“C罗”是一个实体,“金球奖”也是一个实体,他们俩之间有一个语义关系就是“获得奖项”。“运动员”、“足球运动员”都是概念,后者是前者的子类(对应于图中的subclassOf 关系)。
理解知识图谱的第二个关键词是“大规模”。语义网络并非新鲜事物,早在上个世纪七八十年代知识工程盛行之时,就已存在。相比较于那个时代的语义网络,知识图谱规模更大。
从2012年Google提出知识图谱直到今天,知识图谱技术发展迅速,知识图谱的内涵远远超越了其作为语义网络的狭义内涵。当下,在更多实际场合下,知识图谱是作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。去年我国学科目录做了调整,首次出现了知识图谱的学科方向,教育部对于知识图谱这一学科的定位是“大规模知识工程”,这一定位是十分准确且内涵丰富的。这里需要指出的是知识图谱技术的发展是个持续渐进的过程。从上个世纪七八十年代的知识工程兴盛开始,学术界和工业界推出了一系列知识库,直到2012年Google推出了面向互联网搜索的大规模的知识库,被称之为知识图谱。
▌1.2与传统知识表示的区别
理解今天的知识图谱内涵,是不能割裂其历史脐带的。上世纪七八十年代的各种知识表示与我们今天的知识图谱到底有着本质差别。传统语义网络与知识图谱的差别首先表现在其规模上。
知识图谱是一种大规模语义网络,与上世纪七八十年代的各类语义网络相比较,最显著的差异就是规模差异。推而广之,以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。传统知识工程一系列知识表示都是一种典型的“小知识”(smallknowledge)。
而到了大数据时代,受益于海量数据、强大计算能力以及群智计算,我们如今能够自动化构建、或者众包构建大规模、高质量知识库,形成所谓的“大知识”(bigknowledge,合肥工业大学的吴兴东教授在很多场合下也提到类似观点)。所以知识图谱与传统知识表示在浅层次上的区别,就是大知识与小知识的差别,是在规模上的显而易见的差别。
更深刻地进行分析就会发现,这样的一个知识规模上的量变带来了知识效用的质变。
知识工程到了上世纪八十年代之后就销声匿迹了。根本原因在于传统知识库构建主要依靠人工构建、代价高昂、规模有限。举个例子,我国的词林辞海是上万名专家花了10多年编撰而成的,但是它只有十几万词条。而现在任何一个互联网上的知识图谱,比如DBpedia,动辄包含上千万实体。人工构建的知识库虽然质量精良,但是规模有限。有限的规模使得传统知识表示难以适应互联网时代的大规模开放应用的需求。
互联网应用的特点在于:
一、规模巨大,我们永远不知道用户下一个搜索关键词是什么;
二、精度要求相对不高,搜索引擎从来不需要保证每个搜索的理解和检索都是正确的;
三、简单知识推理,大部分搜索理解与回答只需要实现简单的推理,比如搜索刘德华推荐歌曲,是因为知道刘德华是歌星,至于“姚明老婆的婆婆的儿子有多高”这类的复杂推理在实际应用中所占比率是不高的。
互联网上的这种大规模开放应用所需要的知识很容易突破传统专家系统由专家预设好的知识库的知识边界。这一定程度上回答了,为何谷歌在2012年这个时间节点推出知识图谱,利用一个全新名称以表达与传统知识表示毅然决裂的态度。
二、知识图谱的重要性
知识图谱是实现机器认知智能的基础。机器认知智能的两个核心能力:“理解”和“解释”,均与知识图谱有着密切关系。首先需要给机器“理解与解释”提出一种解释。我认为机器理解数据的本质是建立起从数据到知识库中的知识要素(包括实体、概念和关系)映射的一个过程。
比如如果我说到“2013年的金球奖得主C罗”这句话,我们之所以说自己理解了这句话,是因为我们把“C罗”这个词汇关联到我们脑子中的实体“C罗”,把“金球奖”这个词汇映射到我们脑中的实体“金球奖”,然后把“得主”一词映射到边“获得奖项”这个关系。我们可以仔细体会一下我们的文本理解过程,其本质是建立从数据(包括文本、图片、语音、视频等)到知识库中的实体、概念、属性映射的过程。
再来看人类是如何“解释”的。比如我问“C罗为什么那么牛?”,可以通过知识库中的“C罗获得奖项金球奖”以及“金球奖地位影响力最大的足球奖项之一”这两条关系来解释这一问题。
这一过程的本质就是将知识库中的知识与问题或者数据加以关联的过程。有了知识图谱,机器完全可以重现我们的这种理解与解释过程。有过一定计算机研究基础的,是不难完成上述过程的数学建模的。知识图谱对于机器认知智能的重要性也体现在下面几个具体方面。
▌2.1 知识图谱使能机器语言认知
知识图谱对机器认知智能的必要性还可以从若干具体问题来进行阐述。首先,我们来看机器认知的核心能力之一:自然语言理解。
我的观点是机器理解自然语言需要类似知识图谱这样的背景知识。自然语言是异常复杂的:自然语言有歧义性、多样性,语义理解有模糊性且依赖上下文。机器理解自然语言困难的根本原因在于,人类语言理解是建立在人类的认知能力基础之上的,人类的认知体验所形成的背景知识是支撑人类语言理解的根本支柱。
我们人类彼此之间的语言理解就好比是根据冰山上浮出水面的一角来揣测冰山下的部分。我们之所以能够很自然地理解彼此的语言,是因为彼此共享类似的生活体验、类似的教育背景,从而有着类似的背景知识。冰山下庞大的背景知识使得我们可以彼此理解水面上有限的几个字符。我们可以做个简单的思想实验,假如现在有个外星人坐在这里听我讲报告,他能听懂么?我想还是很困难的,因为他没有在地球上生活的经历,没有与我相类似的教育背景,没有与我类似的背景知识库。
再举个很多人都有体会的例子,我们去参加国际会议时,经常遇到一个尴尬的局面,就是西方学者说的笑话,我们东方人很难产生共鸣。因为我们和他们的背景知识库不同,我们早餐吃烧饼、油条,西方吃咖啡、面包,不同的背景知识决定了我们对幽默有着不同的理解。所以语言理解需要背景知识,没有强大的背景知识支撑,是不可能理解语言的。要让机器理解我们人类的语言,机器必需共享与我们类似的背景知识。
实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。
以这四个条件去看知识表示就会发现,只有知识图谱是满足所有这些条件的:知识图谱规模巨大,动辄包含数十亿实体;关系多样,比如在线百科图谱DBpedia包含数千种常见语义关系;结构友好,通常表达为RDF三元组,这是一种对于机器而言能够有效处理的结构;质量也很精良,因为知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。
▌2.3 知识图谱使能可解释人工智能
知识图谱对于认知智能的另一个重要意义在于:知识图谱让可解释人工智能成为可能。
“解释”这件事情一定是跟符号化知识图谱密切相关的。因为解释的对象是人,人只能理解符号,没办法理解数值,所以一定要利用符号知识开展可解释人工智能的研究。可解释性是不能回避符号知识的。
我们先来看几个解释的具体例子。比如,我若问鲨鱼为什么可怕?你可能解释说:因为鲨鱼是食肉动物,这实质上是用概念在解释。若问鸟为什么能飞翔?你可能会解释因为它有翅膀。这是用属性在解释。若问鹿晗关晓彤前些日子为什么会刷屏?你可能会解释说因为关晓彤是鹿晗的女朋友。这是用关系在解释。我们人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象,解释事实。而对于机器而言,概念、属性和关系都表达在知识图谱里面。因此,解释离不开知识图谱。
▌2.4 知识引导将成为解决问题的主要方式
知识图谱的另一个重要作用体现在知识引导将成为解决问题的主要方式。前面已经多次提及用户对使用统计模型来解决问题的效果越来越不满意了,统计模型的效果已经接近“天花板”,要想突破这个“天花板”,需要知识引导。
举个例子,实体指代这样的文本处理难题,没有知识单纯依赖数据是难以取得理想效果的。比如“张三把李四打了,他进医院了”和“张三把李四打了,他进监狱了”,人类很容易确定这两个不同的“他”的分别指代。因为人类有知识,有关于打人这个场景的基本知识,知道打人的往往要进监狱,而被打的往往会进医院。但是当前机器缺乏这些知识,所以无法准确识别代词的准确指代。很多任务是纯粹的基于数据驱动的模型所解决不了的,知识在很多任务里不可或缺。比较务实的做法是将这两类方法深度融合。
▌2.5 知识将显著增加机器学习能力
知识对于认知智能又一个很重要的意义就是将显著增强机器学习的能力。
当前的机器学习是一种典型的“机械式”学习方式,与人类的学习方式相比显得比较笨拙。我们的孩童只需要父母告知一两次:这是猫,那是狗,就能有效识别或者区分猫狗。而机器却需要数以万计的样本才能习得猫狗的特征。
我们中国人学习英语,虽然也要若干年才能小有所成,但相机器对于语言的学习而言要高效的多。机器学习模型落地应用中的一个常见问题是与专家知识或判断不符合,这使我们很快陷入进退两难的境地:是相信学习模型还是果断弃之?机器学习与人类学习的根本差异可以归结为人是有知识的且能够有效利用知识的物种。
我相信,未来机器学习能力的显著增强也要走上充分利用知识的道路。符号知识对于机器学习模型的重要作用会受到越来越多的关注。这一趋势还可以从机器智能解决问题的两个基本模式方面加以论述。
机器智能的实现路径之一是习得数据中的统计模式,以解决一系列实际任务。另一种是专家系统,专家将知识赋予机器构建专家系统,让机器利用专家知识解决实际问题。如今,这两种方法有合流的趋势,无论是专家知识还是通过学习模型习得的知识,都将显式地表达并且沉淀到知识库中。再利用知识增强的机器学习模型解决实际问题。这种知识增强下的学习模型,可以显著降低机器学习模型对于大样本的依赖,提高学习的经济性;提高机器学习模型对先验知识的利用率;提升机器学习模型的决策结果与先验知识的一致性。
因此,知识将成为比数据更为重要的资产。前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软的沈向洋博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。因此,在这个意义下,将是“得知识者得天下”。如果说数据是石油,那么知识就好比是石油的萃取物。如果我们只满足卖数据盈利,那就好比是直接输出石油在盈利。但是石油的真正价值蕴含于其深加工的萃取物中。石油萃取的过程与知识加工的过程也极为相像。都有着复杂流程,都是大规模系统工程。知识工程的鼻祖,费根鲍姆曾经说过的一句话“knowledge is the power inAI”。
三、知识图谱的生命周期
图2. 知识图谱的生命周期
知识图谱系统的生命周期包含四个重要环节:知识表示、知识获取、知识管理与知识应用。这四个环节循环迭代。
知识应用环节明确应用场景,明确知识的应用方式。
知识表示定义了领域的基本认知框架,明确领域有哪些基本的概念,概念之间有哪些基本的语义关联。比如企业家与企业之间的关系可以是创始人关系,这是认知企业领域的基本知识。知识表示只提供机器认知的基本骨架,还要通过知识获取环节来充实大量知识实例。比如乔布斯是个企业家,苹果公司是家企业,乔布斯与苹果公司就是“企业家-创始人-企业”这个关系的一个具体实例。
知识实例获取完成之后,就是知识管理。这个环节将知识加以存储与索引,并为上层应用提供高效的检索与查询方式,实现高效的知识访问。
四个环节环环相扣,彼此构成相邻环节的输入与输出。在知识的具体应用过程中,会不断得到用户的反馈,这些反馈会对知识表示、获取与管理提出新的要求,因此整个生命周期会不断迭代持续演进下去。
▌3.1 知识表示
在知识表示方面,常用三元组(主语、谓词、宾语)表示知识图谱。如三元组<七里香,歌曲原唱,周杰伦>表示“七里香这首歌曲的原唱是周杰伦”这一知识。需要强调一点,知识图谱只能表达一些简单的关联事实,但很多领域应用的需求已经远远超出了三元组所能表达的简单关联事实,实际应用日益对于利用更加多元的知识表示丰富和增强知识图谱的语义表达能力提出了需求。
这一趋势首先体现在对于时间和空间语义的拓展与表达方面。
有很多知识和事实是有时间和空间条件的,比如说“美国总统是特朗普”这个事实的成立是有时间条件的,十年前美国的总统不是特朗普,十年之后应该也不大可能是特朗普。还有很多事实是有空间条件的,比如“早餐是烧饼与油条”这件事,在中国是这样,但是在西方并非如此,西方的早餐可能是咖啡、面包。
从时空维度拓展知识表示对很多特定领域具有较强的现实意义。比如在位置相关的应用中,如何将POI(Point of Interest)与该POI相关实体加以关联,成为当下拓展POI语义表示的重要任务之一。比如将“邯郸路220号”(复旦大学地址)关联到“复旦大学”是十分有意义的。在互联网娱乐领域,粉丝们往往不仅仅关心某个明星的妻子是谁,可能更关心明星的前任妻子、前任女友等信息,这些应用都对事实成立的时间提出了需求。
第二、增强知识图谱的跨媒体语义表示。
当前的知识图谱主要以文本为主,但是实际应用需要有关某个实体的各种媒体表示方式,包括声音、图片、视频等等。比如对于实体“Tesla Model S”,我们需要将其关联到相应图片和视频。知识图谱时空维度拓展在物理实现上可以通过定义四元组或者五元组加以实现。跨媒体表示可以通过定义相关的属性加以实现。知识图谱的语义增强总体上而言将是未来一段时间知识表示的重要任务。知识图谱作为语义网络,侧重于表达实体、概念之间的语义关联,还难以表达复杂因果关联与复杂决策过程。
如何利用传统知识表示增强知识图谱,或者说如何融合知识图谱与传统知识表示,更充分地满足实际应用需求,是知识图谱领域值得研究的问题之一。在一些实际应用中,研究人员已经开始尝试各种定制的知识表示,在知识图谱基础上适当扩展其他知识表示是一个值得尝试的思路。
▌3.2 知识获取
图3.知识获取的基本步骤
知识的获取是个系统工程,流程复杂,内涵丰富,涉及到知识表示、自然语言处理、数据库、数据挖掘、众包等一系列技术。知识获取的基本步骤如图3所示:
第一步是模式(Schema)设计。这一步是传统本体设计所要解决的问题。基本目标是把认知领域的基本框架赋予机器。在所谓认知基本框架中需要指定领域的基本概念,以及概念之间subclassof关系(比如足球领域需要建立“足球运动员”是“运动员”的子类);需要明确领域的基本属性;明确属性的适用概念;明确属性值的类别或者范围。比如“效力球队”这个属性一般是定义在足球运动员这个概念上,其合理取值是一个球队。
此外,领域还有大量的约束或规则,比如对于属性是否可以取得多值的约束(比如“奖项”作为属性是可以取得多值的),再比如球队的“隶属球员”属性与球员的“效力球队”是一对互逆属性。这些元数据对于消除知识库不一致、提升知识库质量具有重要意义。
第二步是明确数据来源。在这一步要明确建立领域知识图谱的数据来源。可能来自互联网上的领域百科爬取,可能来自通用百科图谱的导出,可能来自内部业务数据的转换,可能来自外部业务系统的导入。应该尽量选择结构化程度相对较高、质量较好的数据源,以尽可能降低知识获取代价。
第三步是词汇挖掘。人们从事某个行业的知识的学习,都是从该行业的基本词汇开始的。在传统图书情报学领域,领域知识的积累往往是从叙词表的构建开始的。叙词表里涵盖的大都是领域的主题词,及这些词汇之间的基本语义关联。在这一步我们是要识别领域的高质量词汇、同义词、缩写词,以及领域的常见情感词。比如在政治领域,我们需要知道特朗普又被称为川普,其英文简称为Trump。
第四步是领域实体发现(或挖掘)。需要指出的是领域词汇只是识别出领域中的重要短语和词汇。但是这些短语未必是一个领域实体。从领域文本识别某个领域常见实体是理解领域文本和数据的关键一步。在实体识别后,还需对实体进行实体归类。能否把实体归到相应的类别(或者说将某个实体与领域类别或概念进行关联),是实体概念化的基本目标,是理解实体的关键步骤。比如将特朗普归类到政治人物、美国总统等类别,对于理解特朗普的含义具有重要意义。实体挖掘的另一个重要任务是实体链接,也就是将文本里的实体提及(Mention)链接到知识库中的相应实体。实体链接是拓展实体理解,丰富实体语义表示的关键步骤。
第五步是关系发现。关系发现,或者知识库中的关系实例填充,是整个领域知识图谱构建的重要步骤。关系发现根据不同的问题模型又可以分为关系分类、关系抽取和开放关系抽取等不同变种。关系分类旨在将给定的实体对分类到某个已知关系;关系抽取旨在从文本中抽取某个实体对的具体关系;开放关系抽取(OpenIE)从文本中抽取出实体对之间的关系描述。也可以综合使用这几种模型与方法,比如根据开放关系抽取得到的关系描述将实体对分类到知识库中的已知关系。
第六步是知识融合。因为知识抽取来源多样,不同的来源得到的知识不尽相同,这就对知识融合提出了需求。知识融合需要完成实体对齐、属性融合、值规范化。实体对齐是识别不同来源的同一实体。属性融合是识别同一属性的不同描述。不同来源的数据值通常有不同的格式、不同的单位或者不同的描述形式。比如日期有数十种表达方式,这些需要规范化到统一格式。
最后一步是质量控制。知识图谱的质量是构建的核心问题。知识图谱的质量可能存在几个基本问题:缺漏、错误、陈旧。
先谈知识库的缺漏问题。某种意义上,知识完备对于知识资源建设而言似乎是个伪命题,我们总能枚举出知识库中缺漏的知识。知识缺漏对于自动化方法构建的知识库而言尤为严重。但是即便如此,构建一个尽可能全的知识库仍是任何一个知识工程的首要目标。既然自动化构建无法做到完整,补全也就成为了提升知识库质量的重要手段。补全可以是基于预定义规则(比如一个人出生地是中国,我们可以推断其国籍也可能是中国),也可以从外部互联网文本数据进行补充(比如很多百科图谱没有鲁迅身高的信息,需要从互联网文本寻找答案进行补充)。
其次是纠错。自动化知识获取不可避免地会引入错误,这就需要纠错。根据规则进行纠错是基本手段,比如A的妻子是B,但B的老公是C,那么根据妻子和老公是互逆属性,我们知道这对事实可能有错。知识图谱的结构也可以提供一定的信息帮助推断错误关联。比如在由概念和实例构成的Taxonomy中,理想情况下应该是个有向无环图,如果其中存在环,那么有可能存在错误关联。
最后一个质量控制的重要问题是知识更新。更新是一个具有重大研究价值,却未得到充分研究的问题。很多领域都有一定的知识积累。但问题的关键在于这些知识无法实时更新。比如电商的商品知识图谱,往往内容陈旧,无法满足用户的实时消费需求(比如“战狼同款饰品”这类与热点电影相关的消费需求很难在现有知识库中涵盖)。
经历了上述步骤之后得到一个初步的知识图谱。在实际应用中会得到不少反馈,这些反馈作为输入进一步指导上述流程的完善,从而形成闭环。此外,除了上述自动化构建的闭环流程,还应充分考虑人工的干预。人工补充很多时候是行之有效的方法。比如一旦发现部分知识缺漏或陈旧,可以通过特定的知识编辑工具实现知识的添加、编辑和修改。也可以利用众包手段将很多知识获取任务分发下去。如何利用众包手段进行大规模知识获取,是个十分有意思的问题,涉及到知识贡献的激励机制,我前几年有个题为《未来人机区分》的报告,专门讨论如何利用知识问答形式的验证码来做知识获取,可以搜索此文获取更多信息。
▌3.3 知识管理
知识图谱的管理主要图谱的存储、检索等问题。通常这些问题的解决需要数据库系统的支撑,因而系统的选型也是知识图谱管理的一个重要问题。这里主要讨论能用于知识图谱管理的数据库系统选型以及知识图谱查询语言。知识图谱存储是个较为专业化的问题,此处不再深入讨论。
知识图谱管理系统的选型。知识图谱本质上在表达关联,天然地可以用图加以建模,因而很多人想到用图数据库对领域知识图谱加以存储。图数据库的确是知识图谱存储选型的重要选择,但是不是唯一选择。传统关系数据库,近几年充分发展的其他类型的NoSQL数据库在很多场景下也是合理选择。那么数据库的选择考虑的要素是什么呢?有两类重要的选型要素:图谱的规模以及操作复杂度。
从图谱的规模角度来看,百万、千万的节点和关系规模(以及以下规模)的图谱对于图数据库的需求并不强烈,图数据库的必要性在中等或者小规模知识图谱上体现并不充分。但是如果图谱规模在数亿节点规模以上,图数据库就十分必要了。
从操作复杂性来看,图谱上的操作越是复杂,图数据库的必要性越是明显。图谱上的全局计算(比如平均最短路径的计算),图谱上的复杂遍历,图谱上的复杂子图查询等等都涉及图上的多步遍历。图上的多步遍历操作如果是在关系数据库上实现需要多个联结(Join)操作。多个联结操作的优化一直以来是关系数据库的难题。图数据库系统实现时针对多步遍历做了大量优化,能够实现高效图遍历操作。
除了上述因素之外,还应该充分考虑系统的易用性、普及性与成熟度。总体而言图数据库还是发展中的技术,对于复杂图数据管理系统的优化也是只有少部分专业人员才能从事的工作。在数据库选型时需要充分考虑这些因素。我们实验室在实现CN-DBpedia(2000万实体、2.2亿关系)在线服务系统时先后采用了RelationalDB、Graph DB、MongoDB,最后出于综合考虑选用的是MongoDB,已经稳定运行了三年,累计提供10亿多次API服务。
知识图谱查询语言。通常对于表达为RDF形式的知识图谱,可以使用SPARQL查询语言。SPARQL语言针对RDF数据定义了大量的算子,对于推理操作有着很好支撑,因而能够适应领域中的复杂查询与复杂推理。从应用角度来看,也可以将知识图谱仅仅表达为无类型的三元组。对于这种轻量级的表示,关系数据库与传统NoSQL数据库也是较好选择。那么此时,SQL语句就是比较好的选择。SQL十分成熟,语法简单,用户众多且有着几十年的成功应用基础。
很多领域图谱上的查询是相对简单的,以单步或者两到三步遍历居多。此时,SQL完全能够胜任。但是不排除有一些特定场景,特别是公共安全、风控管理等领域,通常需要进行复杂关联分析,需要较长路径的遍历,需要开展复杂子图挖掘,此时SQL的表达能力就显得相对较弱了。
四、知识图谱的发展现状及应用
▌4.1知识图谱的应用
知识图谱的应用场景非常广泛,除了通用应用外,在金融、政府、医疗等领域也有特殊的应用。
图4. 知识图谱的应用
通用领域的应用主要包括精准分析、智能搜索、智能问答、智能推荐等。在精准分析方面,当认识到王宝强和宝宝是指同一个人后,就可以合并“王宝强离婚”和“宝宝离婚”两个事件,得到一个统一的热点分析。
在智能搜索方面,通过知识图谱建立起实体及其之间的关系,可提高搜索引擎的理解能力。例如建立代码知识图谱,自动理解代码的上下文信息,如建立起“quicksort”和“快速排序”、“QS”等的等价关系,以及“quick sort”是一种排序算法的isA关系等。这样一来,当用户搜索“排序算法”时,能把代码中包含“quick sort”、“快速排序”的内容都搜索出来。实现代码的精准、高效搜索。
在智能问答方面,系统降低了人机交互的门槛,非常适合成为互联网的新入口。相较于传统的用户输入问题,搜索引擎返回网页的方式,智能问答系统可以直接通往答案。例如复旦大学知识工场实验室推出的“不倒翁问答”,是一个基于知识图谱和互联网内容作为答案来源的问答系统,能回答各类事实型问题。系统接收自然语言问句作为输入,通过深度学习的方法,从知识图谱和互联网中找到相应的答案进行解答。支持单知识问题、是否问题、比较问题、枚举问题、常识问题以及多知识问题等。
在智能推荐方面,可基于知识图谱构建场景,提供基于场景的推荐。例如在电商领域,通过用户已购产品推断其购物场景,并推荐其他相关场景产品成为一个热门需求。
金融领域的应用主要包括风险控制和智能投顾等。在风险控制方面,通过构建工商知识图谱,可以将人、公司的信息用可视化的方式清晰的展示出来。一来可以用于人的特征的不一致性检测;二来可以进行异常节点分析,如正常借贷人只用一个手机号在一个金融产品中进行借贷,而异常借贷人会使用多个手机号在多个不同的金融产品中进行借贷;三来很多欺诈团伙组织会通过一系列的复杂操作来持有公司,利用知识图谱的可视化可以发现其中的潜在风险。
在智能投顾方面,通过对金融数据进行结构化提取和智能化分析,根据客户自身的理财需求,实现自动理财顾问。
政府领域的应用主要包括数据治理、司法智能辅助审判和智能情报研判等。在数据治理方面,可将所有政务公开数据进行融合,构建政务知识图谱,为用户提供统一的政务数据访问服务。
在司法智能辅助审判方面,通过建立司法知识图谱,建立了一套智能判案辅助机器人系统。为当事人提供专业的案件咨询,案件风险评估,法院服务和法律援助等。提高简单案件的审判效率,减少宝贵的司法资源的浪费。
在智能情报研判方面,主要对公安情报数据进行智能整合,将真实世界的海量异构碎片化数据等价转换为一张唯一的关系大网,与真实世界的人事地物组织对象一一对应,类似于“公安大脑”。构建完成后,每个民警都可以借助这个“公安大脑”来进行情报分析,准确做出判断。
医疗领域的主要应用包括智能辅助问诊和导诊和医药研发等。在智能辅助问诊和导诊方面,通过构建医疗知识图谱及相应的虚拟助手,实现对患者进行自动问诊并生成规范、详细的门诊电子病历。同时,根据患者的病历,自动对其进行导诊。
在医药研发方面,传统药物研发需要经历靶点筛选、药物挖掘、临床试验、药物优化等阶段,耗时十分巨大。通过从海量医学文献、论文、专利、临床试验信息等非结构化数据中抽取出可用的信息,构建生物知识图谱,可加快医药的研发速度。
五、知识图谱面临的挑战
知识图谱技术的挑战主要表现在知识表示、知识获取和知识应用等三个方面。
在知识表示层面,越来越多的领域应用不仅仅需要关联事实这种简单知识表示,还要表达包括逻辑规则、决策过程在内的复杂知识;需要同时表达静态知识和动态知识。单单知识图谱已经不足以解决领域的很多实际问题。如何去增强知识图谱的语义表达能力,如何综合使用多种知识表示来解决实际应用中的复杂问题是非常重要的研究课题。
在知识获取方面,领域知识图谱一般样本很小,如果需要构建抽取模型,那就需要基于小样本构建有效的模型。目前基于小样本的机器学习仍然面临巨大挑战。解决这一问题的思路之一就是利用知识引导机器学习模型的学习过程。具体实现手段已经有不少团队在开展相关的探索工作,比如利用知识增强样本、利用知识构建目标函数的正则项以及利用知识构建优化目标的约束等等。总体而言,这仍然是个开放问题需要巨大的研究投入。
在知识的深度应用方面。如何将领域知识图谱有效应用于各类应用场景,特别是推荐、搜索、问答之外的应用,包括解释、推理、决策等方面的应用仍然面临巨大挑战,仍然存在很多开放性问题。
六、知识图谱未来的发展趋势
从2012年发展至今,知识图谱技术发生了一系列的变革。从两个方面来讲,一方面是应用场景,另一个方面就是技术生态。随着应用场景和技术生态的变化,整个知识图谱面临着全新的挑战,以前的技术手段在应对现在智能化大潮给我们提出的挑战的时候,已经有些力不从心,所以我们要研发一些新技术。
从应用的角度来讲,知识图谱的应用趋势越来越从通用领域走向行业领域,现在的局面是通用与行业应用百花齐放,各行各业都在讨论适合自己的知识图谱。
今天展示给大家的是我们自己实验室的知识图谱,在通用领域,我们实验室有CN-DBpedia,Probaseplus。CN-DBpedia是一种通用百科知识图谱。通用知识库在通用人工智能中扮演着重要的角色,是未来竞争的战略制高点,即掌握了通用人工智能技术,可以从一个战略制高点向下俯冲,这样收获领域知识图谱的成果是相对容易的。但是如果只具备领域人工智能的能力,未必可以掌握通用人工智能能力。
虽然领域/行业人工智能技术更容易落地,但是从战略层面上来讲,一定要对通用人工智能予以高度的关注。领域人工智能在很多领域已经落地开花,但领域图谱的应用也不是简单的事,还具有很多挑战性的研究问题,领域知识库构建的语料往往比较稀疏,比如在某个领域提到某个事实,某类关系的样本非常少,这个时候利用关系去构建有效的抽取模型就会变的十分困难,在样本稀疏的环境下去做领域知识图谱的自动化构建仍然是件非常困难的事情。
第二个应用场景发生变化是从搜索延伸至推荐、问答等复杂任务。举个例子,用知识图谱帮助搜索代码,如果能利用知识图谱理解搜索意图,并返回准确的代码,这样效率将大有提升。用户搜索输入关键字,机器给出答案,还可以为用户做智能推荐。将来更智能的形式就是直接问答,我们实验室研发的“小Cui问答”就是这样的问答系统。整个知识图谱将来会在越来越复杂和多元的场景下发挥重要的作用。
再进一步就是交互方式发生变化。以前的交互方式更多是基于关键字,现在越来越多的是自然语言的处理,对话式的处理,像GoogleNow,Apple Siri,Amazon Alexa等等,很多大公司都在研发自然语言交互的产品,这意味着自然语言交互成为未来人机交互的主流方式。对知识图谱提出的挑战就是,对自然语言的认知到了一个新的高度,需要能够利用知识图谱帮助平台和系统更好地理解问答,上下文对话等等。
进而就是从用户提的问题来看,呈现出从简单的陈述类问题到解释类问题的变化趋势。以前用户喜欢问“what”、“who”、“when”、“where”这样简单陈述性问题,现在越来越多的问“why”、“how”。用户对系统智能性的期望越来越高,很多用户在Google上问why类问题,但是很遗憾,Google还不能进行回答,只能回答陈述类问题。随着“why”、“how”问题越来越多,解释就变的很重要,可解释是未来人工智能发展的核心诉求之一,是人机互信的前提。
再进一步就是,以前在实体之间找到一些简单关系就行了,比如王宝强的老婆是马蓉,但现在不满足于简单关系的揭示,而是希望能够推理出一些深层关系,比如王宝强离婚案,为什么王宝强会请张起淮当律师?王宝强和冯小刚是好朋友,冯小刚有个御用演员叫徐静蕾,张起淮是徐静蕾的法律顾问,所以王宝强会请张起淮当律师,这个就是深层关系推理。隐式关系发现、深层关系推理将成为智能的主要体现之一。
再从技术生态的角度来看,人工智能也发生了很大的变化。从机器学习来看,虽然深度学习发展非常迅速,并且在样本数据丰富的场景下取得了很好的效果,但是机器学习仍然存在很多问题,小样本学习、无监督学习手段有限,现有模型难以有效利用大量先验知识。再从自然语言处理角度来看,虽然自然语言处理在深度学习的推动下取得了很大的进展,但是自然语言处理离实际应用需求还很远,还只是在处理阶段,远远谈不上理解。从知识库本身来看,英文图谱积累迅速,发展得相当成熟,并且在很多应用中发挥了巨大的作用,但是其他语种的知识图谱十分缺乏。
虽然现在知识图谱很多,但是大部分都侧重在简单事实,对于常识的覆盖仍然十分有限。很多知识图谱都是依赖手工构建的,如何从大规模数据里用数据挖掘的方法自动挖掘出知识图谱的手段仍然缺乏。
总体而言,知识图谱技术的落地应用前景是光明的,但是也需要充分意识到知识图谱落地的巨大挑战。
2018 AI开发者大会
AI技术年度盛会即将开启!11月8-9日,来自Google、Amazon、微软、Facebook、LinkedIn、阿里巴巴、百度、腾讯、美团、京东、小米、字节跳动、滴滴、商汤、旷视、思必驰、第四范式、云知声等企业的技术大咖将带来工业界AI应用的最新思维。
如果你是某个AI技术领域的专业人才,或想寻求将AI技术整合至传统企业业务当中,扫码填写大会注册信息表,我们将从中挑选出20名相关性最高的幸运读者,送出单场分论坛入场券。大会嘉宾阵容和议题,请查看文末海报。
此外,如果你想与所有参会大牛充分交流沟通,点击阅读原文购票,使用优惠码:AI2018-DBY 购买两日通票,立减999元;此外大会还推出了1024定制票,主会+分会自由组合,精彩随心。
点击「阅读原文」,查看大会更多详情。2018 AI开发者大会——摆脱焦虑,拥抱技术前沿。