肖仰华:知识图谱落地,不止于“实现”
作者 | Just
出品 | AI科技大本营(ID:rgznai100)
“知识将比数据更重要,得知识者得天下”,去年十月,在 CSDN 对肖仰华教授的一篇约稿里,他指出数据的真正价值蕴含于其深加工的知识中。
从 Google 于 2012 年提出知识图谱概念后,知识图谱技术与大数据和机器学习等技术相结合得到迅速。肖仰华教授认为,在更多实际场合下,知识图谱作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。
人工智能时代的到来,知识图谱也成为了实现机器认知智能的基础,将知识库中的知识与问题或者数据加以关联后的知识图谱,可以让机器像人脑那样进行理解与解释。
基于知识图谱技术的潜在能力,业界也加快了知识图谱的应用落地。从应用的角度来看,知识图谱的应用趋势越来越从通用领域走向行业领域。肖仰华教授认为,现在的局面是通用与行业应用百花齐放,各行各业都在讨论适合自己的知识图谱。
知识图谱如何落地业界都在不断进行摸索,在肖仰华教授看来,知识图谱的落地除实现之外,论证与设计、运营与反馈也是不可忽视的。知识图谱落地是个系统工程,不是单一模型能够解决的,系统架构、流程、策略都十分重要。
当然,知识图谱落地还需要探讨更为具体的问题。比如领域知识图谱构建时如何界定领域知识边界?一个合格的领域知识图谱有什么评价标准?从目前业界卖数据阶段到提取出出知识之间的鸿沟有多大?知识图谱产业有哪些已然明确的发展方向?知识图谱近年来从理论上是不是没有多大进步?
作为 5 月 25 日-5 月 27 日即将在杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)知识图谱论坛的演讲嘉宾,AI科技大本营对肖仰华教授进行了采访,对上述重要的指向性问题,他一一进行了详细解答。
(肖仰华,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。)
以下为采访内容实录:
AI科技大本营:现在所称的知识图谱实际上是一种大规模语义网络,这里强调的“大规模”怎么定义?是否有量化标准?
肖仰华:这里讲的“大规模”并不是从数量上来衡量的,不是说数据量大一点的就叫做知识图谱,数据量小一点的就叫做语义网络。
我们强调知识图谱是一种大规模语义网络,是为了让大家转变思维,意识到规模上的量变会带来了效用上的质变。同样是构建语义网络,知识图谱从知识获取到知识应用均与传统语义网络存在显著区别。这种区别体现在:(1)高质量模式缺失或被有意舍弃;(2)封闭世界假设不再成立;(3)大规模自动化知识获取成为前提。
AI科技大本营:关于知识图谱生命周期,您特意提到如何融合知识图谱与传统知识表示来更充分满足实际应用需求是值得研究的问题之一。反过来看,是否意味着目前还不存在新的比较靠谱的知识表示方法?
肖仰华:准确来说,目前并不存在大一统的一种知识表示方法,可以用来表示所有知识。所以我在之前提到的一个观点叫做“NoKG”,也就是 Not only KG。这里是借鉴“NoSQL”的说法。
知识图谱只是知识表示的一种,单单知识图谱不足以表达现实世界的丰富语义,不足以解决所有问题。比如很多领域有着丰富的 if-then 规则(比如故障维修、计算机系统配置),这些规则利用知识图谱表达就很牵强,特别是对于 if A and B then C 这样的规则。因此,鼓励知识表示方法“百家齐放”,什么场景下适合什么知识表示就用什么知识表示方法。
AI科技大本营:为了规避业界“为图谱而图谱”的现象,您认为知识图谱应用实践最重要的是明确要利用领域知识解决怎样的应用问题,然后根据应用反推知识表示。但知识是网状的,领域知识之间也存在勾连,那在做某一领域知识图谱时如何界定知识边界的范围?
肖仰华:界定实际应用的知识边界是非常困难的,这是一种定性判断,而非定量判断。我们可以从可行性的角度来进行界定,一般而言一个应用涉及的知识越简单、应用越简单就越可能实现。为了确定自己的应用是否符合知识简单、应用简单,可以通过以下三类问题来进行判断:
(1)应用复杂性
Q1:是否用到常识?Q2:是否用到元知识?Q3:是否单一问题模型即可建模(比如分类或者回归)?Q4:是否涉及长程推理?Q5:用到的知识类型是否多样?Q6:领域专家的学习周期是否很长?Q7:是否简单的岗位培训就能胜任应用需求?Q8:应用是否封闭?
(2)知识复杂度
Q1:知识是否容易发生变化?Q2:是否涉及复杂过程的描述?Q3:是否涉及分支繁复的推理决策?
(3)知识资源积累
Q1:是否存在领域本体?Q2:是否存在叙词表?Q3:是否存在领域词典?
AI科技大本营:领域知识图谱作为语义网络,目前还难以表达复杂因果关联与复杂决策过程,既然如此,业界现在做领域知识图谱的壁垒究竟有多高?体现在哪些方面?
肖仰华:壁垒可能包括数据和场景。领域数据是一个企业的护城河,没有大数据的企业根本玩不转;领域场景也不像通用场景那么简单,需要长期深耕用户,准确理解用户的痛点,才能更好的设计出适用于知识图谱的场景。同时,领域应用的样本稀疏、场景多样、知识表示复杂等对于业界的知识图谱技术均提出了巨大挑战。
AI科技大本营:一个合格的领域知识图谱有什么评价标准?
肖仰华:领域图谱的评价标准总体而言有三个方面的指标。
(1)规模。这只是个相对的概念,一个知识库到底需要多大的规模才能支撑实际应用,是没有绝对答案的。需要看实际应用的反馈,也就是知识图谱上线后的用户满意率。比如在利用知识图谱支撑语义搜索方面,多少查询能被准确理解,这个比率是个重要的指标。
(2)质量。包括以下几个维度。一是、准确率。比如是否存在错误事实,错误事实所占比例都是质量的直接反映。二是、知识的深度。比如很多知识库只涵盖人物这样的大类,无法细化到作家、音乐家、运动员这些细分类目(fine-grained concepts)。三是、知识的粒度。粒度越细应用越灵活,应用时精读越高。细化知识表示的粒度是领域知识图谱的构建过程中的重要任务之一。
(3)实时。绝对实时是不现实的,因而实时大都从知识的延时(latency)角度进行刻画。短延时显然是我们所期望的。
AI科技大本营:目前来看,知识图谱在业界的应用似乎更偏向于领域知识图谱( DKG),通用知识图谱(GKG)的发展处于何种阶段?业界公司做 GKG 是否必要?会不会做成像语音助手 Siri 那样的鸡肋应用?
肖仰华:目前通用知识图谱的发展已经趋近于成熟,主要以百科类网站作为数据源进行知识抽取构建而得,技术和应用都基本固定,想有所创新比较难。业界应该把更多的精力放在构建领域知识图谱上,领域应用的场景多样、知识的深度更深、粒度更细,更有可能做出不是鸡肋的应用。
AI科技大本营:您说“得知识者得天下”,但目前业界还处在卖数据盈利的阶段,从卖数据到提取出“精纯”的知识之间的鸿沟有多大?通往知识的“路径”中,哪些属于已经是非常明确的基础性方向,哪些还在探索当中?
肖仰华:知识图谱的产业形态分为三类典型形态:数据与服务、产品与系统、咨询与解决方案。
(1) 数据与服务。各行业均对知识图谱有着迫切需求,想建设通用或者领域知识图谱,并将知识图谱中的数据对外提供服务。直接的图谱数据服务能力有限,在一些深度服务需求比较多的场景,在知识图谱数据基础上进一步提供认知服务。
目前大平台类似 IBM Watson、微软认知服务、百度大脑平台都在尝试知识图谱数据与认知服务。除了通用知识图谱之外,特定领域或者行业的知识图谱也对数据与服务有着强烈需求。在图书情报、出版传媒、招聘就业、知识产权等相关领域,由于缺乏头部企业,这为第三方平台的存在提供了较大的发展空间,并且这些领域数据相对公开容易获取,使得构建独立的第三方服务平台成为可能。
(2) 产品与系统。知识图谱的大规模应用与产业化是需要个类成熟的产品与软件系统支撑的,比如很多行业图谱的建设均需要互联网数据源的补充,这就需要大规模的分布式爬虫系统。建好的大规模知识图谱通常需要图系统的管理,这就是图数据库系统,大量的企业或者团队在从事相关系统的研发。
目前涉及知识获取的产品与系统仍然有很大的发展空间。知识获取总体上仍处在发展中阶段,技术尚未定型,为其固化相应的产品形态具有一定的风险,需要予以充分考虑。
(3)咨询与解决方案。知识图谱知识工程是个典型的系统工程,很多时候与建筑工程十分相似,都需要论证、设计、实施、监理、验收等各个环节。
知识图谱落地过程中最为重要的环节不仅是实现,更需要论证与设计。因此也就给专注于知识图谱咨询和解决方案设计与实施的企业提供了丰富的机会。
AI科技大本营:Google 从 2012 年提出知识图谱后,有人认为其在理论上其实没有特别大的进步,更多是从实践中去发现吸纳了新的技术方法,您同意这种说法吗?
肖仰华:大数据时代的到来,催生了以知识图谱为代表的大规模知识表示,同时也为其发展奠定了必要的基础。今天这个时代谈知识工程跟 20 世纪谈专家系统有什么不同?最大的不同点是我们有前所未有的大数据、前所未有的机器学习能力以及前所未有的计算能力。这三个技术的合力作用使我们可以摆脱对专家的依赖,使实现大规模自动化知识获取成为可能,这也是大数据知识工程的根本。这一种知识获取,本质上可以称为自下而上的获取。
显然,这种数据驱动的知识获取方式与人工构建的知识获取方式完全不同。前者可以实现大规模自动化知识获取,无须高昂的人力成本。相对于人工构建的知识获取方式,数据驱动的知识获取方式是一种典型的自下而上的做法,是相对务实、实用的做法。大数据时代所发展出来的众包技术使得知识的规模化验证成为可能。知识获取的众多环节均可以受益于众包技术。比如,训练知识抽取模型时可以通过众包获取标注样本,从而构建有效的有监督抽取模型。
在知识图谱技术的引领下,各种各样的知识表示将在不损失质量的前提下逐步提升规模,从小规模的知识表示变成大规模的知识表示,最终应对大规模开放性给知识工程带来的巨大挑战。
AI科技大本营:谈谈您对知识图谱和图结构、深度学习结合的看法。
肖仰华:知识图谱本质上是一种语义网络,表达了各类实体、概念及其之间的语义关系。也就是说,它本身就具有图结构的性质。目前主要利用其图结构化的性质,用在知识图谱查询、存储等方面。
现阶段将深度学习技术应用于知识图谱的方法较为直接,大量的深度学习模型可以有效完成端到端的实体识别、关系抽取和关系补全等任务,进而可以用来构建或丰富知识图谱。
知识图谱在深度学习模型中的应用主要有两种方式。一是将知识图谱中的语义信息输入到深度学习模型中,将离散化知识图谱表达为连续化的向量,从而使得知识图谱的先验知识能够成为深度学习的输入;二是利用知识作为优化目标的约束,指导深度学习模型的学习;通常是将知识图谱中知识表达为优化目标的后验正则项。前者的研究工作已有不少文献,并成为当前研究热点,知识图谱向量表示作为重要的特征在问答以及推荐等实际任务中得到有效应用。后者的研究才刚刚起步。
但总体而言,当前的深度学习模型使用先验知识的手段仍然十分有限,学术界在这一方向的探索上仍然面临巨大的挑战。这些挑战主要体现在两个方面:(1)如何获取各类知识的高质量连续化表示;(2)如何在深度学习模型中融合常识知识。
相关链接:
《肖仰华谈知识图谱:知识将比数据更重要,得知识者得天下》
《肖仰华:领域知识图谱落地实践中的问题与对策》
(本文为 AI科技大本营原创文章,转载请联系 10972722531)
◆
CTA核心技术及应用峰会
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
更多重磅嘉宾请识别海报二维码查看,目前会议早鸟票发售中(原票价1099元),点击阅读原文即刻抢购。添加小助手微信15101014297,备注“CTA”,了解票务以及会务详情。
推荐阅读