行业规模的知识图谱——经验和挑战
【引子】
本文是石头兄弟推荐的一篇关于知识图谱综述性文章,老码对去年ACM上的这篇“Industry-Scale Knowledge Graphs: Lessons and Challenges”,Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43, 10.1145/3331166 进行了翻译整理。原文作者是Natasha Noy(Google), Yuqing Gao(MicroSoft), Anshu Jain(IBM), Anant Narayanan(Facebook), Alan Patterson(eBay)和Jamie Taylor(Google)。为了缓解阅读的枯燥,点缀了一些风景图片。
如今,知识图谱对许多企业来说至关重要——它们提供了结构化数据和事实知识,以这些数据和知识驱动了许多产品,使它们更加智能化甚至“神奇”。
一般来说,知识图谱描述了感兴趣的对象和它们之间的联系。例如,知识图谱中可能包含电影节点、电影中的演员、导演等等。每个节点可能具有诸如参与者的名称和年龄等属性,可能存在涉及特定演员的多部电影的节点。然后,用户可以遍历知识图表,收集演员出现的所有电影的信息,如果适用的话,也可以收集导演的信息。
许多知识图谱的实际实现方案通过定义模式或本体对图谱中的链接施加约束。例如,从电影到其导演的链接必须将 Movie 类型的对象连接到 Person 类型的对象。在某些情况下,链接本身可能具有自己的属性,例如连接演员和电影的链接可能具有演员所扮演的特定角色的名称。同样,将政治家与政府中的特定角色联系起来的链接可能包含政治家担任这一角色的时间期限。
本文考察了五个不同的科技公司的知识图谱,比较了他们各自建立图谱和使用经验的异同,并讨论了当今所有知识驱动型企业面临的挑战。这里讨论的知识图谱集合涵盖了从搜索、产品描述到社交网络的广泛应用:
微软的 Bing 知识图谱和 Google搜索引擎的知识图谱都支持搜索并回答搜索中以及谈话中的问题。从人、地点、事物和组织的描述和联系开始,这些图谱包括了关于世界的一般知识。
Facebook 拥有世界上最大的社交图谱,其中还包括音乐、电影、名人和 Facebook 用户所关心的信息。
eBay 目前正在开发的产品知识图谱,将对产品、实体以及它们与外部世界之间关系的语义知识进行编码。
IBM Watson Discovery 产品的知识图谱框架解决了两个需求: 一个侧重于发现不明显信息的用例,另一个侧重于提供“构建自己的知识图谱”框架。
这里的目标不是详尽地描述这些知识图谱,而是利用作者在当今一些大型科技公司中构建知识图谱的实践经验,作为任何企业级知识图谱所面临的挑战以及需要进行一些创新研究的支点。
什么是知识图谱? ——设计上的决策
让我们从描述五个知识图谱和每个设计中的决策开始,并确定每个图谱的范围。尽管许多挑战是所有企业共同面临的,但是,每个应用程序和产品目标的不同导致了不同的方法和系统架构,附表总结了这些知识图谱的性质。
Microsoft
多年以来,微软的工程师和科学家一直致力于大规模图谱的研究。这项工作包括根据基础研究来构建端到端系统,以及为数亿用户提供全球规模的服务。在整个公司,有几个主要的图谱系统,每一个都带来了围绕创建图谱和最新的具体挑战。许多不同的产品都可以使用知识图谱为消费者带来价值。以下是微软的一些图谱:
必应的知识图谱包含了世界的信息和必应上的问答功能。它包含人、地点、事物、组织、位置等实体,以及用户可能采取的操作(例如,播放视频或购买歌曲)。这是微软最大的知识图谱,因为它的目标是包含关于整个世界的一般知识。
学术图谱是人员、出版物、研究领域、会议和地点等实体的集合。它允许用户看到研究人员和研究方向之间的联系,否则可能很难确定。
LinkedIn的知识图谱包含人员、工作、技能、公司、地点等实体。LinkedIn 的经济图谱基于5.9亿会员和3千万家公司,用于寻找国家和地区的经济层面的洞察力。
当必应搜索引擎在必应知识图谱中有额外的有用信息时,显示一个知识面板。例如,搜索电影导演詹姆斯 · 卡梅隆可以找到他的出生日期、身高、他导演的电影和电视节目、他以前的恋人、他做过的 TED 演讲、 Reddit 上的“问我任何事”问题和答案等信息。搜索不同类型的实体会返回完全不同的信息,例如,搜索“ Woodblock 餐厅”会得到菜单摘要、专业评论和用户评论,以及预订表格选项。
所有这些图谱系统以及任何一个大型知识图谱系统,都可能会有关于质量和有用性的三个关键的决定因素:
完备性
图谱是否包含了所有需要的信息?实际上,答案总是否定的,因为开发人员总是在寻找新的方法来为用户提供价值和新的信息来源。
正确性
信息是否正确?如何知道两个信息来源实际上是否关于同一事实,如果它们发生冲突,该怎么办?回答这些问题本身就是一个巨大的研究和投资领域。
及时性
内容是最新的吗?它可能曾经是正确的,但实际上已经过时了。对于那些几乎不断变化的东西(股票价格) ,与那些变化很少的东西(一个国家的首都)相比,及时性会有所不同,其间夹杂着许多不同类型的信息。
为了生成关于世界的知识,数据有多个来源,这可能是非常嘈杂和矛盾的,必须整理成一个单一、一致且准确的图谱。用户看到的最后一个事实只是冰山的一角,下面隐藏着大量的工作和复杂性。例如,仅在维基百科上就有200个威尔 · 史密斯,演员威尔 · 史密斯的必应知识结果是由41个网站上的108,000个事实组成的。
知识图谱具备强大的高级人工智能,从搜索到对话,允许将单个查询变成一个持续的对话。具体来说,这允许用户与系统进行对话,并让系统在对话的每一轮中维护上下文。例如,在未来的一个场景中,用户可以对必应说,“给我看看世界上现在温度超过华氏70度的所有国家。”一旦系统返回答案,用户还可以说,“给我看看两个小时飞行之内的那些国家。”
我们可以将同样的想法进一步推广,从而获得完整的对话体验。例如,用户可以说,“我想在感恩节前两天到纽约市旅行,并在那里停留一周” ,系统会使用基础知识图谱来理解查询,然后请求那些缺失的信息片段。在这个例子中,系统需要知道“ NYC”可能意味着“ JFK 机场” ,而感恩节是11月22日。然后,它必须知道如何进行航班搜索,这需要一个起点和目的地位置。然后,系统必须知道对话的下一轮必须确定出发地点,所以它会说,“好的,预订11月20日至27日飞往肯尼迪机场的航班。你从哪里飞过来? ”
Google的知识图谱数据库有超过700亿的断言描述了10亿个实体,涵盖了广泛的主题,是十多年来不同个体数据活动贡献的结果,他们中的大多数都从未有过知识管理系统的经验。
或许,更重要的是,知识图谱作为一个长期稳定的类和实体标识的来源,许多Google的产品和功能在幕后使用它。外部用户和开发人员在使用 YouTube 和 Google Cloud api 等服务时可以观察到这些特性。这种对身份的关注使得Google的搜索结果转变为“事物而不是字符串”,知识图谱不是简单地返回传统的“10个蓝色链接” ,而是帮助谷歌产品将用户的请求解释为对用户世界中概念的引用,并作出适当的响应。
Google的知识图谱应用中可能最可见的是,当用户发出关于实体的查询时,搜索结果包括了知识图谱服务中的一系列事实实体。例如,对“ I.M.Pei”的查询会在搜索结果中产生一个小面板,其中有包含关于建筑师的教育、奖项和他设计的重要结构的信息。
知识图谱还认识到,某些类型的交互可以发生在不同的实体上。对“ The Russian Tea Room”的查询提供了一个按钮来预订,而对“ Rita Ora”的查询则提供了各种音乐服务的链接。
在 Google知识图谱的范围内,一个人无法记住整个图谱中使用的详细结构,更不用说管理了。为了确保系统随着时间的推移保持一致,Google根据一组基本的底层结构构建了自己的知识图谱。它在不同的抽象层次上复制了相似的结构和推理机制,从概念上引导了许多基本断言的结构。例如,为了检查特定的不变式结构,Google 利用了“类型本身就是类型的实例”这一思想来引入元类型的概念。然后,它可以推理元类型,以验证细粒度类型是否违反了它感兴趣的不变量。证明了独立于时间的恒等式不是结构的子类,而是依赖于时间的。因为这种可伸缩的抽象级别基于相同的低级附加,所以相对容易地以开箱即用的方式来添加。
这个元级别模式还允许大规模的验证数据。例如,可以确认画家在他们的艺术作品创作之前就已经存在,方法是将画家确定为他们绘画作品”产品”的”来源” ,并对这些元类之间的所有关系都可以进行一般性检查。
在稍高的概念层面上,知识图谱“理解”作者与他们的创造性作品是不同的,即使这些实体经常在口语表达中被混为一谈。同样,创造性作品可能有多种表达方式,而这些表达方式本身又是截然不同的。随着图谱的增长,这种本体论知识有助于维护实体的身份。
通过这些自描述层构建的知识图谱,不仅简化了机器的一致性检查,而且使内部用户更容易理解知识图谱。一旦新的开发人员接受了知识图谱组织的基础知识培训,他们就可以了解其结构清单的全部内容。类似地,通过将图谱结构与一些核心原则绑定在一起,并在模式中明确地揭示元关系,为内部开发人员简化了查找和理解新模式结构的过程。
Facebook 以拥有世界上最大的社交网络而闻名。在过去的十年中,Facebook 的工程师们已经开发出了能够实现人与人之间丰富联系的技术。现在,他们正在应用同样的技术,不仅对人们,而且对人们关心的事情建立了更深刻的理解。
通过以一种结构化的方式和规模来模拟世界,Facebook 的工程师们能够解开社交图谱本身无法满足的用例。即使是看起来很简单的事情,比如对音乐和歌词的结构性理解,再加上能够检测人们何时在软件中使用它们,能够让人们在个人之间产生有意外收获的时刻。今天,Facebook 产品中的许多经验,例如帮助人们在 Messenger 上规划电影放映,都是由知识图谱驱动的。
Facebook 知识图谱关注的是最具社会相关性的实体,比如那些最常被用户讨论的实体: 名人、地点、电影和音乐。随着 Facebook 知识图谱的不断增长,开发者们开始关注那些最有可能提供实用性和用户体验愉悦的领域。
覆盖范围、正确性、结构化和不断的变化都驱动着 Facebook 知识图谱的设计:
覆盖范围意味着在正在建模的领域中要面面俱到。默认的立场来自多个提供者,这意味着整个图谱生成系统是在假设数据来自多个来源的基础上构建的,所有这些来源都提供了关于重叠实体集的信息(有时是相互冲突的)。知识图谱以两种方式来处理这些相互冲突的信息: 如果信息被认为是足够低的可信度,可以放弃; 或者通过保留出处和推断出的关于断言的可信度,将相互冲突的观点合并到实体中。
正确性并不意味着知识图谱总是知道属性的“正确”值,而是它总是能够解释为什么做出某个断言。因此,它保存从数据采集到服务层流经系统的所有数据起源。
结构化意味着知识图谱必须是自描述的。如果一段数据不是强类型的,或者不符合描述实体的模式,那么图谱会尝试执行以下操作之一: 将数据转换为预期的类型(例如,执行简单的类型强制,处理格式不正确的日期) ; 在非结构化文本上提取与类型相匹配的结构化数据(例如,运行自然语言处理) ,例如将用户评论转换为类型的槽位; 或者将其完全删除。
最后,Facebook 的知识图谱是为不断变化而设计的。图谱不是数据库中的单个表示形式,而是在接收到新信息时进行更新。取而代之的是,每天都要从头开始构建图谱,从源代码开始,在最后由构建系统生成一个完整的知识图谱。
对Facebook 知识图谱而言,一个显而易见的起点是 Facebook 页面生态系统。企业和个人在 Facebook 上创建的页面代表了各种各样的想法和兴趣。此外,让实体的所有者对其进行断言是一个有价值的数据源。然而,与任何来源广泛的数据一样,这也不是没有挑战的。
Facebook 页面是非常公开的,每天都有数以百万计的人与之互动。因此,页面所有者的兴趣并不总是与知识图谱的需求保持一致。
最常见的是,页面和实体没有严格的1:1映射,因为页面可以表示实体的集合(例如,电影特许经营权)。数据也可能是不完整的或非结构化的(文本块) ,这使得它更难在知识图谱的上下文中使用。
Facebook 最大的挑战是利用其页面上的数据,并将其与其他更加结构化的数据源结合起来,以实现一个干净、结构化知识图谱的目标。对于 Facebook 来说,一个有用的工具就是把图谱看作一个模型,把 Facebook 页面看作是图谱中一个实体或一系列实体的视图投影。
eBay
eBay 正在构建自己的产品知识图谱,这个图谱将对产品、实体及其相互关系和外部世界的语义知识进行编码。这些知识对于理解卖家提供的产品和买家寻找的产品以及明智地将两者联系起来是非常关键的,而这正是 eBay 营销技术的关键部分。
例如,eBay 的知识图谱可以将产品与现实世界中的实体联系起来,定义产品的身份以及为什么它对买家可能有价值。一件芝加哥公牛队的篮球运动衫是一个产品,但如果它是由迈克尔乔丹签过名,它就是一个非常不同的产品。1940年巴黎的明信片可能只是一张明信片; 但如果知道巴黎在法国,而1940年是二战期间,就完全改变了产品性质。
知识图谱中的实体也可以将产品相互关联。如果用户搜索梅西的纪念品,图谱会显示梅西效力于巴塞罗那足球俱乐部,那么,也许,该俱乐部的商品也很有意思。也许其他著名的巴塞罗那球员的纪念品会引起这位购物者的兴趣。相关商品应该包括以足球为基础的产品,如有签名的衬衫、条带、靴子和足球。这种思想可以从体育延伸到音乐、电影、文学、历史事件等等。
与实体关系同样重要的是了解产品本身及其关系。知道一个产品是 iPhone,另一个是 iPhone 的外壳显然是很重要的。但是,这种情况下可能适合一些手机,而不是其他品类,所以eBay需要产品型号的零件和配件尺寸。了解产品的许多变体和关系也很重要: 哪些产品是一种产品的制造商变体?它们有不同的大小、容量或颜色吗?哪些是相同的意思?是他们有相同的规格,但可能不同的品牌或颜色?该系统还需要了解那些组合在一起的产品,比如捆绑包、工具包,甚至是时装。
与其他知识图表一样,eBay 必须处理规模性问题。在任何时候都可能有超过10亿的活跃产品分布在成千上万个类别中。这些列表可能包括数亿个产品和为这些产品指定的数百亿个属性。
eBay 知识图谱有几个不同的用户,这些用户有非常不同的服务级别需求。当搜索服务需要理解用户的查询时,知识图谱必须支持需要毫秒级的答案。而在规模化的另一端,大型图谱的查询可能需要数小时才能运行完。
为了应对这些挑战,eBay 的工程师设计了一个架构,提供灵活性的同时确保数据的一致性。知识图谱使用一个复制的日志对图谱进行所有的写入和编辑。日志提供了数据的一致有序视图。此方法支持满足不同用例的多个后端数据存储。具体来说,有一个用于提供低延迟搜索查询的扁平文档存储和一个用于进行长时间运行图谱分析的图存储。这些存储中的每一个都只是将其操作附加到写日志中,并以保证的顺序将添加和编辑添加到图谱中。因此,每个商店将是一致的。
IBM
IBM 开发了知识图谱框架,Watson Discovery Services 使用该框架并提供相关服务,这些服务已经部署在 IBM 以外的许多行业配置中。IBM Watson 以两种不同的方式使用知识图谱框架: 第一,该框架直接支持 Watson Discovery,它关注于使用结构化和非结构化的知识来发现新的、不明显的信息,以及发现之上的相关垂直产品; 第二,该框架允许其他人以预先构建的知识图谱为核心构建自己的知识图谱。
Discovery 用例创建了领域文档或数据源中不直接显示的新知识。这种新知识可能是令人惊讶和反常的。虽然搜索和检测工具可以获取系统现有资源中已有的知识,但这些工具对于Discovery来说是必要的,但还不够。不明显的发现包括实体之间的新联系(例如,药物的新副作用、作为收购目标的新兴公司或销售线索)、领域中潜在新的重要实体(例如,显示技术的新材料、特定投资领域的新投资者) ,或改变现有实体的重要性(投资者在一个组织中持有越来越多的股份,或在情报收集场景中增加利益相关者与某些犯罪分子之间的互动)。
考虑到 IBM 在各个领域应用认知技术中广泛的企业客户基础,IBM 专注于为客户和客户团队创建一个框架,以构建他们自己的知识图谱。IBM 的行业团队利用这个框架来构建特定领域的实例。客户涉及多个领域,从以消费者为导向的银行和金融、保险、 IT 服务、媒体和娱乐、零售和客户服务,到几乎完全专注于深度发现特别是科学领域的行业,如生命科学、石油和天然气、化学品和石油、国防和太空探索。这种广度要求框架具有客户自己构建和管理知识图所需的所有机制。框架中构建的一些关键技术包括文档转换、文档提取、通道存储和实体规范化。
以下是 IBM 工程师从为 Watson Discovery 构建知识图谱和在其他行业系统部署中学到的一些重要见解和经验教训。
IBM Watson 知识图谱使用多态存储,支持多个索引、数据库结构、内存和图存储。这种体系结构将实际数据(通常是冗余的)分割为一个或多个存储,允许每个存储解决特定的需求和工作负载。IBM 的工程师和研究人员解决了一些挑战,如保持这些多个商店同步,允许商店之间通过微服务通信,允许摄取新知识或重新处理原始数据的方式,而不需要重新加载或重建整个图谱。
证据对系统来说必须是原始的。现实世界(开发人员经常尝试对其建模)和保存所提取知识的数据结构之间的主要联系是知识的“证据”。这种证据通常是原始文档、数据库、字典或图像、文本和视频文件,从中获取知识。在发现过程中进行有针对性的、有用的上下文查询时,元数据和其他相关信息往往在知识推理中起着重要作用。因此,关键是不要丢失存储在图谱中的关系和这些关系的来源之间的联系。
通过上下文将实体解析推送到运行时。解决对部分名称、表面形式或具有相同名称的多个实体所引用的实体不明确引用是自然语言理解中的一个典型问题。然而,在知识发现领域,开发人员经常寻找一些不明显的模式,其中一个实体的行为不是以其熟悉的形式或出现在一个新的上下文中。因此,在知识图谱创建过程中过早地消除实体的歧义与发现的目标相冲突。最好是让多个实体来解析这些话术或消除它们的歧义,然后在运行时使用查询的上下文来解析实体名称。
未来的挑战
这里所讨论的知识图谱在需求、覆盖范围和体系结构上有很大的不同,但是大多数实现中的许多挑战都是一致的。这些挑战包括规模化、歧义消除、从异构和非结构化来源提取知识以及管理知识进化。多年来,这些挑战一直处于研究的前沿,然而它们仍然困扰着行业的从业人员。其中一些挑战存在于一些系统中,但在其他环境中可能不那么重要。
实体消歧和管理身份
虽然实体消歧和解析是语义网中一个活跃的研究领域,已经在知识图谱中存在了好几年,但几乎令人惊讶的是,它仍然几乎是整个行业的最大挑战之一。最简单形式的挑战是给一个话语或一个提及的实体指定一个唯一的标准化身份和类型。许多自动提取的实体具有非常相似的表面形式,比如具有相同或相似名称的人,或者具有相同或相似标题的电影、歌曲和书籍。名称相似的两个产品可能指的是不同的列表。如果没有正确的链接和歧义消除,实体将与错误的事实相关联,并导致不正确的推理。
虽然这些问题在较小的系统中可能看起来很明显,但当身份管理必须在异构贡献者基础和规模上完成时,问题就变得更具挑战性了。如何用不同团队能够达成一致并且知道其他团队正在描述的方式来描述身份?开发者如何确保有足够的人类可读信息来裁决冲突?
类型成员和解析
多数现有的知识图谱系统允许每个实体具有多种类型,特定的类型在不同的情况下可能很重要。例如,巴拉克 · 奥巴马是一个人,但也是一个政治家和演员,一个受欢迎得多的政治家,而不是一个非常知名的演员。古巴可以是一个国家,也可以是一个政府。在某些情况下,知识图系统将类型分配转移到运行时: 每个实体描述其属性,应用程序根据用户任务来使用特定的类型和属性集合。
虽然类成员关系的标准在早期可能很简单,但随着实例范围的增长,在保持语义稳定性的同时强制执行这些标准变得具有挑战性。例如,当谷歌在其知识图谱中定义“体育”的类别时,电子竞技并不存在。那么,谷歌如何在保持体育类别身份的同时还包括电子竞技呢?
管理不断变化的知识
有效的实体链接系统还需要根据其不断变化的输入数据有机地发展。例如,公司可能会合并或分拆,新的科学发现可能会将一个现有的实体分裂成多个实体。当一家公司收购另一家公司时,收购公司是否改变了身份?如果一个部门被分拆出去呢?身份是否伴随着名称变更而获得呢?
虽然大多数知识图谱框架在存储知识图谱的时间点版本,管理知识图谱的瞬时变化,不断演化图谱正变得越来越有效,但在能够管理图谱中高度动态的知识方面还存在差距。此外,通过多个存储(例如,IBM 的多态存储)管理更新的能力是必要的。
关于更新过程的完整性、最终一致性、冲突的更新以及流畅的运行时性能,有很多需要考虑的因素。可能有机会考虑现有分布式数据存储的不同变体,这些存储设计用于处理增量的级联更新。管理不断变化的模式和类型系统,而不与系统中已有的知识产生不一致,也是至关重要的。例如,Google 通过将元模型层概念化成多个层来解决这个问题。较低的基本层保持相当稳定,较高的层次是通过元类型(实际上是类型的实例)的概念构建的,它可以用来类型丰富系统。
从多个结构化和非结构化数据源中抽取知识
尽管在自然语言理解方面取得了最新进展,结构化知识(包括实体、它们的类型、属性和关系)的提取仍然是一个全面的挑战。图谱的大规模生长不仅需要人工方法,还需要在开放域中实现无监督和半监督的非结构化数据知识提取。
例如,在 eBay 的产品知识图谱中,许多图谱关系是从列表和卖家目录中的非结构化文本中提取出来的; IBM 的Discovery知识图谱依赖于文档作为图中表示的事实证据。传统的有监督机器学习框架需要劳动密集型的人工注释来训练知识提取系统。采用完全无监督的方法(矢量表示的聚类)或半监督的方法(利用已有知识进行远程监督、多实例学习、主动学习等)可以减少或消除这种高成本。实体识别、分类、文本和实体嵌入都被证明是有用的工具,可以将非结构化文本链接到我们所知道图谱中的实体。
规模化管理
这里所描述的所有知识图谱系统都面临着大规模管理的挑战,这可能并不令人惊讶。这个维度经常使得在行业设置中以多种形式已经被学术和研究团体所解决的问题(如消除歧义和非结构化数据提取)呈现出了新的挑战。规模化管理是直接影响与性能和工作量相关的若干业务的根本挑战。它还会间接地影响到其他业务,如管理大规模知识图谱的快速增量更新(如 IBM) ,或管理不断演变的大规模知识图谱的一致性(如 Google)。
其他的关键挑战
除了这些普遍存在的挑战之外,对于本文中描述的工作,以下挑战也是至关重要的。这些都是研究和学术团体感兴趣且有趣的课题。
知识图谱的语义嵌入
利用大规模的知识图谱,开发人员可以构建实体和关系的高维表示。由此产生的嵌入将大大有益于许多机器学习、 NLP 和 AI 任务,因为它们是特性和约束的来源,并且可以为更复杂的推理和管理训练数据的方法奠定基础。深度学习技术可以应用于实体重复数据删除和属性推理的问题。
知识推理与验证
在构建知识图谱时,确保事实正确是一项核心任务,而且在规模庞大的情况下,手动验证所有事实是根本不可能的。这就需要一种自动化的方法: 可以用先进的知识表示、概率图模型和自然语言推断来构建一个自动或半自动的系统,用于一致性检查和事实验证。
全球、特定领域和特定客户知识的联合
在类似于 IBM 客户构建定制知识图谱的情况下,客户不需要告诉图谱关于基本知识的信息。例如,一个癌症研究人员不会提供给我们这样的一个知识图谱,即皮肤是一种组织形式。这就是所谓的“常识” ,在常识图谱中捕获。
下一个层次的信息是领域内任何人都知道的知识,例如,癌症是一种病症,或者 NHL 更经常代表非霍奇金氏淋巴瘤,而不是国家冰球联盟。客户应该只需要输入私人和机密的知识或系统尚不知道的任何知识。基本层和领域层的隔离、联合和在线更新是由于这个需求而出现的一些主要问题。
个性化设备上知识图谱的安全性和隐私性
按照定义,知识图谱是巨大的,因为它们渴望为世界上的每个名词创建一个实体,因此只能合理地运行在云服务中。然而,实际上,大多数人并不关心世界上存在的所有实体,而是关心与他们个人相关的一小部分或子集。在为个人用户个性化知识图谱的方向有很多前景,甚至可以缩小到一个足够小的尺寸,可以交付到移动设备上。这将允许开发人员通过在本地的小型知识图谱实例上进行更多的设备学习和计算,以尊重隐私的方式继续为用户提供价值。
多语种知识系统
一个全面的知识图谱必须涵盖多种语言表达的事实,并将这些语言表达的概念合并为一个内聚的集合。除了从多语言资源中提取知识的挑战之外,不同的文化可能以不同的微妙方式将世界概念化,这也对本体的设计提出了挑战。
结论
我们在本文中讨论的问题是,不同的知识图谱是否有朝一日可以共享某些核心元素,如人、地点和类似实体的描述。分享这些描述的途径之一是将它们作为一个共同的、多语言的核心贡献给 Wikidata。
知识表示是一项在工作中很难学会的技能。发展的速度和知识表示的选择对用户和数据产生影响的程度,并不能促进理解和探索其原则和替代办法的环境。知识表示在不同的行业环境中的重要性,正如本文的讨论所证明的,应该强化这样一种观点,即知识表示应该是计算机科学课程的基本组成部分,就像数据结构和算法一样基础。
最后,人工智能系统将为组织在如何与客户互动方面开启新的机遇,在他们的领域提供独特的价值,并改变他们的运作和劳动力。为了实现这个承诺,这些组织必须找出如何建立新的系统来解锁知识,使他们成为真正的智能组织。
参考资料
Höffner, K., Walter, S., Marx, E., Usbeck, R., Lehmann, J. and Ngonga Ngomo, A.C. Survey on challenges of question answering in the semantic Web. Semantic Web 8, 6 (2017), 895920.
Lin, Y., Liu, Z., Sun, M., Liu, Y. and Zhu, X. Learning entity and relation embeddings for knowledge graph completion. In Proceedings of the Assoc. Advancement of Artificial Intelligence 15, (2015), 21812187.
Nickel, M., Murphy, K., Tresp, V. and Gabrilovich, E. 2016. A review of relational machine learning for knowledge graphs. In Proceedings of the IEEE 104, 1 (2016), 1133.
Paulheim, H., Knowledge graph refinement: a survey of approaches and evaluation methods. Semantic Web 8, 3 (2017), 489508.
【关联阅读】