查看原文
其他

从本体论到知识图谱, 著名学者Pascal Hitzler长文回顾语义网20年发展

Pascal Hitzler 数据实战派 2022-01-14

作者:Pascal Hitzler(堪萨斯州立大学计算机科学系教授,著名语义网技术专家)

:A Review of the Semantic Web Field,Communications of the ACM, February 2021, Vol. 64 No. 2, Pages 76-83

译者:lzm


在正式回顾语义网20年发展历程之前,我们首先需要明确一点,本文讨论的“语义网(Semantic Web)”指的是一个研究领域,而不是一个具体的人造实体或产品。这就好比人工智能是一个研究领域而非人造实体一样。


或许有一天“语义网”作为人造产品真的会出现,也有人认为我们已经建立了一部分“语义网”,但我们主要回顾的是以它为核心的研究领域。


我们的回顾是相当主观的,因为该领域存在各式各样的研究方法和应用目标,其中包括许多不同但相互联系的子社区(领域),每个子社区对该领域的最新状况可能有着非常不同的解读。


因此,我会在回顾中指出许多不同的视角和观点,而想要达成一个共识几乎是不可能的。


我们的回顾也是有选择性的,因为语义网是计算机科学与其他众多学科广泛交叉的研究和应用领域。仅仅一篇回顾不可能详尽无遗,也无法对所有重要的个人贡献给予应有的评价。


本文将从语义网的定义切入,列出该领域的发展时间表,随后主要围绕“本体论(Ontologies)”,“关联数据(Linked Data)”和“知识图谱(Knowledge Graphs)”三个阶段展开,重点介绍其中的重要概念、标准和突出成果。文章的最后我还将讨论一些具有代表性的应用领域,以及该领域未来的道路和挑战。



什么是语义网?


现在我们明确了“语义网”是一个研究领域,那它到底在研究什么?


回答也是很主观的,因为领域内尚未形成明确的共识。


一种观点认为,该领域的长期目标是创建一个“人造语义网”产品,以及一系列必须的工具和方法,对其进行维护和应用。


在这种论调中,语义网是互联网(万维网)的强化版本,充斥着机器也可以理解的信息——现有互联网大多只负责提供信息,人类要自行理解消化——以及基于这些信息的智能服务代理。


这种观点可以追溯到《科学美国人(Scientific American)》2001年刊发的一篇文章,有人认为这标志着语义网的诞生。


文章描述了通过表达性元数据(即描述数据的数据)提供机器可理解的信息。这些元数据通常采用本体形式,或者至少是有基于逻辑的语义的形式语言,允许对数据含义进行推理。


这种理解方式,再加上利用信息提供智能服务的代理,让语义网和人工智能两个领域出现了明显的重叠。实际上,在过去20年的大多数主要人工智能会议中,都有明确的语义网分支。


不过,关于语义网的理解还有另一种较为新鲜的观点:该领域开发的方法和工具,其用途与互联网无关,即使不用机器可理解的数据创建智能服务代理,也可以提供附加价值。


这样解读似乎也没有问题,毕竟“将语义网应用于信息集成和管理”是最早引发业界广泛兴趣的应用方向。因此,该领域与建立有效的、低成本的数据共享、发现、集成和重复利用的方法和工具密切相关,而互联网可能是、也可能不是其所需要的数据传输工具。


在这种视角下,该领域更接近数据库,或者是数据科学中的数据管理分支。


由此还能引出一种更严格的定义,即“语义网”是以资源描述框架(W3C标准RDF)、OWL和SPARQL为核心,研究知识本体、关联数据和知识图谱的基础和应用的领域。


三种观点各有千秋,而“语义网”或许是三者的融合:


1、该领域以知识本体、关联数据、知识图谱为核心概念,围绕RDF、OWL、SPARQL组成(数据)交换格式,在语法(一定程度上是语义)的层面形成统一;


2、该领域的应用目的是建立有效的数据共享、发现、集成和重用方法(无论是否用于互联网上);


3、该领域背后的长期驱动因素是,在未来某个时候,创造出一个具有智能服务代理的“人造语义网”。



(主观上的)时间表


“语义网”研究领域的诞生是存在争议的,但由Berners-Lee等人2001年在《科学美国人》上发表的文章是一个早期里程碑,让这个新生领域走进了我们的视野——在2000年左右,该领域的社区规模、学术生产力和行业兴趣都处于萌发阶段。


不过也存在更早的研究:让网络上的数据变成机器可以理解的数据,最早可以追溯到互联网诞生之初。


另一些努力包括美国DARPA的代理标记语言(DAML)项目,从2000年持续到2006年,专注于开发一种语义网语言和相应的工具。


欧盟也资助了类似项目On-To-Knowledge,从2000年持续到2002年,研究成果OIL语言后来与DAML合并,最终成为了W3C标准中的网络本体语言(OWL)。


我们主要关注这个领域从2000年开始的故事,可以概括为三个有所重合的阶段,每个阶段都由一个核心概念驱动。


这意味着“语义网”领域的关注重点至少变化了两次。第一阶段是由知识本体驱动的,它跨越了2000年代初到中期。第二阶段是由关联数据驱动的,一直持续到2010年代初。第三阶段由知识图谱驱动,持续至今。



(知识)本体论


在2000年代的大部分时间里,该领域的工作都以(知识)本体论为中心。当然,它的起始点要久远得多,一份来自1993年的资料被大量引用,其中对知识本体的定义是“对概念体系的明确规范”(注:原文写的是“知识本体是对概念体系的明确的、形式化的、可共享的规范”,但这句话实际上出自1998年的一篇论文)。


不过有人可能会争辩说,该定义过于宽泛,仍需进一步解释。在更精确的意义上,知识本体实际上是有关概念及其之间关系的知识库,用基于形式逻辑的知识表示语言表示的。


形象地说,如果我们有两个概念:“哺乳动物”和“胎生”,它们的关系就是“哺乳动物是胎生的”,所谓的“知识库”指的就是包含无数概念和概念关系的库。在语义网的大背景下,知识本体是数据集成、共享和发现的主要工具,知识本体本身也可以被重复利用。


2004年,网络本体语言(OWL)成为了W3C标准,后来在2012年修订为新版本OWL 2,为该领域提供了新的动力。


OWL的核心在于为网络文档和应用中固有的类以及其间的逻辑关系提供描述,仅使用一元和二元谓词,以及数量有限的量词,对语言的逻辑推理是可以判定的。在标准建立后,社区仍在讨论描述逻辑是否是最佳范例选择,基于规则的语言是其主要竞争者。讨论最终尘埃落定,但后来也被确立为W3C标准的规则交换格式(RIF)吸引力相对较小。


同样在2004年,资源描述框架(RDF)成为W3C标准,后来在2014年更新为1.1版本。本质上,RDF是用于表达标记化且类型化的有向图的语法,或多或少与OWL兼容。从这个角度来看,OWL知识本体可以用作RDF(类型)图的一种模式或类型逻辑(schema)。


随后是2008年,一种名为SPARQL的W3C标准诞生,这是一种RDF查询语言,后来在2013年进行了更新,与OWL更加兼容。一些与RDF,OWL和SPARQL相关的其他标准已经或者正在开发,其中一些获得了广泛关注,例如语义传感器网络本体(SSN),PROV本体或简单知识组织系统(SKOS)等。


所有这些关键标准是以W3C的名义开发的,因此它们与其他关键W3C标准保持了基本兼容性。例如XML可作为RDF和OWL的语法序列化和交换格式。所有W3C语义网标准还将IRI作为RDF图中标签的标识符、OWL类名、数据类型标识符等。


前文提到的美国DARPA执行的DAML语义网计划于2006年结束,随后美国几乎没有大型的语义网基础研究资助项目,结果就是大部分相应研究都转向了应用领域,例如医疗保健或国防领域的数据管理,或者并入相似领域。


与美国不同,欧盟的欧盟框架计划(European Union Framework Programmes),特别是FP 6(2002-2006)和FP 7(2007-2013),为基础和面向应用的语义网研究提供了大量资金。


此消彼长之下,目前语义网研究社区主要由欧洲人组成。社区的规模很难评估,但自2000年代中期以来,该领域的主要会议国际语义网会议(ISWC)平均每年吸引了600多名参与者。值得注意的是,许多语义网研究或应用成果都是在相似的研究或应用领域发布的。


从一开始,工业界的兴趣就很大,但是想要找到可靠的行业参与数据几乎不可能完成。从大学衍生出来的公司从一开始就能应用最先进的研究,博士毕业生——绝大多数来自欧洲——也能寻找到相应的行业工作。大、小公司都能参与到大型基础研究或应用研究项目中,尤其是在欧盟FP 6和7的助力之下。


行业的兴趣改变了研究界的关注重点,我们之后还会讨论到这一点。


在此期间,一些起源于语义网社区的大型知识本体已经成熟。例如,始于1998年的基因知识本体,现在已成为非常重要的资源。另一个例子是医学系统命名法——临床术语(SNOMED CT),可追溯到1960年代,但现在已成为OWL形式,广泛用于电子健康记录中。


正如计算机科学研究中经常出现的情况一样,在2005年左右,人们对短时间内取得大规模突破性结果的期望过高,随后开始以更冷静的角度看待这一领域。


在此期间,大多数知识本体被开发出来,但并未产生明显效果,变得难以维护和重用,加之开发好的本体需要相当大的前期成本,导致研究社区将注意力转向与之前似乎对立的方向。


关联数据


2006年,“关联数据”的概念诞生,很快成为了语义网研究和应用的主要驱动力。这股势头一直持续到2010年代初。


通常与关联数据相关的是一组(相当大的)RDF图,这些图中的IRI标识符也会在其他图中出现。从某种意义上说,所有这些关联的RDF图集合可以被理解为一个非常大的RDF图。


图 | Linked Open Data Cloud网站上RDF图的数量


如上图所示,可公开获得的关联RDF图的数量一直显著增长,尤其是在最初的十年中。这些数据来自Linked Open Data Cloud网站,并非所有RDF数据集都包括在内。


2015年的一篇论文显示,有超过370亿个三元组(triple)来自于超过65万份数据文档中——如此庞大的数据也只是网络中所有开放访问的RDF图三元组的一部分。

图 | 包含主语、谓语、宾语的三元组(来源:见水印)


大型数据提供者通常仅提供基于SPARQL的查询接口,或使用RDF进行内部数据组织,但只通过供人类阅读的网页形式将其提供给外部。Linked Open Data Cloud网站上的数据集涵盖了广泛的主题,包括地理、政府、生命科学、语言学、媒体、科学出版物和社交网络等等。


另一个最知名并广泛使用的关联数据集是DBpedia,上面的数据是从维基百科和Wikidata中提取的。在2016年4月公布的版本中,它囊括了约600万个实体和约95亿个RDF三元组。


由于其广泛的主题覆盖范围(基本上是维基百科上的所有内容),还是最早提供的关联数据集的组织之一,因此DBpedia在关联数据集的Linked Open Data Cloud网站上扮演着核心角色:许多其他数据集都会与它关联,使其成为关联数据的枢纽。


从一开始,业界就对关联数据产生了浓厚兴趣。比如BBC是Linked Data Cloud的首批重要行业贡献者之一,纽约时报公司和Facebook也是早期使用者。但行业的兴趣似乎主要在于利用关联数据技术进行数据集成和管理,而在开放的互联网上通常看不到。


在关联数据时代,知识本体的作用要小得多。它们经常被当作模式(schema)使用,描述RDF数据集的内部结构,但是,与知识本体时期的过度承诺和深入研究相比,Linked Open Data Cloud网站上的RDF图中的信息粗浅且简单。


在这段时间,有一种论调称知识本体是无法重用的,而主要基于RDF和数据集之间关联的方法要贴近实际的多,可用于在网络上和网络外进行数据集成、管理和应用。也正是在这段时间里,与知识本体无关的,基于RDF的数据组织词汇表被开发出来,比如SKOS。


2011年,schema.org出现了,最初由微软必应、谷歌和雅虎驱动,后来Yandex也加入其中。schema.org带来了一个相对简单的本体论体系,同时建议网站提供商使用它的词汇表在各自网站上注释实体,也就是在实体间建立关联。


作为回报,schema.org背后的搜索引擎提供商承诺,会使用注释作为元数据来改善搜索结果。2015年的一项研究显示,30%的网页上拥有schema.org注释。


2012年启动的另一项重要工作是Wikidata。它是德国维基媒体协会(Wikimedia Deutschland)发起的,最初由谷歌、Yandex和艾伦人工智能研究所资助。


Wikidata的核心思想与维基百科类似,即众包信息。但维基百科是向人类读者提供的百科全书式文本数据,Wikidata却是关于创建供程序或项目使用的结构化数据。包括维基百科在内的许多其他维基类媒体都使用Wikidata向人类读者提供信息。


截至本文撰稿时,Wikidata拥有超过6600万个数据项,自项目启动以来已经进行了超过10亿次编辑,活跃用户超过2万名,数据库下载支持RDF等多种W3C标准。


在2010年代初期,关联数据的热度有所下降,行业重新回归理性。尽管关联数据确有一显著用途和应用,但结果表明,集成和利用这项技术比最初预期花费的精力更多。


一种观点认为,经常用于关联数据的浅显的非表达模式似乎是可重用性的主要障碍。最初的期望是,数据集之间的相互联系会通过某种方式解决这一弱点,但似乎并没有实现。


这不代表对关联数据的贬低,它为语义网及其应用领域带来了重大进展:仅仅以某种结构化的格式提供数据并遵循一个突出的标准,就意味着可以使用现有工具访问、集成、管理和利用数据。这比通过语法和概念上更异构的形式提供数据容易得多。


但是,寻找更有效的数据共享、发现、集成和重用的方法还是一如既往的重要,而且正在开始。


知识图谱


2012年,当谷歌推出了“知识图谱”,一个新的术语出现了。


在谷歌搜索引擎上,可以通过搜索有名的实体来查看谷歌知识图谱的部分内容:就在网页搜索结果旁边,会链接并显示一个所谓的信息框,上面显示的就是谷歌知识图谱的信息。

图 | 在谷歌上搜索Kofi Annan后显示的知识图谱内容


上图展示了一个例子,用户可以通过一个节点(链接)导航到图谱中的其他节点,比如点击Kofi Annan的配偶名字,跳转到Nane Maria Annan的节点,新的搜索结果旁边会显示关于Nane Maria Annan的新信息框。


尽管谷歌没有提供知识图谱的下载服务,但它开放了使用标准schema.org类型且符合JSON-LD的API,供人们获取内容。


知识图谱技术在行业中占有重要地位,谷歌、微软、IBM、Facebook和eBay等公司均涉足其中。但是考虑到语义网技术的历史,尤其是前面讨论的关联数据和知识本体,似乎知识图谱是一种直接来自语义网领域的新构想,只是人们关注的重点发生了明显变化。


其中一个区别在于开放性:正如关联数据的定义所指,语义网社区对关联数据所做的努力大部分都以“开放数据共享以供重用”作为其目标。这意味着关联数据主要是开放的,可以免费下载或通过SPARQL端点下载,所使用的非限制性许可证在社区中也很重要。


比如Wikidata作为知识图谱是开放的,没有所有权的。相反,关于知识图谱的最新努力通常由行业主导,从这个意义上讲,主要的应用方式并非真正开放的。


另一个区别是集中控制与自下而上的社区贡献:从某种意义上,Linked Data Cloud是目前已知的最大的知识图谱,但它并不是一个简洁的实体,而是由松散互连的单个子图组成,每个子图都由它自己的结构、表示模式等控制。


相比之下,知识图谱通常被视为是内部一致、控制严格的人造产品(服务)。因此,那些与缺乏严格质量控制的外部图相连的链接受到了质疑,而内容和/或基础模式的质量成为了关注的焦点。


最大的不同可能是从学术研究(关联数据的主要推动力)到行业应用的转变。换句话说,近来围绕知识图谱的活动受到行业应用案例和它们(可能)带来的附加值所驱动。不过据我所知,还没有任何刊物正式评估了它们的优势。


知识图谱存在的许多挑战和问题仍与关联数据相同。例如,2019年的一项研究列出了当前存在的许多挑战,它们是语义网领域中早已存在的问题,已经进行了许多研究。


语义网与其他领域、学科的关系


前文提到,语义网领域并不是主要由该领域固有的某些方法来驱动的,这与机器学习等领域有所不同。实际上,它是由一个共同的愿景驱动的,因此它可以根据需要借鉴其他学科。


例如,语义网领域作为人工智能的一个子学科,与知识表示和推理密切相关。因为利用知识图谱和本体论来表示语言可以被理解,而且与知识表示的语言关系密切,其描述逻辑支撑着OWL,发挥着核心作用。语义网的应用需求也推动或启发了描述逻辑的研究,以及对不同知识表示方法(如规则和描述逻辑)之间关系的研究。


数据库也是一个紧密相关的领域,其中的(元)数据管理和图结构数据等构成基础,对于语义网领域也很重要。不过,语义网研究的重点主要放在异构源的概念集成上,例如如何克服组织数据的不同方式。在大数据术语中,语义网的重点主要放在数据的多样性方面。


自然语言处理作为一种应用工具,在知识图谱和本体集成、自然语言查询应答、自动文本知识图谱或本体构造等方面发挥着重要作用。


机器学习,尤其是深度学习,目前正用于完善语义网中困难任务的处理能力。例如补全缺失关系的知识图谱,处理嘈杂数据等等。与此同时,还有人在研究语义网技术推动AI可解释性的潜力。


在网络物理系统和物联网的某些方面也在探索语义网技术的应用,比如智能制造(工业4.0)、智能能源网和(智能)建筑管理等等。


生物医学领域是语义网概念的早期采用者,部分生命科学领域已经受益于语义网技术很长时间了,比如前文提到的 SNOMED CT 和基因本体论。


语义网技术的潜在应用领域可以是任何需要数据共享、发现、集成和重用的场景,比如地球科学和数字人文学。


未来之路


毫无疑问,无论是作为人造工件创建语义网,还是提供用于数据共享、发现、集成和重用的解决方案,语义网领域的宏伟目标都尚未实现。但正如有关知识图谱、schema.org和生命科学本体论的讨论所证明的那样,这并不意味着中间结果没有实际用途和价值。


然而,为了向更大的目标前进,几乎每个语义网子领域都需要进一步发展。对于其中的许多挑战,例如行业知识图谱、知识本体匹配、信息提取等等,已经有很多研究成果,与其重复这些,不如把重点放在一些当下面临的主要的短期障碍上。


在语义网及其应用社区中,有很多关于如何有效管理数据方面的问题,软硬知识都很丰富。但是,新入行者会听到、见到各种五花八门的方法,但关于这些方法的利弊介绍十分罕见。


另一方面,工具包的指导也很稀缺,无论是不适合实践的研究原型,还是针对特定问题的软件,都存在这个问题。用户不知道用哪种工具,哪些方法才能帮助其更好地实现特定目标。


因此,现阶段语义网领域最需要的是整合(consolidation)。作为一个由应用驱动的领域,这种整合将必须在语义网子领域中进行。这样一来,就能形成应用导向的流程,更好地记录其目标和利弊,并且伴随着易于使用和完善的工具来支持整个过程。还可以使用一些知名软件,比如Protégé本体编辑器,OWL API,Wikidata的引擎Wikibase,ELK推理机,都是功能强大且有帮助的。但在某些情况下,它们难以相互协作,即使它们都使用了RDF和OWL进行序列化。


谁可能是这种整合的驱动力?对于学者而言,开发和维护稳定易用软件的动力通常很有限,因为学术成绩(通常以出版物和获得的外部资助来衡量)往往不与此类活动挂钩。同样,复杂的流程本质上很难进行评估,这意味着此类成果在顶级刊物上的选择受限。


如果将编写高质量的入门教科书作为整合手段,则非常耗时且几乎没有学术回报。但是,通过开发在范式之间架起桥的解决方案,以及与应用领域合作开发和实现,学术界可以为整合提供基础。


在工业界,各式各样的整合正在出现,初创和跨国企业所采用语义网技术就是证明。但如同前文提到的那样,为了保护各自的竞争力,工业界的知识图谱、技术细节、内部软件通常是不共享的。如果事实如此,那么相应的软件解决方案被迫出现,让技术变得更广泛可用,可能只是时间问题。


总结


语义网领域存在的前20年,已经积累了有效的关于数据共享、发现、集成和重用的数据管理知识。该领域做出的贡献可以通过已有的应用得到证明,包括schema.org,行业知识图谱,Wikidata,本体建模应用等等。


但如果追问“是什么关键的基础科学发现为这些应用奠定了基础”,我们很难找到答案。


这篇文章读到最后,我希望你能了解,语义网领域的进步离不开许多计算机科学子领域的贡献,而其中一个主要任务就是寻找如何将贡献组合起来并完善,以提供合适的解决方案。从这个意义上讲,这些应用展示了整个领域的重大科学进步。


我们看到,语义网领域正迎来主流工业界的采用。但是,对更有效的数据管理解决方案的追求远未结束,这将继续成为该领域的驱动力。




往期推荐


吴恩达团队新研究:在ImageNet上优化的模型,真的能更好胜任医学影像任务吗?
华为AI水军被推特封禁的背后,谁应为AI应用的边界负责?
果蝇能学会Word Embedding吗?丨麻省理工联合团队ICLR 2021论文
发明现代概率的男人:他如何发现“不可能”对人类事务的影响?

关于数据实战派
数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存