查看原文
其他

当期荐读 2020年第5期 | 人文社科专题数据库深度语义化研究

蒋婷 孙建军 信息资源管理学报 2022-04-24

图源:Medium


蒋婷1  孙建军2

(1.南京财经大学信息工程学院,南京,210046;

 2.南京大学信息管理学院,南京,210093)

摘要

人文社科专题数据库中的资源具有较高的科学研究和社会经济价值,然而现有专题数据库无法实现自动提取语义信息和灵活的语义检索。本文对人文社科专题数据库的语义化架构及其关键技术如实体识别、分类、等级关系及非等级关系的抽取等进行深入研究,利用文物保护专题数据库作为案例,先确定元数据并提取相关实体及关系,再采用图数据库Neo4j进行了数据的存储、查询和推理。结果表明,本研究提出的架构及关键技术对人文社科专题数据库的语义化处理具有较好的效果。

关键词

本体,图数据库,关系抽取,实体识别,语义检索


1

引 言

人文社科专题数据库构建通常需要经过资源采集、加工整合及检索利用等多个阶段。目前较多的研究集中在资源收集、录入及数字化阶段[1],而较少关注后两个阶段。在大数据时代,专题数据库涉及的资源体量巨大,无论是资源的加工整合还是检索利用,均需要开发更智能的方案。有关专题数据库的资源加工整合技术,主要可以分为两类:一是采用元数据集来规范;二是采用本体和关联数据(Linked Data)技术。第一类技术一般采用DC(Dublin Core)作为核心元数据集[2],按资源的类型(如图片、文本等)进行分类,再提取相应的元数据描述,这一类研究目前存在的问题是元数据不完备,获取相应元数据项效率低;第二类技术是本体和关联数据技术,例如,“民国文学专题数据库”构建了民国文学本体模型,上海图书馆的“家谱知识服务平台”以及“中文百科概念术语服务平台SinoPedia”[3]采用了关联数据技术,这些研究均侧重于资源如何表示,而对于大体量资源的深入加工方案并未过多涉及。为此,如何实现大规模资源的自动语义化表示,减少人力依赖,这是本文需要解决的第一个问题。有关专题数据库资源的检索利用技术,主要包括关键词检索技术、分类目录等,对于一些非结构类型的资源很难有效地进行处理。纵观此类检索方式,目前存在以下缺陷:一是检索结果显示不直观,需要用户阅读和分析资源内容才能得出是否为相关资源的结论;二是不能产生智能应用,例如传统检索很难通过知识间的关联来了解资源相关的更多知识。因此,如何改进专题数据库的检索利用方式,是本文需要解决的第二个问题。


针对第一个问题,本文提出了专题数据库的语义化架构,并针对其中的关键技术进行了深入的阐述。以往的研究主要采用元数据项对资源进行描述,对于资源内容没有进一步加工。本文提出了资源语义数据的自动提取方案,深入资源主体内容部分,涉及的关键技术包括实体识别、关系抽取等。这种自动方案能够减少人工依赖,获取更丰富的语义数据。针对第二个问题,本文提出了语义检索方案,采用文物保护专题数据库作为案例,构建知识图谱并进行语义检索应用,验证了本文提出的深度语义化方案。本文对专题数据库的核心架构采用本体语言定义,数据架构提供了概念受控词表,每个概念都包括一个明确定义的机器可理解的语义,对事物的概念及概念关联进行描述,这样的结构能够让计算机进行推理应用。在这个基础之上,采用概念实例来表示人文社科专题数据库资源,实现概念间或知识点间的相互链接,借助这样的语义架构,用户可以快速获取所需要的资源,以辅助用户进行资源的有效利用。


2

相关研究

本文梳理了元数据、本体、关联数据及知识图谱等技术在专题数据库应用的相关研究。都柏林核心(DC)元数据是最早被用于规范专题数据库体系结构的方案,它提供了核心元数据词表,适用于描述和管理数字资源及馆藏资源,为多个国家通用,能够较好地实现交流与共享,因而,DC元数据在专题数据库中有广泛的应用[4-5]。虽然元数据能为资源提供描述标准,但机器还是难以阅读和理解资源对应的条目,对后期的语义应用支持并非很好。本体由于其形式化和规范化的特征被引入专题数据库的建设中,资源采用本体进行定义后,借助本体语言严谨的定义和复杂的表达,可以支持上层的语义推理和检索,实现机器理解资源内容的目的。沈立力等[6]针对民国文学专题数据库构建了相关本体,然而该本体模型尚处于实验阶段,如何支持专题数据库后期的应用还未明确。关联数据侧重于采用可链接的URI来发布、分享、连接资源。除了上文提及的“家谱知识服务平台”以及“中文百科概念术语服务平台”采用了关联数据技术外,人物专题数据库[7]、人文社科专题数据库[8]也采用了关联数据模型,相关研究主要集中在关联数据发布的规范[9-10]、数据的RDF结构化[11]、RDF数据发布[12]以及关联数据的应用[13-15]等研究上,对于如何实现数据的语义化并没有进一步深入。本体元素遵循着严格的定义,因而推理得出的知识更为严格和精确。知识图谱实际上是语义网的一种实现形式,主要是将事物表示为图中的结点,将事物的关联表示为图中的连线。


基于知识图谱的数据库的构建及检索应用主要涉及知识图谱表示学习、实体识别、关系抽取、事实抽取、知识推理等技术。知识图谱的表示学习研究代表方法有基于翻译的表示模型[12]、基于网络的表示模型[16]以及基于神经网络的模型[17]等。实体识别开展时间较早,目前研究较为成熟,抽取效率较高的技术以基于神经网络的模型[18]为主。关系抽取研究主要有基于核的方法[19]、远监督[20]和基于神经网络的方法[21]。知识推理的研究主要有基于FPNs的推理[22-23]、基于Deeppath的增强学习的方法[24]等。这些研究提出了一些知识图谱构建及应用的模型和方法,对人文社科专题数据库语义化建设有一定的借鉴意义。


因此,面向人文社科专题数据库语义化范畴,确定数据库建设的语义化架构,探索语义化各阶段应采用的关键技术,是本研究的目标。


3

人文社科专题数据库数据语义化架构

人文社科专题数据库的语义化框架自下而上分为三层,分别为数据来源层、数据处理层以及语义应用层,见图1。


图1  人文社科专题数据库数据语义化架构


3.1

数据获取层

语义化架构的底层是数据获取层。数据获取的来源包括专题数据库自有数据(本地库),以及可获取的外部知识库数据(外部库)。本地库的数据是自组织的数据,可分为:①结构化数据,指专题数据库中高度组织的数据,包括关系数据库、表格等;②非结构化数据,即专题数据库中未格式化的数据,如网页、文档、图像、音频及视频数据等。外部库的数据是外部机构组织的数据,也是在专题数据库的深度语义化过程中需要使用的数据,主要包括关联数据以及知识库两类,其中关联数据是一些机构、组织或个人发布的语义数据,每个资源均有一个URI来标识,通过相关的配置可以将资源接入项目来使用;知识库是项目在数据处理过程中使用的数据,包括Wikipedia等文本库,WordNet、HowNet等词典,以及领域叙词表等。按照数据所属实体类型又可分为文本(文献、图书、网页、词表等)、图片、视频、音频。根据实体类型的不同所采用的元数据描述方式也不同。


3.2

数据处理层

中间层即数据处理层,对底层的数据进行深度语义化。人文社科专题数据库原始数据不具备语义性,无法支持顶层的语义服务,需要进行语义处理。这一层包括预处理、实体识别、实体分类、关系抽取、知识存储、知识融合及知识推理过程。


(1)预处理:原始数据的质量会直接影响到最终数据语义化的结果,因而需要针对底层数据进行预处理,以便后续工作的进行,一般包括数据清洗、转换、描述、特征选择等步骤。


(2)实体识别:知识图谱是由实体头尾相连构成,因此,数据深度语义化的一个重要的步骤是从文本中获取命名实体。


(3)实体分类:获取的实体有时候包含多种含义,因此实体消歧即确定词汇指向的真实世界上的实体。


(4)关系抽取:这一步抽取的是实体之间存在的关系,这种关系是有向的。


(5)知识存储:将实体以及实体间的关系识别出来后,可形成三元组形式的知识,采用图数据库将这些知识进行存储。


(6)知识融合:不同的数据源对知识描述的方式不同,会生成不同的知识图谱元素(实体、关系/属性),例如,来源不同的知识描述在表示“等价关系”时,会采用“sameAs”或“EquivilentClass”等,而描述不一致带来的问题是存在数据冗余,且在检索或者推理应用时会导致效率降低。合并多个不同来源的知识图谱/本体时,需要将等价的实体、关系/属性等知识元素进行合并,而如何将这些知识元素进行统一则是知识融合需要解决的问题。


(7)知识推理:知识推理用于对知识库进行语义扩展、一致性检验以及实现语义理解等功能。语义扩展是指采用本体中的公理、约束或规则等扩展知识库,例如,“等价关系”是对称的,因而“A-等价于-B”可以推理得知“B-等价于-A”。经过语义扩展后可以得出更多的知识,也可能会产生与知识库中原有的知识相矛盾的情况,一致性检验就是利用推理来检验知识库中的知识是否存在冲突。


3.3

语义应用层

经过深度语义化的数据可以支持上层的语义应用,如语义检索、数据分类与聚类以及个性化推荐等。人文社科专题数据库中知识推理主要完成以下两个任务:一是实现知识库补足;二是实现知识库的查询应用。知识库补足是根据知识库中已有的知识推断出新的知识,知识扩展可以建立更完备的知识库。知识库的查询应用是指利用推理实现上层应用(例如基于知识库问答、基于知识库推荐等)对知识库的知识调用,其主要过程是对输入的自然语言进行解析,再到知识库中查找答案。


4

人文社科专题数据库数据语义化关键技术

4.1

实体识别

人文社科专题数据库中实体识别任务是从资源相关文本中提取实体。专题数据库中涉及的专有名词识别不具备大量的标注语料,识别的效果也比较有限。而这项工作有助于资源分类、资源扩展检索等,因此,专有名词的识别具有较高的研究价值。


专有名词识别即识别资源所在文本中的领域相关的名词术语,例如文物保护专题数据库中,“元代墓葬”“雕刻”等即为该领域的专有名词。本文提出了结合语言学、统计学以及监督学习的方法来识别人文社科专题数据库中的专有名词。首先采用语言学模板来匹配文本中的名词短语,该方法会提取出大量的无意义词汇,因此需要配合后续的统计学方法来处理;然后采用统计学方法(C-value算法[25])对候选专有名词进行排序。由于统计学方法高度依赖于词频特征,会侧重于高频名词的抽取,因而本文还结合了监督学习方法(CRF方法)获取一些低频专有名词,采用的特征是词本身、词性等。实验证明该方法能够有效地弥补仅采用统计学方法的问题。目前基于深度神经网络的方法能够取得较好的效果,然而此类方法需要大规模高质量的标注语料,这在建设初期是无法取得的,因此,本文将人文社科专题数据库数据的实体识别分两个阶段来进行,分别为标注语料建设阶段和成熟阶段(如图2)。


图2  分阶段实体识别方法

标注语料建设阶段首先继承顶层本体或大型知识库中的实体,例如Freebase、DBpedia、FOAF等,继承的部分顶层本体见表1;其次是针对人文社科专题数据库中资源的不同类型以及资源所处的专业领域,获取资源相关文本中较易提取的实体,例如期刊文献或专利中的关键词、领域叙词表、资源的分类标签等;最后是结合语言学模板和统计学方法从资源相关文本中获取排序较前的实体。


标注语料成熟阶段是在已建设有大量高质量标注语料的情况下,除了进行人工标注语料外,将上一阶段获取的术语经过一定的人工辅助筛选后进行语料的标注。当标注语料集数量充足时,采用基于深度神经网络的方法来抽取。


4.2

等级关系抽取

人文社科专题数据库中的实体有不同的分类标准,例如,可以按照实体的表现形式进行分类,也可以按照实体所属的主题进行分类。实体分类即将抽取的实体指向其上位词,以获取实体的上下位关系(采用RDF语法表示为rdf:subClassof),这一步骤也称为等级关系抽取,即获取实体间的等级或层次结构。


采用混合方法进行实体分类,同样分为两个阶段。在利用语言学和统计学方法相结合来进行实体识别的标注语料建设阶段,首先继承大型本体/知识库中实体的类型,其次结合基于模板(例如A(,)是一种BA属于B)和统计学排序的方法获取实体类型。在标注语料成熟阶段时,实体分类采用深度学习方法将实体与实体类别联合抽取。


4.3

非等级关系抽取

人文社科专题数据库中的非等级关系是指实体之间存在的除了等级关系之外的关系类型,例如整部关系、等价/近似关系、组成关系、施事关系、比较关系、因果关系以及一些自定义关系等。非等级关系抽取一般包括两个任务:一是获取实体间的关系;二是为关系命名。


非等级关系可以表示成“实体-关系-实体”(“<e1,r,e2>”)三元组,其中e1e2分别表示头实体和尾实体,r是实体之间存在的关系。从下述三个步骤来获取三元组:一是采用基于模板的方法,先确定关系类型,利用该关系类型的关系指示词(例如等价关系的关系指示词有“等同于”“也叫”等)制定模板,再确定指示词到实体的窗口距离,利用基于频率的方法来获取三元组;二是依据实体对共现以揭示实体间的联系,采用关联规则挖掘获取关联实体对后,再确定实体间存在的关系类型;三是利用基于特征的方法来获取三元组。


本研究将人文社科专题数据库中的非等级关系抽取分为两个阶段进行,第一阶段是语料建设阶段,此阶段先继承大型本体中的非等级关系,部分大型本体见表1,其次采用基于多重交互信息的方法来获取非等级关系三元组,人文社科专题数据库中资源的部分关系类型见表2;第二阶段是语料成熟阶段,此阶段采用基于深度学习的方法,将关系抽取与关系命名(针对有限关系类型)同时进行。



4.4

知识存储

经过关系抽取后生成的知识以三元组表的形式存储。但是三元组表存在一些缺陷,一是以单表存储整个知识图谱的知识,后续查询、增删改等操作开销过大;二是复合查询需要拆分为多个简单查询来操作,查询效率过低。因而需要采用数据库的方式来存储,若是采用传统的关系数据库来存储庞大的关系网络,会导致后续复杂关系处理的效率过低。由于知识图谱中知识是呈网状连接的,非常适合于图模型结构,因而采用图数据库Neo4j对上述知识进行存储。


图3是以期刊文献资源为例的人文社科专题数据库图形数据建模架构。图右上侧标识为“引用图谱”的部分为资源的引用形成的网络结构,包括资源实体(相当于本体实例,统称为实体)、资源(实体)与人(实体)的关系、资源在出版活动中产生的各种关系等。图右侧下方的“主题词图谱”是资源相关实体构成的图谱,由实体识别获取实体,由关系识别获取实体间存在的等级关系及非等级关系,这些实体间的关系形成了主题词图谱,可以对资源的内容进行描述。以上的三个图谱并不是分割的,而是相互关联的一个整体。


图3  人文社科专题数据库数据建模


5

数据深度语义化应用案例及讨论

为了检验本文提出的人文社科专题数据库语义化架构的可行性,同时验证该领域生成知识图谱语义检索的有效性,选择CNKI中的文物保护专题数据库(见图4)为研究对象进行案例研究。目前该文物保护专题数据库主要采用分类导航的形式进行内容组织,主要包括学术研究、战略管理、职能管理及相关学科这四大模块,这些模块下混合了不同的研究主题、资源类型、专家学者等信息,不同的分类等级间部分类别有交叉。作为CNKI总库中的一个专题子库,该库的检索功能需要通过CNKI总库的检索来实现,检索的可扩展性和推理支持不足。鉴于此,本文从资源语义化的角度,对文物保护专题数据库中的资源进行语义组织,并在此基础上进行语义检索及推理应用。


图4  CNKI文物保护专题数据库界面


5.1

人文社科专题数据库核心本体构建

概念集是整个资源语义化的核心,本案例中专题数据库资源的核心概念继承本体SKOS、SPAR、FOAF等,本体语言采用OWL-DL。继承此类概念有助于实现知识图谱核心结构的标准化和规范化,便于数据融合和共享。继承的部分相关概念及属性示例见表3,在人文社科专题数据库后期语义化的过程中,只需要将实体添加为上述顶层元数据的实例。



图5是人文社科数据库中资源的本体,这些本体元素不仅包括从顶层本体中继承的本体元素,还包括一些自定义的类、关系、约束及实例。


图5  人文社科数据库资源本体


概念类(skos:Concept类)的实例采用实体识别获取,主要思想是从资源相关的网页或文档等文本中获取相关术语,目前采用两种方法:一是继承现有知识图谱中的相关概念实例,如清华大学的科技知识图谱,XLORE双语百科知识图谱等;二是从爬取的资源网页或内容中自动获取相关概念实例,再进行去重、去乱码等预处理,例如,从期刊文献中挖掘概念时,从期刊文献数据库中获取自定义格式的引文,将关键词进行一系列处理后生成概念集。


5.2

文物保护专题数据库语义数据存储及推理应用

数据的存储采用Neo4j图数据库,其涉及的本体概念(即图数据库构建的核心概念架构)如图6所示。


图6  文物保护专题数据库核心概念架构图


Thing为所有概念的顶层类,Expression、Concept、Agent和Time分别来源于Fabio、SKOS及FOAF本体,这些中心概念均作为Thing的子类。文物保护专题数据库涉及到的资源类型均作为Expression的子类,包括期刊文献、报纸、年鉴、专利等,而具体的资源是作为概念实例来体现的,例如,文物保护相关期刊文献为概念fabio: JournalArticle的实例。资源关键词为Concept类下SubjectTerm的子类,例如“文化遗产”“唐代”等。资源出版时间为Time类的实例。资源相关的人、机构分别为foaf: Person、foaf: Organization的实例。这些实例间存在各种关系,例如资源和作者间存在hasAuthor关系,作者和机构间存在hasOrgan关系,资源、作者、机构三者关系如图7所示。这些有向关系在图谱中以带箭头的直线来表示。实体和关系生成的部分知识图谱如图8所示。


图7  期刊文献实体、作者实体、机构实体关系部分截图


图8  文物保护专题数据库实例部分截图


构建好知识图谱后,可以采用Cypher语言实现对知识图谱的简单查询,例如查找关键词“清理简报”的所有相关的资源、作者及单位,如图9所示。


图9  查找关键词“清理简报”相关的所有资源、作者及单位


除了精确地检索匹配外,图数据库还能进行模糊检索。例如,图10是采用“.*文物.*”作为检索模板,查到专利名称中含有“文物”的所有专利及作者信息。还可以从众多实体中查找实体间的最短路径,例如,图11中表示的是期刊文献、关键词以及两者间存在的关系,当限制关系名为“hasKeywords”时,可以找出“元代墓葬”与“唐代”的最短路径,其结果在右下角框中标出。


图10  模糊检索与“.*文物.*”相关的专利及作者


图11  查找“元代墓葬”与“唐代”限制“hasKeywords”关系的最短路径


6

结论与展望

为了实现人文社科专题数据库的深度语义化,本研究首先设计了数据库的语义化架构,包括数据获取层、数据处理层以及语义应用层;接下来,分别针对语义化架构中的关键技术,包括实体识别、实体分类、等级关系抽取、非等级关系抽取、知识存储、知识推理等技术进行了详细的叙述;最后,采用文物保护专题数据库作为研究案例,对其中的资源进行语义化处理,提取了相关的实体以及实体间的关系,并构建了知识图谱。在这一基础上,采用Neo4j进行数据的存储,进行了知识图谱的查询和推理,实证表明,本文提出的人文社科专题数据库深度语义化架构及相关技术方案是有效的。


本研究针对人文社科专题数据库,提出了两阶段的实体识别和关系抽取方法。这种方案比较适合资源语义化的整个过程,在初级阶段积累语料,在后期可以采用这些语料得到较高的抽取效率。知识存储架构采用图数据库。本文案例中,实体识别和关系抽取继承了大量的元数据和顶层本体作为专题数据库的核心语义数据,数据建模采用严格的OWL对资源语义进行描述。在实例的添加和展示中,本文采用了Neo4j图数据库,配合自定义规则的开发,可以实现大量实例的查询和推理。


本研究的数据语义化技术中,基于神经网络的数据库资源深度语义化实体识别及关系抽取需要大量的标注语料,因而在下一步的研究工作中,首先需要构建大量的标注语料,再进行实体识别及关系抽取。案例研究中,由于研究对象为CNKI中的专题数据库,存在下述局限,一是能够获取的资源类型并不全面,因为该平台的资源类型主要包括期刊文献、专利文献、年鉴以及报纸杂志等,而人文社科数据库涉及的资源类型非常广泛,本案例中未涉及到处理复杂的多媒体格式的资源(如图片、音频、视频等),在后期的研究中,还需要进一步研究不同资源类型的深度语义化方法;二是本案例未获取数据库中的所有资源,因而在案例中检索及推理应用中生成的结果并不全面。在后续的研究中,需要考虑不同平台间资源的融合、大体量资源的存储及处理效率的提升、推理方法的改进等问题。


尾注:

家谱知识服务平台  https://jiapu.library.sh.cn/# /



作者简介


蒋婷,讲师,博士,研究方向为本体学习、数据挖掘、信息资源管理, Email:jiangtinghaha@126.com;

孙建军,教授,博士生导师,研究方向为网络资源管理, Email:sjj@nju.edu.cn。


参考文献



*原文载于《信息资源管理学报》2020年第5期,欢迎个人转发,公众号转载请联系后台


* 引用格式

蒋婷,孙建军.人文社科专题数据库深度语义化研究[J].信息资源管理学报,2020,10(5):12-22.

制版编辑 | 王阿凤


当期目录 | 2020年第5期

当期荐读 2020年第5期 | 学术出版:功能的异化、回归与建构

论文荐读 2020年第4期 | 信息搜索任务难度研究述评

论文荐读 2020年第4期 | 医疗数据隐私泄露容忍度的计量分析

论文荐读 2020年第4期 | 社交网络使用会影响用户心理健康么?——一项元分析研究

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存