查看原文
其他

当期荐读 2020年第5期 | 基于知识超网络的人文社科专题数据库数据资源聚合研究

毛平 剧晓红 信息资源管理学报 2022-04-24

图源:Internet


毛平1  剧晓红2

(1.南京大学信息管理学院,南京,210093;

 2.安徽工业大学商学院,马鞍山,243032)

摘  要

人文社科专题数据库数据资源丰富、类型多样,有效聚合数据资源对于提升专题数据库知识服务等有着重要的意义。针对专题数据库数据资源多层级、多维度、多属性等特征,依据知识超网络理论,构建人文社科专题数据库数据资源语义聚合模型,并以“明史研究专题库”为例进行实证。该模型能够较好地从不同层次和维度揭示人文社科专题数据库数据资源,有效地支撑各类数据资源的语义聚合。


关 键 词

知识超网络,专题数据库,资源聚合,人文社科,知识服务


随着教育部“211工程”中国高等教育文献保障体系(CALIS)专题特色数据库等各类项目的大力发展和持续推进,近年来我国人文社科专题数据库建设蓬勃发展,构建了一批不同主题的专题数据库。但在后期数据库的使用过程中暴露出了一些不足,如使用率不高、产出效益低下等[1]。许多专题数据库建成后不久便沦为所谓的“僵尸库”,无法有效实现专题数据库数据资源的价值。


导致专题数据库使用率低下的原因众多,如缺乏特色、资源不足、知识细粒度程度不高、服务设计落后等。从吸引用户使用上来看,对专题数据资源进行有效组织与深度聚合,进而提供有效的知识服务是关键因素之一。专题数据库作为一种系统性、标识性的数据资源集成,数据资源量多庞杂、异质多元、层级交错,各数据资源实体之间存在隐含泛在关联,总体上呈现复杂网络系统特征。传统的资源组织方式多为线性且偏向单一维度,无法有效描述专题数据库中多类型、多维度、多层级、多模态数据资源之间的内在逻辑关系,不能形成各类型数据的有效语义关联,从而无法有效地满足用户的深层次需求,因此,需要一种区别于传统方式的新的数据资源组织和聚合模式。


超网络在描述和分析具有多子系统、多子网结构的复杂系统上具有独特优势,近年来成为研究大型复杂系统的一种新兴工具,而知识超网络是用于描述复杂知识系统的一种网络形态,是超网络在知识管理领域的应用研究[2]。因此,知识超网络继承了超网络多层、多级、多维、多属性等特性,能较好地契合人文社科专题数据库数据资源异质多元、层级交错的特征,从而为人文社科专题数据库数据资源的有效聚合提供了一些思路。


综合过去对于人文社科专题数据库数据资源聚合研究的实践,尚未发现有基于知识超网络理论的探索。基于此,本文尝试进行基于知识超网络模型的专题数据资源聚合的探讨,为人文社科专题数据库的数据资源建设提供参考。


1

相关研究现状

1.1

知识超网络

知识超网络的概念最早由Hearn等于1998年在一项教育研究中提出[3],但作者并未给出明确的概念定义,不算真正意义上对知识超网络的探讨。而真正对知识超网络的研究始于超网络理论在知识管理领域的应用,由于知识系统的特殊复杂性,单一的网络结构很难完全描述知识系统的复杂结构,于是有学者引入超网络来研究相关问题[2]。王志平等指出超网络集成了各种知识资源,可以用来解决传统知识网络所无法解决的知识管理问题,并提出了经典知识超网络模型,同时构建了知识协作超网络模型[4];席运江等提出基于知识、知识主体和知识存储媒介建立三种不同类型的知识网络,根据各知识网络之间的关联关系建立的“超网络”称为知识超网络[5];于洋基于Nagurney对“超网络”的定义,将知识超网络界定为由几种不同类型的知识网络所组成的超网络,属于超网络的一种[6]


近年来,随着研究的深入,知识超网络被广泛应用于知识发现、知识创新、知识合作、知识扩散、知识服务、知识共享、知识资源整合等知识管理领域,并取得了许多研究成果。如唐洪婷等基于知识超网络演化模型,识别开放式创新社区中的知识[7];余谦等探讨了知识创新超网络的演化机理[8];李纲等基于超图结构的科研合作超网络,阐述了科研合作中知识扩散演化的规律[9];田儒雅等基于超网络模型,对图书情报领域的知识合作特性进行了探讨[10];Wang等基于科研合作超网络,构建了知识扩散模型[11];武澎等探讨了基于超网络的知识服务能力[12];潘旭伟等对知识超网络环境中的知识共享服务进行了研究[13];席运江等阐述了基于知识超网络模型实现组织知识的整合等[2]


1.2

数据资源聚合

数据资源聚合是图书情报领域研究的热点,从研究进程上来看,大体经历了从资源整合到资源聚合的发展过程[14]。对于数据资源的整合研究,以馆藏资源为对象的研究比较多,主要关注联机公共访问目录、跨库检索以及元数据等方面。随着主题词表、文献计量、社会网络分析、分众分类法、RSS、本体及关联数据等相关理论和技术方法的快速发展,数据资源深度聚合研究逐渐兴起。


数据资源聚合的相关技术方法在图情领域主要包含语义与关联两大主线[15],各技术方法在具体应用中也各具视角。主题词表法使用具有语义与族群相关性的词或词组,以等同、相关、等级等词间关系对数据资源进行描述和聚合,如顾亮亮对农业专业领域信息资源的整合[16]。文献计量法通过对文献特征的定量分析以及文献间关系的定量分析实现文献的多维聚合,如邱均平等基于共现与耦合的馆藏文献资源深度聚合的模式[17]。社会网络分析法由知识群落、知识关联及知识单元组成,通过社会网络来展现信息资源的关系及属性[15],如王弘丞等基于社会网络分析,对战略性新兴产业知识资源的聚合[18]。分众分类法以用户标注为依据,基于“大众一致意见”,根据用户标签点击率进行数字资源的分析统计[15],如周姗姗基于Folksonomy模式对数字资源进行了多维度聚合[19]。RSS支持异构多媒体内容语义聚合,能够从多种定制检索渠道获得信息,如Montagnuolo等以网络在线新闻信息和电视新闻节目信息作为信息源,运用混合聚类算法,实现多模式聚合服务[20]。本体技术通过类、实例、属性、关系等要素对资源的关联关系进行描述,可用于揭示数据资源中隐含的深层语义,进而实现有效语义聚合,如何超等探讨了基于本体的馆藏数字资源语义聚合与可视化的实现方式[21],DePotter等基于本体实现病患信息的聚合[22]。关联数据技术采用RDF数据模型,利用URI命名数据实体发布和部署实例数据和类数据,通过HTTP协议揭示并获取数据,同时强调数据的相互关联可以实现数据资源跨库、跨领域的聚合,如伍革新探讨了基于关联数据技术的数字图书馆资源聚合与服务[23]。除此以外,还有学者探讨了以上方法的融合应用,如本体与分众分类法的融合[24]、分众分类法与社会网络分析法的融合[25]等等。


1.3

人文社科专题数据库数据资源建设

我国人文社科专题数据库的建设经历了一段较长的发展时期,但逐步暴露出缺乏统筹规划以及共享程度低等问题。因此,学者们针对人文社科专题数据库资源整合与共享机制进行了较多地研究。如冯新民等指出为了规范地方文化特色数据库服务机构之间的行为,需统一规划江苏省地方文化特色数据库共建共享的总体布局与运作机制,并建立动态的利益平衡机制,以确保各参与主体的利益[26];李广都等指出应构建数据共享平台,通过协调机制建设推动边疆历史档案专题数据库电子档案资源整合与规范管理[27];萨蕾也提出应加强各方合作,改变发布平台造成的信息孤岛现象,以实现对古籍数字资源的整合[28];杨滟等则在探讨少数民族数字文化资源建设及整合的研究中指出,应设计既符合我国国情,又适应社会需要的管理制度体系,以此为基础,构建少数民族数字文化资源整合体系[29]


此外,学者们还从应用技术层次上探讨了人文社科专题数据库资源整合与共享的条件保障。如许庆勇等指出信息技术、网络技术的发展为红色旅游专题数据库共享提供了技术基础,网络使高层次的资源共享变成现实[30];阙本旭也指出应依托先进的数字化技术和网络化信息手段,以更深层次、更有序地整合潮汕文献数据库的相关资源内容[31];徐卫红等提出选择合适的特色数据库建设平台是实现旅游特色数据库多馆共建共享的重要条件[32];李建伟指出应通过对信息特征的定义描述、信息关系的揭示,来建立一套有效的平台资源共享机制,从而为建立规范、开放的世界客都古民居数字平台提供服务等[33]


综上所述,数据资源聚合的研究逐步深入,总体呈现出由基于外部特征的聚合到基于内容的语义聚合、由粗粒度聚合到细粒度聚合、由单一维度聚合向多个维度聚合的转变趋势,研究对象以馆藏资源居多,但对人文社科专题数据库数据资源聚合的深入探讨较少。知识超网络由于其对复杂知识系统的表达能力,在知识管理领域的应用得到不断深入和拓展,但还未见在人文社科专题数据库数据资源聚合中的应用,基于此背景,本文尝试探讨知识超网络在人文社科专题数据库数据资源聚合模型中的应用。


2

模型构建思路

本文针对人文社科专题数据库数据资源多类型、多维度、多层级、多模态的特点,拟基于知识超网络理论,利用知识超网络多层、多级、多维、多属性等特性,构建数据资源聚合模型。基于前人的研究成果,将模型构建过程分为三个步骤,即子网络建模、超边建模及知识超网络建模。其中,子网络建模是指构造知识超网络的各个子网络,同时确定子网络内各个节点之间的关联关系;超边建模是指明确各个子网络之间的映射关系,并为各子网络构建映射关系;通过子网络建模及超边建模完成整个知识超网络的建模。


2.1

子网络建模

人文社科专题数据库中所收录的数据资源类型丰富多样,涵盖图书、论文、专利、基金项目、政策法规、标准、图片、音频、视频等多种类型,各种数据资源又具有多种描述角度。基于以上数据资源特征以及专题库知识服务的需要,对经典知识超网络模型进行拓展,尝试构建知识子网络、知识载体子网络、主题子网络、知识主体子网络及机构子网络五个子网络,从知识元、知识载体、知识主题、知识相关交互人员及机构五个维度来描述专题数据库数据资源。各子网络的构建方法如下:


(1)知识子网络,可简称为K-K网络。以知识元为节点,以知识元之间的关联关系构建无向边。模型可表示为Gk=(K,Ek-k),其中K={k1,k2,…,kn}为知识元的集合,Ek-k={(ki,kj)|ki,kj∊K}为边的集合,边(ki,kj)表示知识元kikj之间存在关联关系,关联关系根据具体应用场景可设定为知识元的共现关系或语法关联等。需要指出来的是,对于知识元的概念,目前学界还未有完全统一的看法,本文中所提知识元指领域特征词。


(2)知识载体子网络,可简称为M-M网络。以存储知识的载体为节点,如论文、图书、专利、基金项目、图片、视频等,以各知识载体之间的关联关系构建边。此处的边既可以是有向边也可以是无向边,如可以基于论文、专利之间的相互引用关系,论文与基金项目之间的关联关系,图片与论文之间的包含隶属关系等构建有向边,而基于图片、视频相互之间的相似关系可以构建无向边。网络可以表示为Gm=(M,Em-m),其中M={m1,m2,…,mn}为知识载体的集合,Em-m={(mi,mj)|mi,mj∊M}为边的集合,边(mi,mj)表示知识载体mimj之间存在关联关系,关联关系根据具体应用场景可设定为前文所述的引用关系、包含隶属关系及相似关系等。


(3)主题子网络,可简称为T-T网络。以各个主题为节点,以各主题之间的关联关系构造无向边。网络可以表示为Gt=(T,Et-t),其中T={t1,t2,…,tn}为主题的集合,表示专题数据库数据资源所属的主题,Et-t={(ti,tj)|ti,tj∊T}为边的集合,边(ti,tj)表示主题titj之间存在关联,关联关系根据具体应用场景可设定为主题之间的相关关系等。


(4)知识主体子网络,可简称为P-P网络。以各知识主体为节点,以各知识主体之间的关联关系构建无向边。网络可以表示为Gp=(P,Ep-p),其中P={p1,p2,…,pn}为知识主体的集合,如论文作者、专利授权人、基金项目主持人等,边Ep-p={(pi,pj)|pi,pj∊P}为边的集合,边(pi,pj)表示知识主体pipj之间存在关联。关联关系根据具体应用场景可设定为论文合著、共同主持基金项目、联合申请专利关系等。


(5)机构子网络,可简称为A-A网络。以各组织机构为节点,以各机构之间的关联关系建立无向边。模型可表示为Ga=(A,Ea-a),其中A={a1,a2,…,an}为组织机构的集合,Ea-a={(ai,aj)|ai,aj∊A}为边的集合,边(ai,aj)表示组织机构aiaj之间存在关联,关联关系根据具体应用场景可设定为机构之间的合作关系等。


通过以上知识子网络、知识载体子网络和主题子网络的建模,可实现专题数据库中知识元、各知识载体以及主题等不同粒度的专题数据库数据资源的语义关联与聚合,便于为用户提供基于知识内容的知识服务。通过知识主体子网络和机构子网络的建模,可描述专题数据库数据资源的分布和存储态势。


2.2

超边建模

理论上讲,各子网络两两之间均有可能存在关联关系,即一个包含五层子网络的知识超网络,理论上可以有10种关联关系。考虑关联的传递性及实际场景的适用性,本文构建四种直接映射关系:①知识子网络与知识载体子网络映射(K-M),表达特定知识载体中包含哪些知识元或知识元被包含在哪些知识载体中的关联关系,如一篇论文中包含哪些知识元,一个知识元被包含在哪些论文、专利、图片等之中;②知识载体子网络与主题子网络映射(M-T),表达不同知识载体属于哪个主题或特定主题中包含哪些知识载体的关联关系,如一篇论文属于哪个主题,某个主题涉及哪些论文、专利、图片等;③知识主体子网络与知识载体子网络映射(P-M),表达知识主体拥有何种知识载体或某一知识载体涉及哪些知识主体的关联关系,如某一作者发表了哪些论文、申请了哪些专利,某一论文由哪些作者共同撰写等;④机构子网络与知识载体子网络映射(M-A),表达知识载体与相应机构的关联,如一篇论文有哪些挂名机构,某个机构发表哪些论文、被授权哪些专利等。


基于上述映射关系,可在Gp、Gk、Gm、Gt、Ga等五层子网络之间添加边,实现各子网络之间的关联,形成一个包含五种异质类型节点的知识超网络模型。建模过程可形式化表示为:


pi∊P、kj∊K、ml∊M、ty∊T、ax∊A分别表示P-P子网络、K-K子网络、M-M子网络、T-T子网络以及A-A子网络的任一节点,布尔变量φ(pi,kj)、φ(pi,ml)、φ(pi,ty)、φ(pi,ax)、φ(kj,ml)、φ(kj,ty)、φ(kj,ax)、φ(ml,ty)、φ(ml,ax)、φ(ty,ax)分别表示不同类型节点之间是否存在映射关系,当值取1时,表示存在映射关系,取0时,则表示不存在映射关系。根据前文所述四种子网络的映射关系,可设置φ(kj,ml)、φ(ml,ty)、φ(pi,ml)、φ(ml,ax)的值为1。跨五层子网络的超边则可表示属于主题Ty的知识载体Ml,具有知识元Kj,由知识主体Pi所创造产生,隶属机构Ax


2.3

人文社科专题数据库知识超网络建模

基于前述子网络建模及超边建模,可构建人文社科专题数据库知识超网络(以下简称TDSN),形式化表示为:


TDSN=f(Gp,Gk,Gm,Gt,Ga)

=Gp+Gk+Gm+Gt+Ga+Ek-m+Em-t+

Ep-m+Em-a

=(P,K,M,T,A,Ep-p,Ek-k,Em-m,Et-t,Ea-a,

Ek-m,Em-t,Ep-m,Em-a)


其中,Ek-m={(kj,ml)|φ(kj,ml)=1}表示K类节点与M类节点之间边的集合,即知识元与知识载体的映射;Em-t={(ml,ty)|φ(ml,ty)=1}表示M类节点与T类节点之间边的集合,即知识载体与主题之间的映射;Ep-m={(pi,ml)|φ(pi,ml)=1}表示P类节点与M类节点之间边的集合,即知识主体与知识载体之间的映射;Em-a={(ml,ax)|φ(ml,ax)=1}表示M类节点与A类节点之间边的集合,即知识载体与机构之间的映射。


由此可以看出,该TDSN模型是五种子网络的聚合,包含了五种异质类型的节点、五种同质类型的边以及四种异质类型的边,能够有效表达出人文社科专题数据库数据资源的泛在关联、层级形态、多维结构及多粒度属性,如图1所示。



3

案例实证

历史研究类专题数据库是典型的人文社科专题数据库,其中大量的项目、论文、图片乃至专利等数据资源涉及的知识、人员、机构等体现出多层次、多维度、多属性、多模态特征。当前对于该类专题数据库数据资源的聚合研究尚较为缺乏,数据资源组织方式相对落后。以CNKI中“明史研究专题库”为例(https://mq.cnki.net/mqs_mc.html),该专题数据库中数据资源主要包含期刊论文、基金项目以及图片等,在组织方式上按照热点研究、海外明史、专题研究、明史学人、明史图集、科研项目等进行分类索引,建立指向中国知网中相应文献的链接,用户需根据链接下载所需文献。该种组织方式提供给用户的是文档级别粒度的数据资源,未细化到知识元粒度。此外也未能将知识、人员、机构、主题等各类型、各维度数据资源进行有效地语义关联聚合,使得相关的推荐检索较为缺乏,因而无法为用户提供有效的知识服务。下文尝试以“明史研究专题库”中部分数据为例,说明基于知识超网络理论实现专题数据库数据资源的聚合,并与传统组织方式及其他主要聚合方法进行比较。


3.1

子网络建模

基于前述研究思路,首先对本案例所涉及的知识子网络、知识载体子网络、主题子网络、知识主体子网络及机构子网络进行子网络建模。对于知识子网络,本文界定以明史研究专题数据库中论文、图片标注、基金项目等数据资源中的领域特征词为节点,以各特征词的共现关系作为关联构建无向边,其中领域特征词采取人工提取方式;对于知识载体子网络,界定以期刊论文、学位论文、基金项目及图片等数据资源为节点,以相互引用关系、基金挂靠关系、相似关系、隶属关系等作为关联构建有向边或无向边;对于主题子网络,以主题关键词为节点,以节点间的关联关系构建无向边,其中,主题基于LDA主题模型获得;对于知识主体子网络,界定以专题数据库中论文的作者、基金项目的主持人、图片贡献人等作为节点,以论文合作关系、基金项目的共同承担关系等构建无向边;对于机构子网络,界定以机构间的论文合作、共同承担基金项目等为关联构建无向边。鉴于本研究为探索性研究,故选取部分数据来做阐述,部分知识载体数据如表1所示,基于以上原则构建各子网络示例如图2—6所示。








3.2

超边建模

基于论文、基金项目、图片等与知识元的包含隶属关联,构建知识子网络与知识载体子网络之间的边;基于论文等知识载体与主题之间的包含隶属关系,构建知识载体子网络与主题子网络之间的边;基于论文作者、基金项目承担人、图片贡献人等知识主体发表论文、承担项目、贡献图片,构建知识主体子网络与知识载体子网络之间的边;基于论文与署名单位、基金项目与承担单位的关系等,构建知识载体子网络与机构子网络之间的边。其中,知识主体子网络与知识载体子网络添加边后如图7所示,其他子网络间做类似处理,篇幅所限,不一一列举。基于以上各层子网络的建模以及子网络间映射关系的添加,便可以完成整个专题数据库数据资源知识超网络模型的构建。



3.3

与原组织方式的对比分析

基于前述案例可以发现,采用知识超网络模型实现人文社科专题数据库数据资源的聚合较之目前的资源组织方式存在以下几点优势:


(1)契合专题数据库数据资源多类型、多属性、多维度、多层级的特点。首先,从层次上看,主题-知识载体-知识元的三层聚合模式能在不同粒度层次上描述专题数据库数据资源内容,满足用户的多粒度知识服务需求。不仅包含图3中基于“货币超发”与“货币财政化”“宝钞贬值”等细粒度层次知识元的聚合,还包含如图4中基于包含知识元的知识载体层次的聚合以及图5中基于主题层次的聚合。其次,从维度上看,不仅可以从知识元、知识载体、主题、知识主体、机构等各单一维度来描述和呈现数据资源,还可以从知识元-知识载体、知识载体-主题、知识载体-知识主体、知识载体-机构等二维维度,甚至从知识元-知识载体-机构、知识元-知识载体-知识主体-机构等多维维度,来实现数据资源的描述与聚合。再次,从类型上看,基于知识超网络的聚合模型能将论文、图片、基金项目等不同类型的数据资源纳入其中,还可以推广至专利、标准等类型数据资源,实现全方位的语义关联与聚合。


(2)减少孤立的数据资源实体节点,有效挖掘隐含的关联。通过知识超网络中的超边,不仅可以实现知识超网络中各个子网络内同质类型节点的有效关联,如知识元之间、论文之间、论文作者之间、主题之间、机构之间等的关联,同时还实现了各子网络间异质类型节点的有效关联,如论文与作者、基金项目与基金项目主持人、以及论文等与所属主题之间的关联,并通过这种关联关系的传递,实现知识超网络中各个资源实体的关联,从而有效避免孤立节点的出现,充分挖掘、识别隐含的关联,这种隐含关联往往是知识创新的重要来源。如图8所示为两条跨越五个子网络的超边,描述了两篇不同的论文所分别包含的知识元、隶属的主题、相关作者以及机构,从图上可以看出,虽然该两篇论文没有相互间的引用关系,但却具有共同的主题,因而也存在关联关系。这种聚合方式揭示了多种数据资源实体之间的潜在关联关系,将基于单一维度,如共现与耦合视角下的孤立节点也关联起来,从而使整个数据资源获得更广泛的语义关联。


(3)能展示专题数据库中各类型数据资源的结构与分布状态,并可据此对数据资源作出评估。通过计算知识超网络中节点超度、超边度、中介中心度等拓扑属性度量指标来评价专题数据库中各数据资源的分布态势。节点超度指某个节点参与组成的超边数,计算公式为

其中θj代表超边j中是否包含节点i,若包含,则θj=1,否则θj=0。超边度指与该超边所邻接的其他超边的个数,两条超边邻接是指两条超边包含有相同的节点,计算公式为

其中δij代表超边i与超边j是否有公共节点,若有,则δij=1,否则δij=0。如图8中所示的主题子网络节点T4,隶属于虚线框所示两条超边,因此T4的节点超度为2;图8中与左边虚线框所示超边有公共节点的只有一条(图中右边虚线框所示超边),因此左边超边的超边度为1。中介中心度指将每条超边中的顶点全连接后,该节点作为其他节点相互连接的“中心站”,在网络中承受的压力,计算公式为[34]:

其中gik代表节点jk的最短路径的数目,gjkni表示连接节点j、k的最短路径上含有节点i的个数。通过以上指标可以发现节点在整个知识超网络系统中的参与及游离程度、核心与边缘程度,进而发现系统中的重要核心资源实体,如高产机构、核心作者以及研究热点知识与主题等。


(4)便于提供更加有效的知识服务。在基于知识超网络的数据资源聚合模式下,从聚合结果的呈现上看,整个数据资源类似于一个多维数据立方(cube),便于以类似数据立方切片的方式,从多个维度来分析整个专题数据库中的数据资源。知识元、知识载体、主题、机构以及知识主体之间通过超边的泛在关联,使得专题数据库能够提供更全面、更具语义的数据资源推荐服务,如根据论文除了推荐隶属同层知识载体子网络的其他相关论文、基金项目、相关图片等之外,同时还可以推荐隶属其他相关子网络的数据资源实体,如隶属于知识主体子网络的相关学者、隶属于机构子网络的机构等,为用户提供了选择的多样性。


此外,基于知识超网络的数据资源聚合模式也为文献等数据资源实体提供了多种标注集合,如知识元、主题、机构等,若以此为依据建立计算模型,可提供基于有效标注的个性化数据资源推荐服务。知识超网络模型中的超边可用于划分凝聚子群,通过作者-文献-主题的聚合有可能发现潜在的交叉领域合作关系。知识超网络模型使得专题数据库中数据资源网络化关联,可以使得网络表示学习、谱聚类等面向网络结构、图结构的机器学习及数据挖掘算法等应用于专题数据库数据资源深度挖掘中,可提供如知识链路预测、社区结构识别、聚类等深入的分析,从而实现更好的知识推荐服务。


3.4

与其他主要聚合方法的对比分析

(1)主题词表法

主题词表法使用具有语义相关性与族群相关性的词或词组以等同、层级等词间关系对数据资源进行标引描述,是数据资源聚合的一种较好方法,具有结构化、规范化、语义化以及可复用等优点,但也存在着表达模糊、自由度低、词间关系粗糙、扩展性与时效性较差以及非形式化等缺点[15]。此外,主题词表法多被用于文献资源本身的聚合,而无法实现本案例专题数据库中作者、机构等科研实体信息的聚合,从而无法揭示科研实体之间在知识点上的相关性,在资源聚合的维度上有所欠缺。


(2)分众分类法

分众分类法以用户标注为依据,能够较好地表达用户需求,挖掘潜在语义关联,但存在规范度与关联度低,结构性与受控性差、语义模糊以及维度单一等缺点[15]。与主题词表法类似,分众分类法多被用于文献信息资源的聚合,无法实现专题数据库中作者、机构等科研实体信息的聚合,无法揭示科研实体之间在知识点上的相关性,同样在资源聚合的维度上有所不足。


(3)文献计量法

文献计量法通过定量分析文献单元的特征和关系实现对学术发展脉络的评价与预测,通常基于引证关系实现文献资源的聚合,基于扩展的引证关系实现科研实体的聚合[35]。相对于本文所提方法,文献计量法能够实现文档粒度的资源聚合,但是无法细粒度到文献内容知识元层面,分析内容有限、资源语义挖掘不深,也无法粗粒度到文献主题层面,因而在资源聚合的层次上有所欠缺。


(4)本体法

本体法是强化语义的知识组织方法,具有形式化、语义关联、概念丰富、开放集成、多维知识化构建的优点[15]。基于科研本体,能够准确客观地描述和表示学术研究领域的科研实体,在此基础上,通过科研实体之前的关联关系,实现资源的聚合[35]。类似于本文所提方法,本体法可以实现多维度资源聚合,描述资源多属性特征,但在资源聚合粒度层次上有所欠缺。同时,本体法存在易用性与灵活性不够等不足,针对不同领域的专题数据库可能需要构建不同的领域本体。


(5)关联数据法

关联数据法采用主体、客体与谓词对数据信息进行描述,借助资源标识及通讯协议对数据资源进行内外部链接。该方法的最大优势是能够将分布、异构的数据资源进行无缝联接与整合,但不同于本体法等,其本身不具语义性,无法进行隐性资源关系揭示及深层语义挖掘[15]。此外,单独采用关联数据法的资源聚合,无法实现如本案例中基于超网络方法的按知识元、主题等多层次语义聚合。


4

总结

本文针对当前人文社科专题数据库在数据资源组织与聚合上的不足,基于知识超网络理论,在经典知识超网络模型上进行扩展,构建了基于五层异质子网络的人文社科专题数据库数据资源聚合模型。该模型较好地契合了人文社科专题数据库数据资源多类型、多模态、多层次、多维度等特征。通过构建同层同质节点之间的关联以及多层异质网络之间的语义关系映射,实现了专题数据库中各类数据资源之间的有效深度语义聚合,使得整个专题数据库数据资源能够得到更加深入地挖掘,进而可为用户提供更为有效的知识服务。


本文所提出的专题数据库数据资源聚合模型较具普适性,具有一定的泛化推广能力。所使用的构建方法可以推广到其他同类型专题数据库数据资源聚合的建设中,进而在统一协调机制下构建各专题数据库知识超网络,可实现多个专题数据库数据资源间的互补和共享。后续工作可以从进一步完善各数据资源实体之间的语义关系以及知识超网络间构建协同等展开。



作者简介


毛平,博士研究生,研究方向为网络信息资源管理,Email:maoping2001@126.com。

剧晓红,讲师,研究方向为网络信息资源管理、科技报告服务创新,Email:juxiaohong6@163.com。


参考文献



*原文载于《信息资源管理学报》2020年第5期,欢迎个人转发,公众号转载请联系后台


* 引用格式

毛平,剧晓红.基于知识超网络的人文社科专题数据库数据资源聚合研究[J].信息资源管理学报,2020,10(5):38-47,54.

制版编辑 | 王阿凤


当期目录 | 2020年第5期

当期荐读 2020年第5期 | 学术出版:功能的异化、回归与建构

论文荐读 2020年第4期 | 信息搜索任务难度研究述评

论文荐读 2020年第4期 | 医疗数据隐私泄露容忍度的计量分析

论文荐读 2020年第4期 | 社交网络使用会影响用户心理健康么?——一项元分析研究

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存