查看原文
其他

网络首发 | 饶梓欣 邓璐芗 许鑫: 国际视野下面向人文研究的数据基础设施分析与探讨

饶梓欣 邓璐芗等 图书情报知识 2024-01-09


网络首发时间

2022-11-02

网络首发地址

https://kns.cnki.net/kcms/detail/42.1085.G2.20221102.0927.004.html


Photo by Robbi on Unsplash.

饶梓欣 

华东师范大学经济与管理学部,上海,200062

邓璐芗

华东师范大学调查与数据中心,上海,200241

许鑫

华东师范大学经济与管理学部,上海,200062

华东师范大学调查与数据中心,上海,200241


目的 | 意义

_

分析国际主要的面向人文研究的数据基础设施建设现状,为我国建设针对人文研究的数据基础设施提供参考。


研究设计 | 方法

_

以面向人文研究的数据基础设施为对象,以 Re3data.org 中隶属于人文学科的326个数据基础设施的注册数据为数据源,利用统计分析、社会网络分析和文本分析等方法,从时间、地域、机构、数据类型、内容主题、技术应用和标准政策七个维度总结建设特征。


结论 | 发现

_

国际上面向人文研究的数据基础设施处于转型期;欧美地区占领数据基础设施建设高地;结构化组织占据合作建设优势;不同学科数据类型存在差异;三大主题成为建设热点;技术应用助力开放共享;标准政策覆盖对象较广。


创新 | 价值

_

利用定量分析方法从多维度探索人文研究数据基础设施概貌特征,并结合我国实际情况,探讨人文研究数据基础设施的发展路径。


关键词

_

科研数据基础设施;人文研究;

数字人文;科研数据;Re3data





_

1

引言


_


引言随着数据密集型研究范式的发展,人文研究越来越依赖于科研数据和数字方法。这使得建设面向人文研究的数据基础设施越发重要,涌现了一批诸如共同语言资源与技术基础设施(CLARIN)、艺术与人文数字研究基础设施(DARIAH)及欧洲遗产科学研究基础设施(E-RIHS)等项目。当前,在新文科背景下,我国不少相关研究者强调文科数字基础设施建设的重要性,并有学者提出建设兼顾“本土研究”与“海外研究”的新文科数字基础设施的中国方案。就此类数据基础设施而言,如何使国内外人文研究的共同议题都在此推进是值得关注的问题。为此,有必要了解全球面向人文研究的数据基础设施建设进展,需要对其现状特征进行探究,从而为我国建设人文研究数据基础设施提供国际经验和参考,以期为实现人文知识大融通打下坚实基础。


基于上述背景,本研究以面向人文研究的数据基础设施(Research Data Infrastructures, RDI)为研究对象,以Re3data.org中隶属于“Humanities”(人文学科)类目的RDI注册数据为数据源,采用定量分析方法,从时间、地域、机构、数据类型、内容主题、技术应用和标准政策等维度,对国际上面向人文研究的数据基础设施建设现状进行全面地揭示,并进一步探讨其建设特征、发展趋势及困境,从更开阔的国际视野来推进我国的面向人文研究的数据基础设施建设。







_

2

概念界定


_


2.1  科研数据基础设施


关于科研数据基础设施的定义,各机构从实践出发对RDI进行界定。欧盟委员会科研数据高水平专家组(High-Level Expert Group,HLEG)将RDI定义为“旨在支持数据的跨界访问、利用、重用和信任的数据电子基础设施(data e-infrastructure)”。德国信息基础设施委员会则提出RDI“包括数据、服务、人力资源和研究过程本身”。此外,学者们则从理论视角探讨RDI的内涵。例如,Anderson和Blanke认为RDI的共同关键特征包括仪器、硬件、软件、数字内容、数据和档案的组合,及在实践社区之间共享的人力资源(包括知识及专业技能等)。王敬和王彦兵提出,RDI是一个以支持科研数据的分享和重用为主的包括软件与硬件的数据生态系统。


综上,学界对“科研数据基础设施”这一概念没有确切的定义,本研究将其界定为:是一个以科研数据为中心,支持科研数据的保存、获取、分享与重用的一系列设施、工具与服务等的总称。科研数据基础设施聚焦于数据本身,通过将“量级”数据转化成“质级”的智慧数据,以促进知识创新。


2.2  面向人文研究的数据基础设施


作为科研数据基础设施的子类型,面向人文研究的数据基础设施具备保存、利用与分享数据等一般性功能。但是,与大量生成数据的学科不同,人文学科的数据是基于人类文化、表达、互动和想象等的原始素材的数字化。同时,人文学者根据研究领域和特定问题对数据及工具的需求各不相同。这意味人文研究对数据基础设施有着基于领域的独特要求。因此,需要从人文研究领域视角对此类数据基础设施进行界定。


相关研究者对用于人文研究领域的“科研数据基础设施”有着不同的理解。McCarty强调,面向人文研究的数据基础设施应定义和实施人文学科的研究议程。Wuttke等指出,面向人文研究的数据基础设施包括支持在人文研究的所有过程(从研究、分析到归档、出版)中使用的数字方法和工具。夏翠娟认为,面向人文研究的数据基础设施侧重于数字人文研究基础设施的内容、数据和知识部分的组织和管理,是位于通用信息基础设施和特定领域研究之间的“数据中台”。


根据上述相关概念的辨析及人文学者的理解,本研究将“面向人文研究的数据基础设施”定义为:是以人文研究数据为中心,支持人文研究过程中数据保存、获取、重用乃至发表的一系列工具、系统、平台、软件及服务等的总称,以实现数据可复用、可关联及可聚合,从而为人文研究过程提供嵌入式服务。







_

3

相关研究


_


国内外学者们对面向人文研究的数据基础设施进行了广泛地探索,主要包括以下内容:


一是人文研究数据基础设施的“软建设”,包括管理与服务及建设框架等。部分学者从管理和服务角度出发,分析此类数据基础设施的运营机制及发展策略等内容,如Neuefeind等概述了四个机构(科隆大学人文数据中心、格拉茨大学信息建模中心、伦敦国王学院数字实验室及维多利亚大学人文计算和媒体中心)面向数字人文的数据基础设施的可持续发展策略;周雷概述了德国国家文化遗产科研数据基础设施建设项目NFDI4Culture的建设模式、核心问题及运行机制等内容。还有,部分学者基于相关理论提出了建设框架,如Blanke和Hedges从学术原语的角度分析伦敦国王学院一系列数字人文项目实践,以此提出人文研究基础设施建设框架;夏翠娟从“社会记忆”理论和“数字记忆”理论出发,构建了“多重证据参照体系”,并以“上海记忆”数字人文基础设施为例加以说明。


二是人文研究数据基础设施的“硬建设”,包括技术架构及模型等。国内外学者较多基于案例探讨此类数据基础设施的构建。Burrows选取以数据为中心的人文网络基础设施(Humanities Networked Infrastructure, HuNI)项目为例,创建出基于RDF三重存储的架构,以实现大量不同数据集转换为链接数据格式的聚合结果;Aloia等探讨了将ARIADNE(面向考古研究领域的数据基础设施)的目录数据模型(注册表模型)映射到元数据的基础模型CIDOCCRM的方法;赵生辉和朱学芳提出了数字人文仓储的架构模型,包括人文实体界定、领域本体建模及实体数字化采集与归档等模块;金家琴和夏翠娟设计出可复用、可扩展的机构知识本体模型和词表,并通过其在上海图书馆数字人文数据基础设施中的应用来加以验证。


此外,部分学者以某一领域、类型或地区的数据基础设施为对象,分析其元数据、标准、界面等特征。Gómez等基于Re3data.org探究了社会科学和人文学科数据仓储的元数据模式和标准;Sīle等调查了欧洲及以色列的社会科学和人文学科国家书目数据库并分析了这些数据库内容的全面性;Hansson和Dahlgren分析了ResearchGate Data、Humanities Commons CORE deposit及Harvard Dataverse等5个开放研究数据存储库的界面及元数据,并探讨了人文学科中的图像数据共享问题;颜佳等以面向数字人文的图像数据基础设施为对象,利用文献计量法分析其时间分布、科研合作网络分布及关键词分布等现状特征并进一步探讨了其发展趋势。


综上,本文基于Re3data.org的相关注册数据分析面向人文研究的数据基础设施的现状特征。区别于目前主要采用案例研究和文献计量分析数据基础设施建设情况,本文以Re3data.org为数据源进行定量分析;区别于以某地域或单个的数据基础设施为对象的研究,本文选取全球主要的面向人文研究的数据基础设施作为对象;区别于已有的集中于运行机制、技术及数据等某一层面的研究,本文从时间、地域、机构、数据类型、内容主题、技术应用、标准政策等多维度分析人文研究数据基础设施建设全貌。







_

4

研究设计


_


4.1  数据来源


本研究以Re3data.org中隶属于“Humanities”类目的RDI注册数据为数据源。选取该数据源的理由如下:


一是,从平台优势来看,与其他同类注册目录平台相比,Re3data.org是较“新”且增长速度较快的平台,其注册机制提供了注册对象的结构化描述,以便检索和细粒度分析。此外,“re3data-COREF”项目于2020年提出,旨在实现Re3data.org与其他科研基础设施和服务互联,促进其作为学术社区驱动的来源和参考,为科学界提供值得信赖的数据基础设施。


二是,从影响力来看,各资助组织、研究机构、出版社及期刊都推荐使用Re3data.org,如欧盟在《电子基础设施:使欧洲成为研究和创新的最佳场所》(E-Infrastructures: Making Europe the Best Place for Research and Innovation)及《地平线2020:科学出版物和研究数据开放获取指南》(Guidelines on Open Access to Scientific Publications and Research Datain Horizon 2020)中积极推荐研究人员使用Re3data.org保存数据。


三是,从研究对象来看,截至2022年4月26日,Re3data.org中的“Humanities”类目已涵盖了涉及语言学、历史、文学、艺术、哲学等人文学科领域的333个数据基础设施。而语言学和文学领域是传统人文研究迈向数字人文研究的开端。作为最早并持续投入于数字化和数据化工作的人文学科领域,以这些领域的数字档案、数据库、数据中心及知识库等数据基础设施为对象,能够在一定程度上揭示全球用于高水平人文研究的数据基础设施的现状特征。


4.2  数据获取及处理


本研究利用Python自编代码获取隶属于Re3data.org的“Humanities”类目的RDI注册数据。每一条RDI注册数据主要包括平台提供的四个板块的信息:①一般信息(General),包括RDI名称、学科及摘要等;②责任机构信息(Institutions),包括RDI所属机构的名称、机构所在国家及机构类型等;③条款信息(Terms),包括RDI使用的政策、数据许可及数据访问等;④标准信息(Standards),包括RDI采用的永久标识符、软件系统及数据接口等。截止2022年4月26日,共获取RDI注册数据333条。


Re3data.org提供42类属性(字段)用于描述RDI的建设现状。如表1所示,为了分析更聚焦,本研究从时间、地域、机构、数据类型、内容主题、技术应用和标准政策出发,选择以下数据字段。



_

表1   Re3data.org 的主要数据字段划分


_


由于获取的原始数据存在数据不完整及重复等问题,本研究借助Re3data.org的索引机制及统计功能,对原始数据进行补漏和去重等处理。其中,“Country”字段代表RDI的责任机构所在的国家、地区及国际组织。考虑到每个国家/地区/国际组织可能有多个机构参与同一RDI建设,本研究在该字段中对重复的国家/地区/国际组织名称只保留一个。此外,“Entry date”字段代表RDI在Re3data.org上的注册时间,并非其创建时间。本研究通过网站调研来获得创建时间(数字版本创建或上线的时间)。最终,本研究去除无法访问的RDI数据7条,用于分析的数据共326条。


本研究对上述数据中的关系数据和文本数据做了进一步处理,过程如下:


一是,合作关系数据处理:包括地域合作关系数据和机构合作关系数据。首先,在地域合作关系数据处理过程中,根据“Country”字段中的国家/地区/国际组织名称共现,本研究利用Excel建立合作矩阵。考虑到有11个国家不存在合作关系①,本研究在除去这11个国家后构建37*37的合作矩阵。其次,在机构合作关系数据处理过程中,本研究需要对机构名称进行规范化,包括:利用机构域名对机构名称进行统一并采用简称;将子机构归于上级机构;去除无法访问的机构。基于此,借助“Institution name”字段中的机构名共现,本研究仅采用存在机构合作关系的机构,利用Excel构建382*382合作矩阵。最后,将这两个矩阵分别导入Ucinet进行对角线归零处理,并利用绘图软件Netdraw分别构建了无向多值网络图。


二是,文本数据处理:一方面,根据二八定律确定高频词阈值,结合词频分布情况,本研究最终确定43个高频词(阈值≧5),累计占比19%。另一方面,构建词篇矩阵(第一行为数据基础设施编号,第一列为高频关键词,数值0表示该关键词在对应编号的数据基础设施中没有出现,数值1则表示出现),并将其导入SPSS中,采用Ochiia系数生成相似矩阵。为降低相似矩阵中较多0值给后续分析带来的影响,根据“相异矩阵=|相似矩阵-1|”,本研究将其转化为相异矩阵。


_


_


_

①分别为:南非、印度、新加坡、中国、墨西哥、秘鲁、塞尔维亚、日本、哥伦比亚、波斯尼亚和黑塞哥维那、阿根廷。


_


4.3  研究方法


本研究所采用的方法包括统计分析、社会网络分析及文本分析。根据数据基础设施的创建时间、所在地域、所属机构、数据类型、所用技术及标准政策等信息进行数据统计分析,以揭示面向人文研究的数据基础设施建设现状特征。为了使数据基础设施的地域及机构分布特征更为清晰地展现,利用社会网络分析法对地域及机构层面的数据基础设施合作建设关系进行可视化展示,并借助度数中心度识别网络中处于核心的国家/地区/国际组织及机构。此外,借助文本分析以可视化形式揭示数据基础设施的内容主题特征。







_

5

结果与分析


_


5.1  数据基础设施处于转型期


本研究通过网站调研获得295个数据基础设施的创建时间,并结合其注册时间和更新时间,得到时间分布结果(见图1)。


_




_
_

图1   创建 / 注册 / 更新时间分布

_


从时间分布来看,早期,面向人文研究的数据基础设施相继建立。自2012年Re3data.org上线以来,此类数据基础设施陆续完成登记工作,以提高其可见性,促进数据开放获取。近年来,这些数据基础设施保持更新,反映出其实现了可持续运营,为研究人员提供长期的数据服务。总的来看,此类数据基础设施由“创建”向“使用”转变,由建设数量增长向质量提升转变。


为了进一步明确人文研究数据基础设施所处发展阶段,本研究对创建时间进行深入分析,将其发展历程大致分为3个阶段:初始阶段(2006年前)、成长阶段(2006-2016年)、转型阶段(2017-2021年)。早期,图书馆、档案馆及博物馆等文化记忆机构陆续开展数字化工作,如1952年建立的国际音乐资源数据库(Répertoire Internationa ldes Sources Musicales,由各国家的图书馆和档案馆组成的独立工作组编目书面音乐来源)。直到2006年,《我们的文化共同体》(Our Cultural Common-wealth)及《欧洲研究基础设施建设路线图》(The European Roadmap for Research Infrastructures)相继提出。这促使面向人文研究的数据基础设施建设上升至国家(地区)发展策略。2010年,数字人文领域出现了“Computational Turn”(计算转向)。在这股热潮下,人文学者对计算方法的重要性的认知越发深刻,同时积极参与跨界合作研究,并批判性思考数据基础设施如何与人文研究议程协同。基于此,经过2011年的冷却期,建设观念由“重建设、轻使用”(we are building it and you will come)转变为以研究需求为中心,使数据基础设施的建设变得稳健。同时各国建设“蓝图”的创建或更新,加速了数据基础设施的建立,如2012年欧洲研究基础设施联盟(CLARIN-ERIC)的成立,加速了旗下诸如CLARIN-DK-UCPH Repository及CLARIN.SI Repository等数据基础设施的全面铺开。在欧盟《实现欧洲开放科学云》(Realising the European Open Science Cloud)及美国《联邦大数据研究与开发战略计划》(The Federal Big Data Research And Development Strategic Plan)等计划于2016年相继提出的背景下,自2017年以来,各国的建设重点由创建向整合转变,更多地侧重于将面向人文研究的数据基础设施接入到国家级或者全球性的科研数据基础设施中,以实现数据共享、知识融通和研究创新。值得注意的是,各国及国际组织所发布的相关战略规划对此类数据基础设施的发展起到推动作用。


5.2  欧美地区占领建设高地


326个数据基础设施建设涉及48个国家、地区及国际组织(见图2)。需要说明的是,Re3data.org中“欧盟(European Union)”是指数据基础设施的责任机构隶属于欧盟,与其成员国划分开来。欧盟旗下的机构与隶属于成员国的机构并不重叠,两者在数据基础设施建设中都作为独立的参与者。因此,在地域分布中,欧盟是一个作为整体参与建设的区域性国际组织。“国际组织(International”是指全球性国际组织。


_




_
_

图2   地域分布情况

_


从地域分布来看,德国、欧盟、美国在面向人文研究的数据基础设施建设方面实力雄厚,建设数量均超过50个。我国虽然积极推进人文研究数据基础设施建设,但成果在国际平台上的可见度较低,共建设4个数据基础设施(含港、台地区),分别为复旦大学社会科学数据库(Fudan University Social Science Data Repository)、香港科技大学数据库(Data Space @HKUST)、香港大学数据库(Data Hub Figshare)和台湾调查研究数据档案(Survey Research Data Archive)。


在326个数据基础设施中,37个国家/国际组织合作建设106个数据基础设施,如图3所示。


_




_
_

图3   地域合作建设网络

_


图3中的节点代表国家/国际组织,节点的大小代表国家/国际组织的合作次数(即度数中心度Degree),颜色代表所属国家/国际组织的所处大洲,节点间的连线表示国家/国际组织之间有合作关系,连线的粗细可反映合作强度。从地域合作网络来看,欧盟(Degree为62)及德国(Degree为48)在多方合作数据基础设施建设中表现最为突出,美国(Degree为36)、全球性国际组织(Degree为35)及英国(Degree为22)次之。此外,结合洲际分布,各国家之间的合作具有地域临近性,位于同一大洲的国家合作紧密。总之,各国在建设数量上呈现较大差距。德国、欧盟、美国及英国等欧美地区成为面向人文研究的数据基础设施的主导力量。为了提高国际可见度及影响力,我国需要加强国际合作,关联各国面向人文研究的数据基础设施。


5.3  结构化组织占据合作建设优势


382个机构合作参与建设226个数据基础设施,涉及高校、研究机构、基金会、GLAM机构、政府部门及企业等,如图4所示。


_




_
_

图4   机构合作建设网络(局部)

_


为了较清晰地展现网络结构,图4是由度数中心度排名前100且其值大于7的重要节点(共93个)构成的合作网络图。图中的节点代表机构,其大小代表机构的合作次数(即Degree),颜色代表机构所属国家的所处大洲。节点间的连线表示机构之间有合作关系,连线的粗细可反映合作强度。


从整体来看,网络结构上呈现出“核心—边缘”的特征,即以科研机构CLARIN-ERIC(Degree为153)为核心向外联结。CLARIN-ERIC作为CLARIN的治理和协调机构,通过与25个国家的高校、科研机构、图书馆和档案馆合作建设CLARIN系列数据基础设施,从而与德国研究基金会DFG(Degree为91)、法国国家科研中心CNRS(Degree为28)及美国国家科学基金会NSF(Degree为25)等重要支点直接连接,并形成了分布式的数据基础设施网络。与其他机构不同的是,CLARIN-ERIC经历了由相对较小的项目组织到具有专业治理模式的结构化组织的发展过程,并由此使得其能够统一协调及优化资金、人员及数据等建设要素的分配,进而扩大在该领域的影响力。


5.4  不同学科数据类型存在差异


根据Re3data.org的15种数据类型和学科分类,本研究利用SPSS工具,对人文学科下的二级学科与数据类型之间的关系进行交叉分析,得到如表2所示的结果。由于所有数据中期望计数<5的数据个数超过  20%,最小期望计数为0.46,因此本研究需要采用费舍  为0.000,小于0.05,说明不同学科领域的数据类型有显著差别。



_

表2   学科领域与数据类型的交叉分析卡方检验结果


_


为了更直观地揭示上述两者的关系,本研究通过对应分析以可视化的形式反映两者间的相关性,得出以下结果(见图5)。


_




_
_

图5   学科领域与数据类型的对应分析图

_


从图5来看,8个学科领域与15种数据类型分别散落于四个象限上。在第一象限上,历史学科(History)倾向于标准办公文档及图像(Images),神学(Theology)与科学统计数据及网络数据(networkbased data)靠近,非欧洲语言和文化、社会和文化人类学、犹太研究和宗教研究与数据库(Databases)及科学统计数据较为亲近;在第二象限上,哲学(Philosophy)与配置数据(configuration data)联系紧密,文学研究(Literary Studies)与归档数据(archived data)、结构化文本(structured text)及数据库较为靠近;在第三象限中,仅有语言学(Linguistics)坐落于此,与视听数据(audiovisual data)最接近,软件应用(software applications)、源代码(source code)及纯文本(plain text)次之;在第四象限上,美术、音乐、戏剧和媒体研究倾向于原始数据(raw data),古代文化(Ancient Cultures)靠近于原始数据及结构化图形(structured graphics)。总的来说,人文学科的各细分领域对不同数据类型的关注程度有所差异。这给跨学科领域的人文研究带来了诸如数据类型复杂、格式不一、整合困难等挑战。


5.5  三大主题成为建设热点


本研究将高频关键词相异矩阵导入SPSS中,选择多维标度功能,并用序数作为测量级别,采用欧式距离进行多维尺度分析,结果如图6所示。


_




_
_

图6   高频关键词多维尺度分析结果

_


此次分析的信度(Stress)值为0.126,效度(D.A.F)为0.928,即结果是可信有效的。从图6来看,当前此类数据基础设施的建设焦点大致可分为以下三类主题:一是技术主题(如子图1所示),主要分布了诸如语料库(corpora)、转录(transcription)及自然语言处理(NLP)等与技术应用及建设方法有关的词语;二是研究领域主题(如子图2所示),主要涵盖了诸如语言学(Linguistics)、文学(Literature)、考古学(Archaeology)、历史(History)等多个学科领域属性的关键词,而靠近原点的FAIR原则(FAIR)及多学科(Multidisciplinary)这两词从整体上揭示了人文研究的数据准则和特征;三是数据来源主题(如子图3所示),主要涉及诸如家谱(genealogy)、手稿(manuscripts)及古版书(incunabula)等关键词,而这些关键词反映出非结构化数据在人文研究中占据重要地位。从上述主题可知,人文研究涉及多学科数据和以非结构化数据为主。这使得能够提高人文数据质量的相关原则及技术受到重视。


5.6  技术应用助力开放共享


面向人文研究的数据基础设施的技术应用情况见表3。



_

表3   技术应用情况


_


在已明确使用的软件方面,人文研究数据基础设施主要以Dataverse、DSpace、Fedora、CKAN、MySQL、Eprints及DLibra等开源软件为基础。例如,复旦大学社会科学数据库基于Dataverse开展数据共享、交换、发现等服务。


在数据接口(API)方面,元数据收割协议(OAIPMH)使用最多,其支持元数据收割和下载;表述性状态传递(REST)次之,其是现实中Web服务限制更少的一种SOA形式,具有高效、简洁及易扩展性等特点。部分数据基础设施(33个)提供两种及以上的接口供用户根据需求及场景选择。


在永久标识符(PID)方面,最常使用的是数字对象标识符(DOI)系统,HDL(Handles)次之。各机构基于不同方面的考量选择PID系统,如DOI互操作性较好,而HDL数据隐蔽性较好。


从技术应用来看,开源软件使各数据基础设施依据自身需求进行二次开发,促进人文研究数据开放与共享进程;API可以实现数据基础设施互相关联,提升人文数据的可访问性,拓宽人文数据应用情境;PID促进人文数据的可发现、可溯源和持久性。


5.7  标准政策覆盖对象较广


在元数据标准方面,共190个数据基础设施对其所使用的元数据标准进行了明确的标注,包括以下14种类型(见表4)。



_

表4   元数据标准使用情况


_


从表4来看,一方面,Dublin Core及DataCite Metadata Schema等通用元数据标准被广泛应用。复用现有的较为成熟的元数据标准成为人文研究领域数据资源建设的主要方式。另一方面,由于人文研究数据具有多源、异构等特点,大多数元数据标准无法满足数据基础设施建设要求,所以部分数据基础设施选择按需定制元数据标准(Repository-Developed Metadata Schemas)。此外,随着研究数据发展到语义化阶段,部分数据基础设施也应用了资源描述框架(RDF),以揭示数据之间的语义关系。


在数据许可方面,人文研究数据基础设施都提供了数据访问许可,主要包括CC、Copyrights、CC0、Public Domain、ODC、Apache License2.0、BSD、OGL、RL及OGLC等。其中,CC(229个)及Copyrights(111个)较为常用。


在可信赖性认证上,仅58个数据基础设施具备认证,主要包括CoreTrustSeal、CLARIN certificate B、DSA、RatSWD、DIN 31644及ISO 16363等认证。其中,CoreTrustSeal可信数字存储库核心认证(46个)较为突出,其在原有的数据认可印章(DSA)认证和世界数据系统(WDS)定期成员认证基础上发展为明晰、全面的新认证体系。CLARIN certificate B(24个)次之,其是经过CLARIN中心评估委员会在以该数据基础设施是否具有稳定的技术和体制为导向的标准下审核合格后发布的认证。


在政策上,共304个数据基础设施提供了相关政策,主要包括以下类型:一是以科研数据为主的政策,如收集政策、保存政策及共享政策等;二是针对数据基础设施的政策,如访问政策、开放获取政策及用户指南等;三是关于法律道德方面的政策,如版权政策、隐私政策及研究行为规范等。


总之,面向人文研究的数据基础设施在标准政策方面覆盖对象内容较多,涵盖元数据标准、数据许可、可信赖性认证及相关政策。无论是数据基础设施还是人文数据,都可以依据标准政策进行规范化及可持续的管理。







_

6

启示


_


由上述分析可知,在面向人文研究的数据基础设施国际建设格局中,欧美国家、组织及机构占据优势。为了优化我国人文研究数据基础设施建设,并提高其国际影响力,本研究结合我国实际情况提出以下启示。


6.1  制定战略规划,转变建设方式


国际上面向人文研究的数据基础设施处于转型期,或将进入高质量发展阶段。随着以科研数据为主题的国家或国际组织战略规划的实施,各数据基础设施由以“建”为主向以“合”为主发展。以欧洲为例,欧盟发布了《欧洲研究基础设施路线图2021》并将“社会科学与人文开放云”(SSHOC)项目作为“新兴驱动力”。从2019年到2022年,该项目将分散孤立的数据基础设施集合为一个基于云的分布式数据基础设施网络,而CLARIN系列的数据基础设施也参与其中。可见,未来将有更多的数据基础设施实现互联互通,从而为人文研究提供良好的数据生态。


在我国,面向科研数据基础设施的战略规划还处于起步阶段。目前,我国以机构为单位或以项目为单位开展此类数据基础设施建设,存在重复建设、独立分散及共享程度低等问题。为此,需要制定面向人文研究的数据基础设施的国家级战略规划,统筹国家、领域及机构等不同规模的数据基础设施建设。考虑到建设完善的人文研究数据基础设施并非一蹴而就,可以参考《欧洲研究基础设施路线图》,编制数据基础设施建设的年度战略计划并保持更新。此外,考虑到国际上处于领先位置的国家及地区已迈向高质量发展阶段,我国需要转变建设方式,由“整合”转向“融合”,不仅仅关注数据基础设施之间的可访问,更要注重数据层面的开放共享,从而为人文研究提供分布式数据基础设施网络服务。


6.2  设立治理组织,促进多方合作


为了保障各机构及研究人员无障碍地参与进来,设立治理组织成为较多大型数据基础设施的重要举措之一。除了CLARIN-ERIC,DARIAH-DE(艺术与人文数字研究基础设施的德国节点)也提出“在第三阶段(2016-2019年)中将项目架构转向具有决策功能的结构化组织架构”。此外,全球Dataverse社区联盟(Global Dataverse Community Consortium)作为Dataverse的治理组织,吸纳了来自美国、德国及中国等国家的34所机构,以支持全球基于Dataverse建立的数据基础设施。这些数据基础设施的治理组织进一步促进了跨国家的数据双向流动、资源共享及对话协作。


目前,国内面向人文研究的跨机构合作组织较少,仅中国社会科学情报学会数字人文专委会和中国索引学会数字人文专委会与之相关。但针对人文研究数据管理及数据基础设施的合作仍相对不足。为此,借鉴国外组织治理经验,创建适合我国治理文化及环境的组织结构,如以国家政府部门为主导,协调GLAM机构、行业协会、研究机构及相关企业联合建立面向人文研究数据基础设施建设的协调部署中心,构建“国家地方/机构”多级治理模式;还可以在相关专委会下设立面向数据基础设施的工作组,整合数据、人员及资金等资源,促进多方合作。除了基于国内人文数据的内循环,治理组织应在积极参与国际数据基础设施合作项目、将我国数据基础设施登记于国际平台等方面加速人文数据的外循环。


6.3  借助技术手段,提高数据质量


当前,国际面向人文研究的数据基础设施涵盖多学科及多类型数据资源。为了促进人文数据跨网域及跨学科的获取与利用,较多的数据基础设施从技术层面提供了支持。例如,采用PID提高人文研究数据的可发现性;使用API提高人文研究数据的可访问性;利用开源软件加速数据交换与共享;借助自然语言处理技术实现非结构化数据向结构化数据转变。


在我国,相关机构已建立不少数字人文数据库、平台及工具,如上海图书馆的家谱知识服务平台、复旦大学历史地理研究中心主导的中国历史地理信息系统及华东师范大学主导的数字方志集成平台等。为了实现各平台互联互通,可以通过PID、API、自然语言处理及语义网等技术,促进人文研究数据的可复用、可关联及可聚合,从而使此类数据基础设施成为数字环境下跨学科融合、无障碍参与、可持续性的人文研究项目的“助推器”。


6.4  完善标准政策,保障长期运营


在国际上,标准政策在很大程度上促进了人文研究数据的管理,同时也保障了面向人文研究的数据基础设施的规范化运行。例如,元数据标准及数据访问许可提高了人文研究数据的可利用程度;可信赖性认证提升了用户对数据基础设施的信任。此外,部分数据基础设施的资助机构也将数据管理计划纳入资助要求,如NSF和NERC要求所有受资助方必须具有数据管理计划。


从标准政策来看,我国已发布《科学数据管理办法》及《中国科学院科学数据管理与开放共享办法(试行)》,为人文研究数据管理提供了一定的参考。但我国各资助机构、面向人文研究的专业协会、高校等尚未发布相应的数据管理政策或数据基础设施管理政策。我国需要加快推动各机构制定相关政策,政策内容需要对数据收集、数据保存、数据共享、数据基础设施使用、用户隐私等方面均有所体现,从而健全政策体系,保障面向人文研究的数据基础设施可持续运营。







_

7

结语


_


本研究不仅梳理了国际视野下针对人文研究的数据基础设施的建设概貌,对当前理论研究作出了补充;而且能够在一定程度上厘清人文研究数据基础设施的国际发展势态,为我国建设基于人文研究的数据基础设施提供宏观研判。但也存在不足,从对象选取来看,本研究仅以Re3data.org为数据源,但国际上面向人文研究的数据基础设施并非全都被Re3data.org收录。因此,在后续研究中,可考虑选取与Re3data.org同样具有代表性的数据源,补充相关数据,进一步提高数据的完备性,更全面地揭示国际上面向人文研究的数据基础设施建设现状。







_

*参考文献略,请详见原文。

_






END






版式设计

陆澜


制版编辑

卢慧质





关注公众知识状态 / 引领学科发展潮流

Focusing on the State of

Public Knowledge

Leading the Development Trends of

the Discipline



网络首发 | 赵志耘 科技赋能文化遗产数字化发展新业态

网络首发 | 姚清晨 黄璜:聊天机器人在公共部门管理中的应用研究综述

网络首发 | 李国新:推动普惠性非基本公共文化服务发展

网络首发 | Kindle 走后怎样:数字阅读的未来

网络首发 | 知识重组与场景再构:面向数字资源管理的元宇宙

网络首发 | 论加快构建中国特色档案学学术体系


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存