查看原文
其他

当期荐读 2020年第5期 | 面向人文社科专题数据库的数据云平台建设思考

刘雨农 等 信息资源管理学报 2022-04-24

图源:视觉中国



刘雨农 权昭瑄 吴柯烨 

(南京大学信息管理学院,南京,210023)


摘  要

基于人文社科专题数据库建设中的技术与知识协作瓶颈,探讨基于人文社科专题数据库的数据云平台建设思路。在分析人文社科专题数据云平台核心优势的基础上,定义了面向人文社科领域,包含Iaas、Paas、Saas三层架构,具备数据共享、数据采集、数据分析、数据存储、数据服务五大核心功能的数据云平台,同时设计了整合信息技术、机构协调、资源组织、外部数据、数据开放、专项服务团队在内“1+6+N”的云平台组织结构。


关键词

人文社科,专题数据库,云平台,云计算,大数据,数据共享



引 言

随着社会数字化转型的推进,经济、社会、人文等信息和数据资源得到空前扩展,数据过载已成为人文社会科学领域的新常态[1]。一方面,人文社科经过长时间的发展,各领域已经积累了大量极具开发价值的历史资料[2];而另一方面,研究范畴的粒度与广度也在信息技术的推动下得到进一步扩展[3],导致可开发数据在短期内激增。对于人文社科研究者来说,数据过载现象不可避免地在数据获取、保质、确权等方面带来诸多困扰[4],在此背景下,优质数据资源和精品化知识成为人们学习和研究的新指向。


专题数据库是一种面向特定领域、满足特色化需求的“精品”数据资源[5],相较于一般性综合数据库,由于主题明确、边界清晰,专题数据库在一定程度上能够缓解信息爆炸和数据过载带来的各类负面问题。当前,国内人文社科领域以高校、图书馆等公共性机构为主体,建立了大量专题数据库,并配套以相应的管理与服务系统,为人文社科领域专题数据资源建设提供了良好的范例。然而,在人文社科专题数据库的建设和运维工作中,普遍暴露出三个典型性问题:第一,“烟囱”开发。从整个人文社科全领域数据资源建设布局来看,各建库主体的数据建设表现为一种“烟囱”式架构。不同建设主体独立建设数据库、独立采购数据资源、独立开发相关应用服务,进而带来安全、运维、升级、部署等通用功能的重复开发和投入问题[6],这种开发的低复用率导致了巨大的资源浪费,限制了数据资源进一步深化拓展的潜力。第二,数据“孤岛”。由于当前专题数据库多由不同机构或机构联盟自行开发,面向各自的用户群体,采用不同的用户接口标准、数据标准和资源检索标准,缺少统一的数据管理流程及可靠的管理工具,跨库数据资源相对封闭,导致同一数据通常存在于多个系统内且内容不一致,无法进行统一的整合和利用,限制了数据库的功能发挥[7]。第三,建设门槛。与传统文献管理业务不同,专题数据库建设与维护涉及大量数据库开发与管理的技术和工具,具有较高的技术门槛和运营成本[8]。尤其对于公共图书馆等主要依托科研项目经费和公共财政支持,以资源优势而非技术优势为基础的建库主体而言,其压力可想而知[9]。面对人文社科数据增量与开发难度不断升高的形势,目前已有不少学者提出,人文社科专题数据库的建设正逐步进入新的瓶颈期[10]


云计算是一种基于互联网络,按需分配资源和服务的新型服务模式[11],近年来其衍生概念与技术已经在企业发展[12]和公共管理[13]中得到了广泛运用。在人文社科领域,云计算同样引起了广泛的讨论,大量研究开始关注其在人文社科专题数据资源建设方面所带来的全新机遇[14]。詹庆东在大学城图书馆联盟平台的规划设计中,将专题数据建设纳入Saas层的建设内容,并建议各成员图书馆以项目建设的形式完成数据收集和深度标引工作[15]。刘瑞等也提出了在CALIS三期工程云计算理念下,整合民族高校图书馆的特色资源,建设基于云端的特色数据库[16]。这些研究虽然未能展开论述具体的内容设计,但已经清晰地提出云计算+专题数据的建设理念。随着国家数字推广工程的逐步深入,专题数据库的云平台建设逐步由理论走向实际。童忠勇详细介绍了国家数字图书馆2018年初正式开展特色资源云平台的建设成果,对平台的架构设计和功能实现两方面进行了细致的阐述[17]。基于已有研究成果,本文认为未来专题数据库云平台建设工作与研究仍需要进一步关注两个重要问题:第一,专题数据云平台如何适应人文社科特殊的学科特征与数据特点;第二,平台建设过程中,如何定义各个参与机构间的相互关系。


对此,本研究基于云计算及相关理念,构建一种面向人文社科的专题数据资源开发与管理体系,意图将分散在不同专题数据库的资源整合起来,通过统一的集成平台面向终端用户开展各类数据服务。


1  人文社科专题数据开发需求分析

与云平台建设可行性

一般而言,采用云计算技术搭建的数据平台具有硬件基础架构廉价、资源利用率高、软件可用性高[13]等固有优势。随着当前人文社科专题数据库建设逐步进入新的瓶颈期,本文结合人文社科数据资源特点和专题数据库建设现状,探索利用云计算优势解决人文社科专题数据库现实需求的可行性。


1.1

开发成本控制需求

数据库产品的开发不仅需要承担硬件环境搭建等信息化建设费用,还需要组建相应的技术团队进行长期运维。由于人文社科大量学科和专业主要以公共性或学术性为导向,缺乏直接的经济效益和创收能力,因此,相关的各类专题数据库若要实现可持续发展,就必须尽可能分摊高昂的基础设施建设成本。云平台建设模式能够有效契合人文社科专题数据库开发主体的成本控制需求。由于平台建设和运维工作均由专业云服务机构负责,专题数据资源的建设单位只需要为其使用的储存能力、计算能力等支付少量的租赁费用,就可以实现平台功能的充分使用。此外,该模式能够大幅降低其在人力、带宽、技术设施等方面的成本,使有限的资源得以向数据建设倾斜,进而从侧面提高人文社科专题数据的质量。


1.2

资源优化配置需求

当前,人文社科领域数据资源存量丰富,各地图书馆、文献中心均存有大量特色性资源。但是,对于人文社科领域的某一特定专题而言,持有相同数据资源或以相同专题进行数据开发的主体在数据体量、数据质量、用户构成、需求程度等方面普遍存在区别。不同主体间协作过程中在资源分配优化方面存在客观需求。而云计算技术由于采用了动态的资源调度机制,能够为人文社科数据资源配置优化提供有效的工具。以分布式资源调度程序(DRS)为例,云平台通过对资源利用率的持续监控,不断调整平台资源容量,根据不同需求的优先级顺序,对资源池中的可用资源进行智能分配,保证任何虚拟机对资源的正常访问,从而实现了整个系统资源的有效管理。


1.3

复杂数据处置需求

除了经济、社会统计等数值型数据外,人文社科数据资源更多以文本、图像、音频、视频等形式呈现,其价值开发必然涉及自然语言处理、图像智能识别等复杂技术,在存储、计算等方面提出了更高的需求,并直接影响到数据资源的开发与利用能力。云计算是当前建设面向复杂数据格式,提升专题数据库建设主体数据利用能力的重要手段之一。数据存储方面,云平台是全网服务,几乎综合了全球终端的“云”提供的容量,不再局限于一台或者几台服务器之间,所以在某种程度上可以说云计算的存贮是永无止境的[18],而极高的速度与无限的容量使不同数据建设机构开展协作成为可能。在数据计算方面,在云端搭建的数据平台由于采用分布式架构,能够根据需求分配大量的计算资源和网络资源,同时也能根据学科或专题特点提供数据挖掘、数据计算、数据可视化等算法和工具,进一步提升了各主体的资源利用能力。


1.4

数据一体化需求

数据一体化是大数据分析的基础,也是未来人文社科相关智慧化服务的必然需求。数字人文与社会计算等前沿课题必须在大体量、细粒度、标准化的数据资源基础上进行。然而,在人文社科领域,许多专题数据库在过去通常被视作特色资源,以反映地方历史文化并服务特定的用户群体。因此,在较长时期内各建库主体更加强调对特色数据的占有,对专题数据资源的存储、加工和利用通常比较独立。随着大数据时代的到来,数据开放共享、数据价值挖掘等理念获得广泛认同,人文社科专题数据库分布的“孤岛”格局显然限制了其进一步开发的潜力。基于大数据的人文社科专题数据云平台要求将分散在不同机构的相关数据进行分享和集中,并通过统一的元数据标准进行组织和整理,能够为构建专题数据一体化格局,为大样本数据计算、分析和处理提供基础。


2  平台架构与功能

一般而言,云平台的技术架构分为三个部分,分别是基础设施即服务(IaaS, Infrastructure as a Service)、平台即服务(PaaS, Platform as a Service)和软件即服务(SaaS, Software as a Service)。其中,设施层,由各类基础设施资源组成,包括服务器、存储设备、网络设备、计算设备等,目的在于为平台提供稳定、安全、高速的运行环境;实践层,各个资源建设单位可直接调取相关设备与软件,不需要额外支付购置和维护费用,进而大幅降低硬件成本;平台层,主要提供包括运维管理、安全管理、应用设计在内的解决方案和开发工具,使分散的数据库资源整合与开发合作更为便捷;软件层,主要提供通过浏览器接入平台的窗口。平台终端用户可根据不同类型和标签对数据进行分类浏览,平台也会在终端用户授权下根据其使用习惯和数据语义关联推荐相关内容。对于明确的数据需求,平台提供数据检索和数据下载渠道,实现了各类多源跨库数据的综合统一检索和获取,见图1。



基于上述架构设计,人文社科专题数据云平台需具备面向B端(参与机构)的数据共享、获取、存储功能和面向C端(终端用户)的服务功能。


2.1

机构数据共享

针对同一主题不同建设主体各自建设导致的数据关联性低、后续开发重复建设风险大等现实问题,平台提供专题数据共享功能,以打通各个专题数据库建设单位数据渠道。由于信息不对称的降低,不同建库主体不仅能对已有专题数据资源存量进行互相补充,也能在数据后续的利用和开发过程中避免重复。此外,建库主体可通过将数据集上传至平台,供更广泛的用户群体浏览、下载和使用。与此同时,平台通过精准记录各个数据集的实际使用情况,按照预设的权重与标准,计算参与单位的实际贡献,并在年终进行平台收益分配。


2.2

公开数据获取

保证数据的长效更新是专题数据库实现可持续发展的重点任务之一。在人文社科领域,各建设单位的基础资源除各类统计数据外,还拥有大量历史性资料,但可更新内容有限,更新速度较慢,必须依托互联网从更高维度开拓数据获取渠道。对此,平台应提供深网爬虫功能,对专题领域的高价值实时数据进行自动化、批量获取。具体而言,基于互联网的各类公开数据获取渠道,设定核心关键词并抓取相关信息,形成各建设单位原始数据之外的数据集。例如,网络舆情信息是当前人文社科领域重要的数据来源,通过爬虫程序获取微博、微信等主流自媒体中与专题相关的内容,可实现对相应社情民声相关数据的持续洞察,为用户进一步拓展传统专题领域的研究范畴。


2.3

数据存储与访问

打破当前各专题数据库独立存储、管理分散的格局。通过分布式文件系统,将多个存储设备集合并协同工作,为专题库建设单位及其用户提供统一的数据存储和访问功能。此外,存储系统还应包括数据监管和保护功能。具体包括:第一,对于不同类型的用户提供不同级别的访问控制;第二,对部分敏感数据提供数据脱敏处理;第三,全面监控数据质量,对残缺、重复、错误数据做到准确识别与及时更正。


2.4

专题数据服务

专题数据服务是指以专题数据为基础,以需求为导向,面向终端用户和特定场景开展的各类服务活动。从宏观角度来看,数据服务可包含专题数据检索、专题数据分析、专题数据推荐三种。专题数据的检索与获取是最基础的服务内容,即用户按照一定检索规则,根据自身需求输入一定的检索条件,系统通过对数据库的匹配,返回符合检索条件的数据结果,并以API形式供上层应用调用;数据分析是指对特定数据集的潜在价值进行挖掘和呈现,其中既包括对数据表层特征进行的数理统计,也包括对数据内在价值的深度开发;专题数据推荐是指平台系统通过记录用户检索、浏览等使用行为,推测用户偏好,同时结合数据内容不同标签,利用特定关联算法与分类算法提供数据资源的高精度主动推送。


3  平台组织管理设计

高效和稳定的平台管理团队是云平台的可持续发展的基础。本文初步构建了平台1+6+X三层组织结构,如图2所示。其中,平台由统筹工作组进行统一管理,根据平台系统架构及功能,下设六个业务工作组。各类图书馆、商业数据库供应商、社科研究单位等相关数据的持有单位作为成员机构,依据特定协议,以分享自有资源的方式参与平台建设。需要强调的是,成员机构同平台管理单位并非一般意义上的层级关系,而更接近一种委托代理关系。各个机构投入数据等资源,委托平台管理机构负责平台的基础建设、资源协调、日常运维和长期发展等工作,并支付相应管理费用。



3.1

信息技术工作组

信息技术工作组主要承担各类软硬件设施的建设、管理、维护和优化。在平台建设阶段,工作组主要负责中心机房以及各类应用服务系统、平台门户系统的开发与建设。当平台搭建完成后,工作组重心转向提供持续的维护管理服务。具体包括以下四个方面:第一,平台的持续监控,对线上故障进行及时的排错和处置;第二,持续优化系统性能,提升系统响应速度,包括网络优化、操作系统优化、应用系统优化等;第三,优化流量调度,根据容量和服务状态分配接入流量;第四,安全保障与维护,包括管理用户访问权限、系统安全威胁和风险评估、恶意攻击防护和处置等。


3.2

机构协调工作组

云平台的建设初衷是将分散在各个成员单位的各类资源综合管理,提升数据的利用效率。因此,在平台建设初期各成员单位的自有资源依然是平台最主要的数据构成。对此,需建立专项工作组协调不同资源单位的利益协调问题。该工作组的主要职能包括数据确权与价值评估两个方面。具体而言,针对成员单位数据共享带来的知识产权、资源投入、收益分配、人员流动等一系列问题,平台拟采用“数据入股”的发展方式,即成员机构通过向平台提供相应数据的方式置换平台部分股权。平台部分面向市场的业务所获收益通过“股权”对成员单位进行经济激励,以此实现对数据贡献方的贡献价值。在此过程中,工作组负责制定相应权责规范,确定各类数据所有权,评估数据价值,对成员单位的贡献进行科学量化。


3.3

资源组织工作组

资源组织工作组主要负责数据整合与标准化组织。当前人文社科领域大量专题数据库由于独立建设导致各个成员机构自有数据组织标准不一,而广泛采集的外部半结构、非结构化数据格式与标准更加繁杂,因此,在最终的数据产品正式发布前必须对内、外部数据进行有序的组织和整合。资源组织工作组的具体工作包括联合目录的建立与整理、数据资源的规范设计、数据库的质量控制等,其工作核心和难点在于建立元数据著录管理系统。总体来看,著录的内容结构包括元数据名称、定义、标识、元数据修饰词、必备性、可重复性、著录范例等,具体内容根据专题领域的内容特征与数据特征进行调整和细化。


3.4

外部数据工作组

负责对与专题相关的第三方公共数据集进行采集和组织。对于人文社科领域来说,第三方数据获取主要包括数据捐赠、数据采购、数据爬虫三种途径。数据捐赠是指通过号召与激励政策,将分散在民间个体中与专题领域相关的数据资源通过捐赠的方式进行统一汇总和展示。例如中国家谱、族谱作为中国特有的文化遗产,涵盖大量历史学、人口学、社会学、民俗学指示,对中国家族演化和家族文化研究具有重要意义。此类数据通常由家族独立个体保管,若形成规模性专题资源必须号召数据持有者进行捐赠。数据采购则是利用平台发展经费实现数据有偿获取。在数据开发成本和数据使用价值逐步提升的趋势下,数据资产化已获得普遍认同。部分与经济活动相关或具有巨大经济开发价值的数据资源往往需要通过商业行为来获取。对于部分无法一次性达到直接采购条件的数据资源,也可暂时通过架设平台门户和数据商链路的方式实现数据获取。数据爬虫是大数据时代最重要的数据获取手段,目前技术与范式已相对成熟。值得注意的是,对于未开放API的数据资源,要在批量获取的同时注意包括知识产权在内的各类法律风险,保证数据获取的合法性。


3.5

数据开放工作组

人文社科与社会生活具有较高的关联,具有一定的公共属性。因此,平台建立数据开放工作组,通过开展一系列公益性的活动,来实现人文社科的公共价值,打造平台品牌,拓展平台的社会影响力。


具体而言,平台数据开放工作组的主要工作包括两个层面:第一层面即面向公众的数据公开与展示,满足普遍性的数据需求。数据开放意味着打破人文社科的长期以来封闭的数据“孤岛”,对人文社科领域数据的利用、知识普及、推动多领域的发展具有积极意义。在实际工作中,数据开放需要特别注意两个关键问题:一是数据非歧视,公众对于开放数据拥有查找、获取、拷贝、使用的权利;二是开放授权,由于平台数据来源广泛,需要对数据权属关系和开放条件等方面进行细致规范。第二层面即不仅要开放数据资源本身,还要进一步开放基于数据的二次加工产品。例如在专题领域范畴内,针对社会热点问题,以平台开放的公共数据资源为基础,进行一部分特色化、浅层次的专题研究,并撰写相关评论文章或形成高质量智库报告等。


3.6

专项服务工作组

不同于面向公共价值的数据开放工作组,专项服务工作组主要聚焦于专题领域的专项需求分析和产品设计。其工作对象主要集中于具有特殊需求的个体,即通过开发特定的数据产品,开展相应的数据服务,满足目标业务方对专题领域具体底层数据的需求。专项服务具有良好的经济前景,是平台的可持续发展的重要保障。但需要注意的是,相关业务环节的建立是一项具有挑战性的工作,对人文社科专题领域和数据分析技术两方面同时提出了较高的要求。这就需要整合成员机构的职能、业务与用户,以专题领域数据资源优势为基础,在市场、技术、工具、人才等方面循序渐进地进行拓展。


4  结 语

本文基于当前人文社科专题数据库发展的主要问题,提出了一种面向特定专题领域的云平台的建设思路,在分析其核心优势的基础上,从技术架构、功能实现、管理模式三个角度丰富了云平台的建设内容。我们认为,云存储、云计算等技术能有效契合人文社科数据的特点,具有较为广阔的开发前景,不仅能够连通人文社科各个专题长期以来的数据“孤岛”,更能为国家新文科战略提供有力支持。


值得注意的是,人文社科专题领域的数据云平台相关技术虽较为成熟,但在开发过程中依然面临众多挑战,其中安全性问题首当其冲。由于所有数据储存于云端,领域内敏感和机密性数据存在非授权使用和泄露的风险。根据国家互联网应急中心发布的《中国互联网网络安全报告》,云平台已成为网络攻击的重灾区。因此,需要在平台运营管理的过程中,不断完善平台安全防护措施,同时提升用户的数据安全意识。在接下来的研究中,我们将重点从安全性着手,不断优化完善云平台架构,进一步扩展平台的可靠性。



作者简介


刘雨农,博士研究生,研究方向为网络舆情、社会网络, Email:liuyn15@outlook.com。

权昭瑄,硕士生,研究方向为金融大数据, Email:qzx666dbx@163.com。吴柯烨,硕士生,研究方向为自然语言处理, Email:wky961221@163.com。


参考文献



*原文载于《信息资源管理学报》2020年第5期,欢迎个人转发,公众号转载请联系后台


* 引用格式

刘雨农,权昭瑄,吴柯烨.面向人文社科专题数据库的数据云平台建设思考[J].信息资源管理学报,2020,10(5):48-54.

制版编辑 | 王阿凤


当期目录 | 2020年第5期

当期荐读 2020年第5期 | 学术出版:功能的异化、回归与建构

论文荐读 2020年第4期 | 信息搜索任务难度研究述评

论文荐读 2020年第4期 | 医疗数据隐私泄露容忍度的计量分析

论文荐读 2020年第4期 | 社交网络使用会影响用户心理健康么?——一项元分析研究

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存