当期荐读 2020年第1期 | 国外健康科学数据管理实践及启示
Photo by Choi Ben on Unsplash.
赵安琪1 付少雄1 ,2 冯亚飞1
(1 . 武汉大学信息管理学院,武汉,430072; 2. 哥本哈根商学院,丹麦,DK2000)
[摘要]
[目的/意义]国外健康科学数据管理实践实现了健康科学数据的高效利用并促进了开放科学的发展,总结国外实践能为国内健康科学数据管理提供借鉴和启示。[研究设计/方法]基于科学数据管理能力成熟度模型和健康科学数据生命周期理论,构建了健康科学数据管理框架,从健康科学数据的管理计划、采集与评价、组织与保存、共享与再利用四个方面分析了国外健康科学数据管理实践。[结论/发现]国外基金委、科研机构和图书馆将健康科学数据管理计划提交设为科研项目的必要环节,数据安全保护是国外健康科学数据管理的重要议题。基于国外成熟经验,本研究从加强基金委与科研机构层面的健康科学数据管理计划制定、完善健康科学数据采集与评价体系、依托地方/高校图书馆建设健康科学数据仓储、权衡健康科学数据共享利用与数据安全间关系四个方面对国内健康科学数据管理实践给予建议。[创新/价值]将科学数据管理能力成熟度模型引入健康信息学领域,弥补了图书情报领域对于健康科学数据管理理论和管理实践研究的不足。
[关键词]
健康科学数据 科学数据 数据管理
健康科学数据管理框架 实践体系
1
引言
国务院办公厅2018年印发的《科学数据管理办法》明确了科学数据采集、汇交与保存、共享与利用、保密与安全等方面的原则[1]。科学数据是指产生于科技活动过程中的基础性原始数据和衍生数据集[2]。健康科学数据包括基础研究、应用研究和试验开发等产生的生物医学研究数据(例如基因组测序技术)、通过观测监测和检验检测等获得的临床数据(例如患者记录和临床医师文档)、健康统计数据(例如死亡率和利用率)和私人患者数据(例如体育数据和保险数据)等[3]。健康医疗领域信息系统的普及使得健康科学数据呈现爆发性增长、数据结构多样、数据价值密度低等特征,如何科学高效地进行健康科学数据管理成为学者们关注的重点[4]。《“十三五”卫生与健康科技创新专项规划》着重推动卫生健康领域科研数据、科技资源和科学实验设施的开放共享和创新利用[5],国家卫生健康委员会发布《关于卫生健康领域科技体制改革试点工作的通知》,将健康领域科技资源开放共享作为试点的主要内容之一[6]。健康科学数据具有高度的科研价值、社会价值和经济价值,高效的健康科学数据管理能够最大限度地挖掘其潜在价值,助力数据密集型科学研究,促进开放科学发展和健康中国建设。
为促进科学数据的高效管理,国内学术界已展开了相关研究,主要集中于:①总结国外图书馆科学数据管理经验及图书馆员科学数据素养的培养模式[7,8];②梳理科学数据管理的研究进展[9]或实践体系[10];③讨论科研数据管理具体阶段的实施情况,例如科学数据管理计划的应用[11]、数据选择与评价的关键要素[12]、数据共享过程中的隐私保护[13]等。国内针对健康科学数据管理开展的研究较少,部分学者基于全生命周期视角调查了我国健康科学数据的管理现状[14]或者调研国外开放医学科学数据平台的建设现状[15],但缺乏对国外健康科学数据管理实践的全面总结,且较少探讨共享与再利用阶段数据安全保护与道德问题。美国、英国、德国等国家在健康科学数据管理方面的实践可为国内健康科学数据管理提供先进经验[16]。因此,本文基于科学数据管理能力成熟度模型和健康数据全生命周期理论构建健康科学数据管理框架,总结国外在健康科学数据管理计划、采集与评价、组织与保存、共享与再利用方面的实践,以期为国内健康科学数据管理实践提供参考。
2
国外健康科学数据管理实践
基于Watts Humphrey等人提出的能力成熟度模型(Capability Maturity Model, CMM),Kevin Crowston等人总结了以往文献中的科学数据管理实践,并于2012年提出适用于科学数据管理实践的能力成熟度模型,该模型描述了科学数据管理所必需的四个关键过程以及各个过程对应的实践,其中四个关键过程是数据采集与评价、数据描述与表示、数据存储与保护、数据传播[17]。本文结合健康科学数据全生命周期理论,在能力成熟度模型的关键过程中加入了健康科学数据管理计划制定过程,并将“数据描述与表示”和“数据存储与保护”两个关键过程融合为“数据组织与保存”,数据传播是实现数据共享与再利用的过程,最后基于健康领域的具体实践完善了各个过程的目标和实践,从而构建了健康科学数据管理框架,如图1所示。
健康科学数据管理框架包括四个关键过程:①健康科学数据管理计划(Data Management Plan, DMP)的制定是健康科学数据管理的核心,指导各阶段的数据管理实践;②健康科学数据采集与评价需要在考虑数据质量、完整性和科学性的基础上制定标准,以便下一阶段的数据组织与保存;③健康科学数据组织根据资源类型对数据进行归档和存储,通过应用元数据规范与计划、执行数据迁移或建立健康科学数据仓储(Data Repository, DR)等方式有计划地组织数据,以实现健康科学数据的长期保存;④健康科学数据共享与再利用是健康科学数据管理的最终目标,通过设计数据接口、提供多种访问渠道等方式使用户便捷地获取健康科学数据,并有条件地共享健康科学数据。
2.1 健康科学数据管理计划
健康科学数据管理计划主要用来记录科研机构或科研人员采集、组织、存储、保护和共享健康科学数据的整体规划和具体措施,主要内容包括健康数据类型与数据格式、健康元数据与文档记录、健康科学数据描述方法、短/长期存储、知识产权保护、开放共享范围等[18]。
国外有关基金委和科研机构要求研究者在申请健康类科研项目时,必须提交健康科学数据管理计划,例如美国自然科学基金委员会(National Science Foundation, NSF)规定,所有的项目申请书必须包含科学数据管理计划[19]。此外,基金委和科研机构也会提供多种服务,协助研究者制定健康科学数据管理计划,包括普及相关规定和政策、提供计划制定指南、设计管理计划模板等。例如,美国国立卫生研究院(National Institutes of Health, NIH)资助高校图书馆开展科学数据管理计划,促进健康数据的科学管理与共享[20];NIH下设的美国国家癌症研究所提供了用于癌症预防药物开发计划的数据管理计划模板,要求研究者提交包括研究目的、责任归属、科研人员培训、数据采集、数据处理等方面的信息[21];英国医学研究理事会(Medical Research Council, MRC)基于数据的描述与采集、管理与记录、保存与安全、分享与获取,以及责任划分等多方面设计了健康科学数据管理计划模板[22]。
为适应开放科学发展,国外图书馆将健康科学数据服务纳入业务范畴,以增强社会服务能力,拓展生存空间。指导用户撰写健康科学数据管理计划是其重要服务内容之一,国外图书馆通过制定计划模板以规范过程,利用教程视频、讲座培训等方式指导制定方案,推荐计划制定工具以简化工作,例如匹兹堡大学健康科学图书馆根据NIH基因数据共享政策的要求,制定了健康科学数据管理计划模板[23];印第安纳大学图书馆在生命科学领域提供数据管理服务,建议使用美国加利福尼亚数字图书馆开发的数据管理工具DMPTool(Data Management Planning Tool)撰写健康科学数据管理计划[24]。医学健康类图书馆推荐的辅助工具还包括英国数字监管中心开发的DMPonline[25]、昆士兰大学开发的网络数据管理工具(Online Data Management Planning Tool,ODMPT)[26]等。
2.2 健康科学数据采集与评价
健康科学数据采集与评价指相关机构依据健康科学数据采集与评价标准,判断是否收录新的健康科学数据集或销毁旧的健康科学数据集,本质是依据价值对科学数据进行筛选[27]。参与采集与评价的主体主要有健康科学数据管理机构、管理者和创建者,其职能如图2所示。
健康科学数据管理机构从格式规范、数据要求、采集流程、审核方式等多方面规定了科学数据采集与评价规范,具体实践如表1所示。关于格式规范,综合性健康科学数据管理机构没有严格限定数据采集格式,特定健康领域的机构通常会对通用格式给予建议,例如癌症影像档案库(The Cancer Imaging Archive, TCIA)采集癌症医学图像数据的格式主要为医学数字成像和通信格式(Digital Imaging and Communications in Medicine, DICOM);关于数据要求,各个健康科学数据管理机构均明确了数据标准,例如ClinicalTrival.gov要求数据创建者根据机构标准自行检查数据的有效性、一致性等;关于采集流程,“提交—审核—发布”是常规的健康科学数据采集流程,TCIA和ClinicalTrial.gov在遵循此流程的基础上补充了与机构自身特性相一致的要求,而国际临床试验注册平台(International Clinical Trials Registry Platform,ICTRP)和先天性异常流行病学监测登记网络(EUROCAT)再次强调了数据标准和数据质量,并向科研人员提供了数据提交的网站或工具。
2.3 健康科学数据组织与保存
健康科学数据组织与保存的主要目的是维护数据的完整性,减少物理性损失,以及避免数据篡改、丢失等情况的发生。作为健康科学数据开放存取的基础设施,健康科学数据仓储能够建立合理的数据组织体系和安全的数据保存机制,直观地向科研人员展示数据内容和特点。为了解健康科学数据仓储的发展,本文对科学数据仓储注册系统(Registry of Research Data Repositories, Re3data)进行了调研。Re3data收录的科学数据仓储数量庞大且分类科学细致,在国际上受到广泛重视。在Re3data目录中输入关键词“health”进行检索,返回了513条结果,其中16个为国际健康科学数据仓储,31个为欧盟健康科学数据仓储。从图3可以看出,美国注册健康类科学数据仓储321个,排名第1,发布数量占总数的62.57%;注册数量仅次于美国的大多是欧洲国家,如英国(45),德国(36),瑞士(18)等;中国仅注册健康类科学数据仓储2个,分别是国家基因库生命大数据平台和遗传流行病学模拟数据库。
本文综合考虑健康科学数据仓储的权威性、领域影响力、数据组织的规范性等,筛选出10个具有代表性的仓储,并根据Re3data中提供的注册信息总结了各个仓储的特点,如表2所示。10个具有代表性的仓储分别是:①国际临床试验注册平台(ICTRP)是全球科学界、私营部门和社会部门等共同建立的临床试验注册平台;②HealthData.gov旨在提高政府健康科学数据的利用价值,促进公众健康的发展;③癌症影像档案库(TCIA)包含癌症患者的医学图像和支持数据,并以集合的形式组织图像数据;④ClinicalTrials.gov存储了208个国家和50个地区的298,222项临床医学研究数据;⑤Project Tycho :Data for Health收集了世界各国国家卫生机构的健康数据,数据集高度标准化;⑥疾病预防中心(Centers for Disease Control and Prevention, Data & Statistics,CDC)存储包括健康统计数据、紧急情况与灾难、环境卫生、健康生活等方面的相关数据;⑦先天性异常流行病学监测登记网络(EUROCAT)在23个国家设置有43个登记处,采集和存储先天性异常流行病的相关数据;⑧全球健康观测数据仓储(Global Health Observatory Data Repository)存储了包括死亡率、环境卫生、易流行疾病等50多个卫生议题的数据集;⑨Nord-Trondelag Health Study整合了约12万人的个人健康数据和家庭健康数据;⑩Research Data Centre of the Robert Koch Institute提供全国范围的健康监测数据,鼓励异常生物事件预防的相关研究。
健康科学数据仓储根据健康科学数据特征与仓储自身特性,通过提供数据服务工具、完善数据审核模式、规范健康数据引用过程等组织与保存健康科学数据。以上10个代表性健康科学数据仓储有如下特点:关于仓储类型,学科类仓储较多,机构类较少;关于数据类型,健康科学数据资源类型比较丰富,其中存档数据、原始数据、科学统计数据等较多;关于数据开放,大多数健康科学数据仓储均为开放型,部分为限制型开放;关于数据许可,10个健康科学数据仓储均在其服务里提供了附加说明信息、使用条款和许可、以及明确的数据政策;关于数据规范,TCIA等少数仓储设计有DOI(Digital Object Identifier)等永久标识符,以保证数据的统一性和被引的科学性。
2.4 健康科学数据共享与再利用
健康科学数据管理的最终目的是促进科研成果向健康知识、健康产品和人类健康改善类应用方面转换。健康科学数据共享与再利用是促进数据生命周期良性循环的关键步骤,也是健康科学数据管理的最终目标。此外,健康科学数据在共享与再利用时应着重考虑健康科学数据的特殊性,在不违背道德伦理的基础上做好安全保护工作。
2.4.1健康科学数据开放共享
健康科学数据的开放共享主要由政府、科研机构和图书馆等三方推动,其中政府从政策层面促进健康科学数据开放、科研机构从实践层面积极支持健康科学数据开放、图书馆等社会力量从服务层面助力健康科学数据开放。
(1)政府推动健康科学数据开放共享。国外政府越来越重视开放科学发展,将健康科学数据开放共享纳入国家整体发展框架之中。对欧盟研发框架计划资助的健康项目成果实施开放获取是欧盟健康科学数据开放的基本策略。例如,欧洲研究与技术发展第七框架对能源、环境、健康、信息与交流技术等7个领域的科研成果提出开放存取的政策要求;欧洲药品管理局(European Medicines Agency, EMA)公开征询关于开放临床医学健康数据政策的建议[42]。美国也启用癌症“登月计划”首个大型基因组数据共用数据库共享基因组和临床数据,用户可访问超过3千兆字节的基因组数据以及来自主要医学项目的32,500多个案例[43]。
(2)科研机构支持健康科学数据开放共享。为避免科研数据丢失、提升科研成果影响力、扩大合作规模等,科研机构积极支持健康科学数据共享与利用。首先,科研机构制定健康科学数据开放资助政策、汇交政策和共享利用政策等,强制推动健康科学数据的开放共享。例如NIH要求其资助的科研项目必须将成果在其发表一年内提交至国家医学图书馆(PubMed Central,PMC)的知识库。此外,科研机构大多发布了数据共享政策以支持健康科学数据开放,例如英国医学研究理事会的《MRC数据共享政策》。其次,科研机构在日常工作中积极推动健康科学数据共享,例如欧洲科学基金组织(European Science Foundation, ESF)基于对生物医学领域科学数据开放状况的调查,指出要促进生物医学领域的科学数据组织,加强国际开放数据仓储建设[44];耶鲁大学开放数据获取项目倡导临床研究数据的责任分享,支持改善患者健康和公众健康的研究[45]。最后,科研机构重视与其他医疗健康机构的合作,共同推动健康科学数据的共享,例如杜克大学的杜克临床研究所(Duke Clinical Research Institute, DCRI)与SAS公司(Statistical Analysis System)合作,为全世界的研究者提供数据管理和分析工具,并开放杜克大学健康系统采集的50,000多个心血管患者的数据[46]。
(3)图书馆等社会力量助力健康科学数据开放共享。华盛顿大学健康科学图书馆在其官网上提供了包括华盛顿大学、联邦机构、NIH等[47]多方机构的数据共享政策;马萨诸塞大学医学院图书馆创建了eScholarship@UMMS管理平台,推动科学数据的长期保存和共享[48];美国药物研究制造商、欧洲制药工业和协会联合制定了责任临床试验数据分享原则(Principles for Responsible Clinical Trial Data Sharing),号召加强与研究者间的医学临床试验数据的共享;英国惠康基金会发布了《数据管理和共享政策》,强制实施学术成果的开放获取,并且核实、评估和监督数据共享工作的实施[49]。
2.4.2健康科学数据安全保护
相较于其他类型科学数据而言,健康科学数据中包含了大量的医学数据,且多是以人类为对象的试验数据,更多地涉及隐私保护和伦理道德问题。部分医疗机构在开展科技活动的过程中违反了相关法律,例如深圳华大基因和复旦大学附属华山医院未经许可传递人类遗传资源信息、苏州药明康德公司未经许可将5,165份人类遗传资源(人血清)违规出境等,均受到了科技部的行政处罚[50]。在法律和道德的约束下,健康科学数据在开放共享过程中应充分保护知识产权和个人隐私,注重数据安全保护。
健康科学数据开放共享过程中通常采用匿名化(对能够识别出个体的潜在信息进行匿名化或去标识)、权限控制(控制用户获取健康数据的权限)、数据加密(对数据划分秘密等级)等方式保证健康科学数据的安全性。关于匿名化,NIH在数据共享政策中强调,健康科学数据共享前要去除标识符以使数据匿名化,在共享临床试验结果时应仔细阅读知情同意文件[51]。关于权限控制,英国癌症研究中心数据共享和保护策略规定,涉及个人数据的医学研究必须设置监管权限,共享时应遵循相关伦理道德和法律制度[52];澳大利亚国家健康与医学研究理事会联合其他理事会,发布了《澳大利亚负责人研究行为编码》文件,强调保护健康科学数据机密性的重要性,并指出科学数据的获取必须建立在安全存储的基础之上[53]。关于数据加密,英国医学研究理事会根据英国政府安全分类系统,将健康科学信息划分为官方、官方-敏感、秘密和绝密4个级别[54]。
从以上实践可以看出,科研机构高度重视健康科学数据的开放与安全问题。除此之外,高校在健康科学数据的共享与再利用方面的规定更加详细。例如,麻省理工学院对人类受试者数据和医疗健康数据实行限制性开放,科研人员开放人类受试数据时应向人类被试委员会提交开放共享计划,开放健康数据必须遵循HIPPA隐私规则(Health Insurance Portability and Accountability Act)[55];斯坦福大学限制了医疗健康数据的共享,在共享数据之前需要对包含潜在标识信息的敏感数据进行修改,共享健康科学数据也必须遵守HIPPA隐私规则[56]。
3
国外健康科学数据管理实践对我国的启示
“健康中国2030”已被确立为国家战略,对健康科学数据管理提出了新的要求。本文在对国外健康科学数据管理实践进行深入调查分析的基础上,从健康科学数据的管理计划、采集与评价、组织与保存、共享与再利用四个关键过程,总结了国外健康科学数据管理的实践经验。结合国内健康科学数据管理现状,本文对国内提升健康科学数据管理水平的建议如下:
3.1 加强基金委与科研机构层面的健康科学数据管理计划制定
全国哲学社会科学规划办公室、国家自然科学基金委员会应当从指导政策、管理模式角度推动健康数据管理。关于指导政策,社科与自科基金委员会所资助的健康类科研项目从立项到结项皆较少要求资助项目提交健康科学数据管理计划,其可参考英国医学研究理事会制定的健康科学数据管理计划模板[57],对健康科学数据全生命周期进行质量控制。健康科学数据管理计划的实施既能提高科研项目的实践意义,也能保障科学数据的高效利用。关于管理模式,国内科学数据管理政策多停留在宏观层面,需要针对每一具体类别的科学数据管理进行细分,健康相关科研机构应根据健康数据管理的切实需要,例如中国医学科学院医学信息研究所、高校医学部、地方医院等机构对国务院《科学数据管理办法》进行分领域和学科的细化,确立健康科学数据采集、汇交与保存、共享与利用、保密与安全等方面的原则。
3.2 建立完善的健康科学数据采集与评价体系
健康科学数据采集与评价体系的建设能够减少主观因素对数据采集和评价的影响,提高健康科学数据的质量和管理效率。国外健康科学数据管理机构已从格式规范、数据要求、采集流程、审核方式等多方面规定了采集与评价规范,例如ClinicalTrials.gov要求健康科学数据创建者根据数据采集与评价标准自行检查,数据管理者会在创建者提交后检查数据的有效性、逻辑和内部的一致性,并判断价值等[58]。国内健康科学数据采集与评价体系的建设还处于起步阶段,健康科学数据管理机构应制定健康科学数据采集与评价的政策和标准,并为数据采集与评价提供资金、人才等方面的支持;健康科学数据管理者应参与健康科学数据采集与评级标准体系的制定,连接数据创建者与管理机构;健康科学数据创建者应根据机构的规定和标准提供高质量的健康科学数据,保证原始数据的科学性和完整性。
3.3 依托地方/高校图书馆建设健康科学数据仓储
相较于欧美等国家健康科学数据仓储建设现状,我国健康科学数据仓储数量明显不足,亟需加强健康科学数据存储基础设施的建设。国外图书馆已参与到科学数据平台的建设,例如美国加利福尼亚数字图书馆开展了科学数据存储与共享利用项目[59,60]。同时,经过调研,国内健康医疗机构间的健康科学数据缺乏合理共享,重要原因之一便是缺乏健康科学数据仓储的建设。地方/高校图书馆应依托卫生部发布的《基于居民健康档案的区域卫生信息平台技术规范》与《基于健康档案的区域卫生信息平台建设指南》,借鉴国家人口与健康科学数据共享服务平台的建设经验,加强健康科学数据仓储建设。在健康科学数据仓储建设初期,应对管理标准进行确立,避免机构间数据共享时的异构性问题。此外,由于经济利益和相关法律缺失等原因,仍存在健康科学数据所有权问题的争议,导致大量数据的价值不能实现[61,62]。因此,还应建立合理的补偿机制,不断完善法律法规,对健康科学数据权属进行界定。
3.4 权衡健康科学数据共享利用与数据安全间的关系
区别于一般科学数据的开放共享,健康科学数据开放共享应建立在保障国家人类遗传资源、用户隐私、数据安全等方面的基础上,但国内当前缺乏健康科学数据管理的安全级别与保障体系。对于安全级别,我国应从政府层面划分符合我国国情的健康科学数据管理的级别,例如参考英国医学研究理事会将健康科学数据管理分为官方、官方-敏感、秘密和绝密四个级别[63],从而加强健康科学数据管理的顶层设计;对于保障体系,健康科学数据的共享利用可综合国务院《人类遗传资源管理暂行办法》等规定,且参考《国际信息安全管理体系(ISO/IEC27001:2013)》、《信息安全等级保护管理办法》等进行安全认证。此外,国内可面向健康科学领域建设专门的数据安全保护管理体系,例如参考美国个人健康信息的隐私安全法律保护法案(HIPAA)、欧盟委员会发布的《通用数据保护条例》[64]等,将个体敏感健康数据包括生物识别数据、健康/性取向/性生活相关数据、基因数据等纳入相应的安全保护体系。
参考文献
*本文原载于《图书情报知识》2019年第1期第105-114页
版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。
制版编辑 | 姚志臻
END
当期荐读 2020年第1期 | 情报学领域人工智能相关研究的文献计量分析及探析
当期荐读 2020年第1期 | 信息行为领域选择性暴露研究: 视角、方法、动向
当期荐读 2020年第2期 | 图情专家谈新冠疫情:专稿刊发及征稿启事