当期荐读 2020年第3期 | 科学学大数据研究的机遇与挑战
by 图虫创意网
陈云伟1,2 曹玲静1,2
(1 . 中国科学院成都文献情报中心 科学计量与科技评价研究中心,成都,610041 ;
2. 中国科学院大学经济与管理学院图书情报与档案管理系,北京,100190)
摘 要
在阐述科学学大数据概念的基础上,论述了科学学大数据研究的五大机遇:数字化数据与新工具日益可用,揭示科学发现过程与规律,解析科学结构、关系与演化特征,分析科学活动、科学家行为与职业生涯,为科技评价与技术预测研究提供科学的工具;提出了科学学大数据分析面临的五大挑战:基于科学学大数据的科学结构分析方法仍不成熟,科学计量与评价的新方法、新理论、新算法亟待开发,科学学大数据分析平台与工具相对较少,整合多元数据的技术手段尚不成熟,科学学大数据揭示规律的普适性仍需检验。
关键词
科学学大数据, 科学学, 科学计量, 科技评价, 科学结构
当前,大数据正在人类社会的各个方面发挥越来越重要的作用,成为重塑世界格局、创造人类未来的主导力量之一[1]。大数据概念一经提出,便在战略层面上引起世界各国的高度重视,并在各个领域迅速得以广泛使用。大数据的典型分类可以分为经营与交易大数据、社交媒体大数据、智能移动终端产生的数据、机器和传感器产生的数据,以及与科学相关的科学大数据[2]。
近年来,随着数字化信息的易获取性以及科学学研究的持续深入,越来越多的来自计算机科学、自然科学与社会科学等领域的科学家纷纷涌入科学学研究领域,不断提出新理论、新方法,开发数据分析新工具与新软件,并拓展应用领域。在此过程中,用于支撑科学学各种实证分析和生成模型研究的大数据不断涌现,数据来源不断拓展,数据质量持续提升[3]。笔者曾在2019 年科学计量与科技评价天府国际论坛上提出科学学大数据的概念,阐述了利用科学学大数据开展科学学研究的相关问题。本研究目的是基于当前科学学研究及其所利用数据的发展现状,对科学学大数据研究面临的机遇与挑战进行初步的探讨,希望能引起相关学者展开深入的讨论,共同促进科学学的发展。
1 科学学大数据的概念
贝尔纳最早创立了科学学,其著作《科学的社会功能》是科学学的奠基之作[4],之后发表的《在通向科学学的道路上》中开篇即提出无需给科学学一个刻板的定义。国内外许多学者对科学学有着不同的阐释,例如,Fortunato 等指出,科学学能够揭示不同空间和时间尺度的科学主体之间的相互作用,挖掘特定领域的科学结构和普遍规律,其目标是服务促进科学研究的政策和工具[3];文庭孝等从计量的角度出发,认为科学学是服务于科研管理与决策的学科,主要通过科学计量手段来研究科学技术的发展规律和科学研究的活动规律[5]。本文认为,科学学是从不同空间和时间尺度来揭示科学发现过程和科学活动规律的学科,可以分析科学结构、预测科技趋势、发现科学前沿,服务于科技政策制定、战略规划部署、科技管理以及相关社会问题等工作。本文进一步将用于科学学研究的数据定义为科学学大数据,具体包括贯穿科学研究全过程的有关科学生产活动的基金、论文和专利等科技文献数据,科研主体的合作、引用、流动等网络关系数据,以及学者背景数据、科研行为信息、科研工具软件数据、科研新媒体数据等,这些数据为开展科学学研究提供了广泛的数据基础。
科学学大数据概念提出的意义在于激发计算机科学、复杂系统科学、数学和社会学等领域的科学家开展科学学研究并进行广泛的合作;引导各领域的理论和方法交叉融合,并开发新的数据分析平台、工具与软件;拓展数据的来源并提升数据质量,为科学学研究提供新思路和新手段;克服基于小规模数据开展科学学研究结果鲁棒性不足的缺憾。
2 科学学大数据研究的机遇
当前,数据作为生产要素的特征日益鲜明,已逐步成为科技创新价值链中的重要元素。白春礼指出,大数据是科技领域的又一次技术变革,掌握了大数据核心技术就掌握了信息“制权”,系统分析这些源源不断的大数据,可驱动对新的科学规律的认识和新的科学现象的发现[1]。那么,开展科学学大数据研究,对指导建立科技政策体系、改革科技项目管理机制、施行科学的考核评价方法、激发科学家的创新活力等都具有重要意义。随着科研主体、科研经费、科研产出、科研活动、科研合作、下载引用和学者流动等信息的数字化,数据可用性日益提高,为科学学研究提供了前所未有的机会,也为科学学大数据研究带来了重大机遇。
2.1 数字化数据与新工具日益可用
当前,可支持科学学研究的数据源越来越多,数据质量越来越高。除了最为常用的 Web of Science(WoS)、Scopus、PubMed、CNKI等论文数据库外,Derwent Innovations Index(DII)、Incopat、Innography、Relecura等专利数据库也均汇集了全球主要国家和地区专利组织的专利信息,并提供了各具特色的分析工具和算法,成为开展技术创新分析的重要大数据来源。这些科学学大数据源通常涵盖了与国家、机构、科研单元、团队、科学家、发明人及论文或专利成果有关的概念和主题词所形成的数以千万计的数据节点,蕴含着丰富的合作、引用等多类型网络,成为开展科学学研究的重要基础数据保障。同时,Elsevier、Springer 等数据库也不断丰富自身的检索、统计与分析功能,提供数据使用信息,支撑替代计量学研究。自然出版集团也于2014 年11 月推出自然指数(Nature Index)数据库,基于82 个高质量科学期刊的文章作者隶属机构信息,采用论文计数和分数式计数等方法对全球科研机构、高校以及国家进行排名,在机构、国家和地区层面提供近乎实时的高质量研究成果和合作信息[6]。此外,arXiv、bioRxiv 等预印本数据库,ResearchGate、academia.edu等科研社交网络网站,Publons等同行评审报告网站,NSF等基金数据库,也都成为科学学研究的重要数据来源。
得益于数学、物理学、计算机科学、复杂系统科学、自然科学和社会科学领域越来越多的科研人员进入科学学研究领域,与科学学广泛
采用的定量方法高度相关的理论、理念、数据、方法、算法和模型不断涌现,如网络科学方法、文本挖掘方法、数据挖掘方法、机器学习算法、信息可视化方法、数学模型和计算机模拟算法等。以网络科学方法为例,Boccaletti 等指出,与因特网和电网等现实世界网络一样,科学系统也是可以利用复杂网络方法来建模的理想系统[7],不同之处在于节点是作者或论文等与科学系统产出相关的元素。因此,学者研究科学学大数据的典型网络包括二分网、单节点网络以及多层网络,其中以合作网络和引用网络研究最为广泛[8]。
新的商业和开源工具也大量涌现。例如,在社团划分工具方面,莱顿大学的Waltman和Van Eck 在集成SLM 社团划分算法的基础上,开发出了CitNetExplorer软件[9],并随着实际应用情况不断改进完善。最近,他们将SLM算法改良为Leiden algorithm (莱顿算法)[10],成为基于引文网络社团来揭示科学结构的重要工具。此外,常用的工具还有CiteSpace、VOSviewer 和 Sci2等软件。
2010 年以来,随着科研人员对替代计量学研究兴趣的逐渐加大,自媒体(如微博和博客等)、在线文献管理系统(如Mendeley 和CiteULike等)、社交媒体(如Facebook和 Twitter等)、知识库(如GitHub、Figshare、Slideshare、Vimeo、YouTube 等)、专业领域数据(如arXiv和 Dyrad 等)、出版商的统计指标和评论 (如PLoS 和BioMed Central 等)已成为替代计量学研究的平台或工具[11]。此外,还出现了专 门为开展替代计量学研究而构建的替代计量学聚合系统,如 Altmetric.com、Impactstory、Plum Analytics 等[12]。
2.2 揭示科学发现的过程与规律
科学学大数据对研究科学发现的过程和规律提供了强有力的数据支撑,可以揭示科学发展背后所隐含的内在规律,有助于深入理解和促进科学发展的各种因素,从而指导政策制定者更有效地利用政策工具,以更优的方式和路径来推动科学研究的蓬勃发展,丰富解决资源、环境、生态、社会、经济和安全等关系到人类生存和社会可持续发展等重大科技问题的手段。
首先,借助网络分析法所蕴含的结构和演化信息,可以揭示新发现、新理论、新学科、新方法以及新规律的诞生和演化过程。例 如,Schummer 借助纳米领域学者合作关系网络,发现经典学科研究学科交叉潜力更大,并归纳总结了学科交叉研究中存在两种合作模式,即相同等级学科之间具有强烈对称联系的合作和以一个学科为主导的具有不对称联系的合作[13]。然而,Zuo 等对信息科学、公共政策和神经科学三个跨学科领域中100 多家学术机构的 2500 名研究人员的 9 万篇论 文 分 析 发现,拥有多学科的机构未必就拥有更高的合作关系[14]。这说明当我们利用合作网络这一常用方法来开展学科交叉研究时,对研究结果的解读还需客观严谨。
其次,利用文献产出的时空分析,能够揭示科学中心的迁移规律。例如,Czaika 等通过分析 Scopus 数据发现,全球科学家流动的重心和科学知识生产的重心都在逐年向东方国家迁移,二者的年均迁移速率分别为70 公里和130 公里[15];王雪梅等利用 WoS 和 ESI 数据分析了全球地球科学研究活跃中心的时空变化特征发现,世界地球科学研究中心也呈现出由西向东迁移的特征[16]。
第三,通过对科学学大数据的多角度分析挖掘,可发现科研活动的创新规律,揭示推动科研发展背后的内生动力,进而提出可供政策制定者参考借鉴的促进科技进步的政策工具。例如,Wu等通过研究1954—2014年间的论文、专利和软件数据后发现,较小的团队更倾向于提出新思想和新技术等颠覆性创新,而较大的团队则倾向于发展现有的思想和技术,即小团队比大团队更能做出颠覆性创新[17]。该研究结果表明,大团队和小团队对于科技生态系统的蓬勃发展都至关重要,科技政策制定者和基金资助部门应在持续支持大团队的同时,也要给予小团队强有力的扶持。这或将引发相关科技管理部门思考未来应当如何根据研究目标和使命组建最适合的科研团队。
2.3 解析科学结构、 关系与演化特征
随着重大科技问题的复杂化,科学研究开始从学科分化向学科交叉综合转变,致使学科边界变得日益模糊,进而越来越难以清晰地认识科学结构。所谓科学结构,是长期形成的、固有的、不以人们意志为转移的客观存在[18],是科学内在逻辑的外在体现,反应在科学的门类、学科以及知识结构中[19]。虽然科学的内在本质是客观不变的,但是外在表征却随着人类对科学认知的不断加深而逐渐演化,故如何有效地解析科学结构、关系和演化特征对探索学科演化、发现新兴学科、挖掘前沿方向具有重要价值。在此过程中,数字化的科研产出大数据为其提供了前所未有的契机。例如,Gates 等[20]从WoS数据库中提取了1900—2017年间论文的参考文献,其包含着近 7 亿引用关系,研究结果表明,所有学科都出现了学科交叉性的增长且没有放缓的迹象;随着研究人群、科研论文以及知识的增加,不同学科会变得愈来愈融合;研究机构以及资助单位应该意识到,学科交叉正在成为主流。
2002年Girvan等首次提出“社团”(Community)概念时,就利用 GN 算法揭示了圣塔菲研究所1999-2000 年间的271 位科学家合作网络的社团结构[21]。最近极具代表性的是鲁汶大学 Glanzel 团队的工作,他们将文献间基于词的关系与基于文献耦合的关系结合到一起研究科学结构,结果证明了这种方法在揭示研究领域结构上的有效性[22]。社团划分研究基于广泛的科研产出数据通过对关联节点进行聚类,能够客观形象地揭示科学结构、关系和特征,故在科学学研究中逐渐受到关注。网络分析法是较早应用于社团划分方法进行科学结构研究的方法,能从微观角度利用网络的内部结构刻画不同节点之间的关系。近年来,科学家借助文献数据构建相关网络(如合作网络、引文网络等)进行科学结构研究已成为科学学研究的热点领域之一。相较于合作网络,引文网络能够更加细粒度地揭示科学研究之间的关系,更准确地呈现科学结构和发展过程[23]。例如,Chen 等以生物化学和分子生物学领域在100 多年时间内的文献数据为研究对象,构建了引用关系网络,揭示了核心学科演化过程[24]。
2.4 分析科学活动、 科学家行为与职业生涯
随着科学学大数据变得越来越容易获取,众多科学学领域的研究人员围绕有关科学家开展科学活动等科学行为数据、就业和职业选择等科学家流动性数据,展开了各种各样、有趣的有关科学家行为与职业生涯规律的研究。例如,Sugimoto 等基于2008—2015年间1600万名科学家发表的1400 万篇论文分析了科学家的全球流动性发现,自由流动可使科学家影响最大化,而限制科学家的流动将损害科学体系[25];Wang 等通过分析世界各国科研人员一天当中下载论文的时间分布情况发现,科学家通常没有周末,没有上下班时间的明确界限,各国科学家的工作、生活习惯也存在明显差别[26];Zeng等[27]以美国物理学会(APS)提供的所有期刊1893—2010 年的48 万篇论文为研究对象,发现了作者研究主题的转变动力学规律及驱动因素。结果表明,近年来科研人员转变研究主题变得愈发频繁;职业生涯早期频繁转变研究主题对总体科研产出有不利影响,而职业生涯后期转变研究主题的影响则刚好相反;不论在职业生涯什么阶段转变研究主题,总体上都会降低科学家个人的论文平均被引频次。巴拉巴西的著作《巴拉巴西成功定律》[28]一书中收录了多项他和他的团队基于科学学大数据开展的有关成功学规律的研究,利用海量数据和完全可重复的分析方法,揭示了成功也存在可复制、可总结的普适定律。
从以上几个例子可以发现,有关科学家行为和活动规律的研究多以较大时空跨度的大数据作为数据基础。然而,对单个科学家整个职业生涯 的大时间跨度的流动性研究较少。这种现状给科技政策制定者带来一个选择性难题,即如何利用基于大数据分析获得的普适规律来个性化制定针对小群体或个体发展的政策。理论上,对社会学研究而言,基于科研院所人才结构及人员流动信息等科学学大数据开展研究,可以预测人才流动趋势,引导科技管理者提前出台匹配政策和规划来进行干预,从而达到吸引人才、留住人才的目的。此外,学者通过对就业信息、求职信息等科学学大数据分析,可以发现并预测热门职业,为求职者提供参考。但在个体层面,学者如何有效利用科学学大数据获得的研究成果指导科学家职业生涯规划,仍然存在极大的挑战。
2.5 为科技评价与技术预测研究提供科学的
工具
2018年7月,中共中央办公厅、国务院办公厅印发了《关于深化项目评审、人才评价、机构评估改革的意见》,对构建符合科学规律的新型科学计量与评价方法提出了极为紧迫的需求。然而,科学研究的复杂性使国家、机构、科学家和项目的科研表现很难被客观地计量和评价,科学结构也很难被准确刻画。随着大数据时代的到来,受益于自然科学家、计算科学家和社会科学家的大量合作,人工智能、机器学习等新型方法和模型已越来越多地进入科学计量与科技评价领域,为我们基于科学学大数据分析来开展多种科技评价工作提供了有力的工具。以人才评价为例,当前的人才评价体系中存在评价结果难以客观全面反映人才科研能力与水平问题。例如,王运红[29]等构建了科技人才全景信息数据评价模型,以期较为全面地反映科技人才的综合实力。
科学学大数据支持技术预测研究。海量的信息中蕴藏着丰富的知识,若能挖掘其中隐含的规律,则将有助于知识发现、预测发展趋势、帮助决策制定等。学术界普遍认为,论文、专利等科技文献数据承载了相关技术领域科学研究和技术创新活动的大量信息,因而对科学文献或专利文献进行计量分析,可以实现对技术的有效预测。例如,Buchanan等[30]基于专利大数据,提取具有潜在颠覆性的技术特征,开发出了适用于科学密集型颠覆性技术的预测原型工具。基于科学学大数据的预测在社会生活中也随处可见,例如,Lash 等在2016 年基于多种来源的影视数据,利用社会网络分析和文本挖掘技术,来预测电影的盈利潜力,以支持电影制作早期阶段的电影投资决策[31]。
3 科学学大数据分析面临的挑战
基于上述分析可见,已有利用科学学大数据开展的众多研究,或以全新的思路来开展科学学研究,或拓展了传统科学学研究视角,为深入开展科学计量学、信息计量学、科技评价、科技政策与科学学等研究提供了新的工具和手段,拓宽了科研人员的研究范畴,提升了研究结果的解释性,增强了对科技政策的支撑效果。但由于大数据的类型多样、数量庞大等特点,用于科学学大数据分析的方法、模型、指标和算法仍相对匮乏,围绕科学学大数据的研究依然面临着极大的挑战。
3.1 基于科学学大数据的科学结构分析方法
仍不成熟
合作网络和引文网络是用户分析科学结构的主要手段,然而当前多数相关研究只是对单一节点类型网络(如仅以作者或论文为节点的同构网络)开展研究,而对具有多种节点类型或多种关系的混合网络(如网络中同时包含作者和论文两种或两种以上类型的节点、或网络的边涵盖了合作、引用或主题相似等两种或两种以上的关系)研究较少。在科学结构的实践研究中,需要在网络中不断加入更多关系,构建包含丰富语义的混合关系网络,甚至将不同节点类型的网络混合在一起进行考虑,提升解读学科领域的科学结构的能力。
3.2 科学计量与评价的新方法、 新理论、
新算法亟待开发
科学计量学是科学学的定量方面[32],属于科学学的方法研究领域[33],随着科学学大数据的日益丰富,也为科学计量与科技评价研究提供了更广泛的数据来源。丰富的数据就意味着要有丰富的研究方法和研究理论与其相适应。因此,需要在传统的科学计量和评价方法的基础上,形成新的计量与评价方法、针对科学学大数据的替代计量学方法、面向科学学大数据挖掘的复杂非线性网络分析方法,开展以学科领域数据系统描述建模与知识发现为核心的学科信息学[34]、基于多源数据融合与关联的科学演化规律等理论研究。同时,需要在学科领域的业务实践中广泛开展实证应用研究,结合领域专家意见对结果进行综合分析,验证相关算法或模型的效果,不断丰富科学学研究成果。
3.3 科学学大数据分析平台与工具相对较少
与丰富的生产经营、互联网和科研大数据分析平台和工具相比,成熟完备的科学学大数据分析平台还非常少见。在实际的科学研究过程中,学者依旧普遍依赖论文、专利和基金数据库以及替代计量学网站中的数据开展研究,其中论文和专利数据库相对发展比较成熟,记录数据和评价指标的一致性和规范性较好,而替代计量学网站以及各类与科学活动相关平台的数据缺乏统一规范,评价标准较为模糊,缺乏一致性,也就降低了分析结果的权威性。另外,从分析工具角度来看,目前可用的商业或开源软件在面临大量级的科学学大数据时,通常都显得力不从心,如果再要执行相对复杂的算法运算,则是普通计算机很难完成的任务。此时,如何构建集成通用算法的大量级的科学学大数据的平台则显得异常重要。
3.4 整合多元数据的技术手段尚不成熟
当前,有关科学学的大多数研究都是利用相对较小的数据,部分研究虽然利用了在时间和空间尺度的大规模数据,但也仅是基于单一类型数据的分析。为了能全面挖掘科学学问题,揭示科学结构、发现科学规律、探讨职业生涯、开展科技评价,科研工作者需要建设集成不同来源、不同类型且深度关联的大规模多元数据的科学学大数据集,以便减少研究过程中的不确定性,从而更深入地挖掘科学研究行为与规律背后所隐含的深层原因。目前在实际的研究过程中,相关科学学大数据的整合、分析、处理手段尚不完善,在构建多元科学学大数据集时,面临着实体消歧与融合、多元关系融合等实际难题。
3.5 科学学大数据揭示规律的普适性
仍需检验
科学学研究人员热衷于利用科学学大数据挖掘和揭示适用于各个科学领域、各类科研主体的普适规律和特征。然而,实践表明不同国家、不同地域、不同文化、不同学科领域的差异都会对科学研究行为产生不同的影响。例如,张玉华[35]等通过对高影响国际期刊的自引情况进行分析发现,我国期刊的自引率偏高,或可说明国内期刊作者相对比较封闭。温芳芳[36]以SSCI 和 CSSCI 论文作为样本数据, 采用社会网络分析方法研究了中外情报学合作模式,发现国外的合作程度高于国内,国外合作关系以业缘关系为主,即学者之间开展合作研究的主要原因是具有共同的研究兴趣和方向;而国内合作以亲缘关系为主,即合作者要么是师生关系,要么是同事关系。因此,在实际应用的过程中,对于科学学大数据揭示的规律应当辩证地看待,了解其先决条件和发生环境。
4 展望与讨论
越来越多且可利用的科学学大数据为深入开展科学学研究提供了广泛的数据基础,科技政策与科技管理对数据的需求也日益增强,在促进科学学研究的同时,科学学大数据本身也迎来了重大发展机遇。然而,需要指出的是,海量的科学学大数据还存在如何高效存储和高效读取的问题、信息来源的可信度问题、数据的全面性问题、数据质量问题、等等。海量的科学学大数据很难通过人工进行加工、标引、处理和分析,自动标引、加工、整理、分类、统计、挖掘和分析则尤为关键,特别是面对文本、图表、图像等各类非结构化数据时,科学学大数据分析还需借助人工智能和自动化工具。
仅就当前研究最为广泛的科技文献大数据而言,学者利用全文本挖掘理念和手段,从文本中抽取科学实体和主题,并通过知识图谱的方式进行关联、表达和推理,将有效提升科学学大数据分析的深度和水平。但同时也带来数据量的倍增,关系复杂度提升,对分析方法提出了更高的要求。随着人工智能、自动化和高性能计算技术的逐步发展,这种以提升知识组织深度和精细度的研究方法有望日益完善。
需要科学学研究工作者考虑的问题是,能活跃在文献出版领域以及科研社交媒体空间等科学环境中的大多数科研工作者一定程度上都是在学术上取得一定成功的群体,只不过个人的影响力存在差异,学术成果的数量和质量各不相同,也就是说,这些科学学大数据往往是成功的案例,而这些成功者失败的经历[3],以及那些始终未得以获得这种成功的所谓“失败者”(那些没有科研论文产出也未加入科研社交网络的广大群体),我们如何去观察和分析他们则是一个难题。
致谢: 在2019 科学计量与科技评价天府国际论坛期间的“科学学大数据分析机遇与挑战”热点对话环节中, 陈悦、杜建、胡正银、 贾韬以及在场互动的学者分享了很多有关科学学大数据的思考和观点, 这些观点无不对本文的形成产生了深刻的影响, 在此表示特别的感谢。
作者简介
陈云伟,男,博士,研究员,硕士研究生导师,研究方向为科学计量与科技评价,Email:chenyw@clas.ac.cn。
曹玲静,女,硕士研究生,研究方向为情报理论和方法。
参考文献
*原文载于《信息资源管理学报》2020年第3期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
陈云伟, 曹玲静. 科学学大数据研究的机遇与挑战[J] . 信息资源管理学报,2020,10(3) :11-17 .
制版编辑 | 王小燕