挖矿 | Nature150周年专题——我们分析了100多年来的8.8万篇《自然》论文,这是它们构成的世界
The following article is from Nature自然科研 Author Nature自然科研
小图按:2019年是Nature周刊创立150周年。图书馆“资源深度推广计划”(挖矿)计划推出一系列文章来纪念Nature150岁生日,帮助大家了解世界顶尖学术期刊的过去、现状与未来。本计划预计由10篇文章组成,5篇转载文章分别介绍Nature的起源、Nature与中国等,后5篇文章介绍登上Nature封面故事的高水平研究成果,分成IT与人工智能、生物与医学、人文与社会等。
原文作者:Alexander J. Gates, Qing Ke, Onur Varol & Albert-László Barabási
为《自然》150周年纪念撰写的一篇分析指出,和以往相比,现在的科研论文所参考的资料来自更多的科研领域。
知识如何启迪学科和改变学科,这本身就是一个活跃的研究领域[1]。关于新发现、新观点、新概念和新技术的元研究对政策制定者来说很重要,因为他们希望资助能满足社会最迫切需要的研究,而社会问题不可避免地牵涉多个学科。
《自然》的共引网络。图中显示的是《自然》自1900年以来出版的逾8.8万篇论文,点代表论文,颜色代表学科。如果有其他的科研论文(被Web of Science收录的)同时引用了这篇论文,那么它们之间就产生连接。点的大小代表被共引的次数。| 来源:A. J. Gates et al.
从1869年创刊以来,《自然》成为了许多学科的重大科研进步的展示窗口。为了纪念它的诞辰,我们追踪了不同学科论文引用以及被引用的模式。我们采用的数据来自Web of Science (WoS) 收录的数千万篇科学论文。WoS是一个收录了1900年之后的数千种期刊的文献索引系统,属于科睿唯安(Clarivate Analytics)。我们的重点关注对象是《自然》的论文。在我们看来,上面这张图片表明学科融合正在变得愈发普遍。
但要注意几点。我们的指标在20世纪初表现出一定的跳跃性,一部分原因在于当时的论文的引用文献要少得多。在20世纪20年代前,《自然》的论文一般不列出参考文献。但是如今的论文的参考文献可达50条。另外需要指出的是,WoS承认的学科数量从1900年的57个增长至1993年的251个,但这个因素只能部分解释我们发现的规律。
许多学者都开发出了评估科学出版对知识的影响的指标和测量方法。
从整体来看,我们的分析发现,和100年前相比,现在的论文参考的学科更多,影响的学科也更多,不过有一部分学科的影响力比另一部分的要大。《自然》出版的大多是细分学科的专业论文,因此参考文献的学科范围较为狭窄。但是,刊登在《自然》上的论文却会被众多学科引用。
庞大的论文库
我们从WoS数据库中提取了1900-2017年间的论文的参考文献,这些文献包含着近7亿引用关系。我们对其中有至少1条引用文献、受到至少1次引用并且发表在2010年前(这样论文有累计引用的时间)的约1900万论文进行了分析。最后所得的论文库包含3800万篇论文的学科信息。
为了识别论文所属学科,我们采用了WoS的粗略分类信息。这些信息不一定完美,但是凭借庞大的数量能够揭示出一定的规律。大多数期刊按学科划分,WoS会根据论文所发表的期刊对其所属领域进行判定,将其归为一个或多个学科。比如,发表在Journal of Bacteriology上的论文就被归为微生物学。
通过识别文献引用,我们就能追溯一篇论文的构思心路,因为作者会在参考文献里列出他们采用的理论、方法、技术以及思想的来源。同样,我们也可以通过一篇论文得到的引用来评估其影响力。在用引用来评估论文和作者时需要小心谨慎,但是,这类数据的体量以及可用性仍可以为我们展示科学知识累积的过程[1]。
利用WoS的学科分类,我们分析了88637篇《自然》论文如何调节思想的“新陈代谢”。对于一篇参考文献主要来自生物医学研究领域的《自然》论文,它自身的引用也将主要来自其它生物医学研究论文(见“知识流动”),不过约有一半引用来自其他学科。
与之相比,主要参考了工程和技术文献的论文更有可能被其他学科引用(72%),被本学科引用的量只占28%。不过,工程和技术类论文只占《自然》发表的论文的一小部分,而被选中的论文主要是因为它们的影响面大。另一个极端则是地球科学和空间科学的论文,这类论文更有可能被本学科(72%)而不是其他学科引用(28%)。
数据来源:Web of Science. 分析:A. J. Gates et al.
另外一个分析学科内和跨学科知识流动的方法是研究共引情况[2]。这个方法将每篇论文看成一个节点,以点表示。如果有另外一篇论文同时引用了2篇论文,那么这两篇论文就形成了连接,节点的大小代表着共引的次数。我们的可视化算法将每个连接看作可以伸缩的弹簧,并让连接尽可能地短。利用这个算法,我们对《自然》论文的学科交叉水平进行了归类(见go.nature.com/n150int)。
数据来源:Web of Science. 分析:A. J. Gates et al.
整体的网络结构与人们对学科间的关系的感受遥相呼应。论文根据所属年代和主题汇聚成群,因为作者通常会引用和本论文主题相关的近期论文[3]。在《自然》最近的历史中(见“随时间变化的学科”),超过一半的论文属于生命科学领域。因此,大量生物医学论文聚集成簇,出现在了网络中。
从1930年开始(此时可以利用参考文献对论文学科进行分类),物理论文的占比下降,地球科学和空间科学的占比上升。某些论文(比如发现了第一颗绕类日恒星运行的系外行星的论文[4])被深嵌在同类论文中。但是发现臭氧层空洞[5]这篇论文出现在许多领域(化学、社会科学和地球科学)汇集的地方(见“共引网络”)。我们的分析显示,这篇论文的参考文献所属学科比95%的《自然》论文更加多样,而它被引用的领域也比99%的《自然》论文更加繁多。
数据来源:Web of Science. 分析:A. J. Gates et al.
如果是对更专的期刊进行同样的共引网络分析,得到的结果会大不相同。但是在《自然》的共引网络中,科学史上的独特片段依旧得到了彰显(见go.nature.com/2patums)。这些片段包括:20世纪30年代的放射性元素的研究,80年代末和90年代超导材料的广泛应用研究以及对其理论基础的深入探讨。
时间流逝
在过去的一百年里,每个学科的论文数量都呈指数式增长[1]。尽管不同学科的增长速率不同,但是大约从60年代开始,48%的论文属于生命科学领域(另外42%的论文属于“硬”科学,10%属于行为科学)。
研究者对跨学科影响力的定义和测量方法不尽相同。多学科一般指的是包含多种学科,同时各个学科保持相对独立。我们对多学科期刊的定义是期刊论文参考的学科以及影响的学科的广度。学科交叉一般指的是学科的融合,我们对跨学科的定义是某篇论文的参考文献的多样性,以及该论文渗透影响多个学科的多样性。
虽然很难评估引用了某篇论文的其他研究之间的融合度,但是我们的定义能够衡量某篇论文传播的知识是否具有多方位的影响[6]。这种分析能够显示多种学科交叉的程度,但是并不能体现学科交叉的具体作用方式。
我们首先研究了某本期刊论文的参考文献和被引情况所反映的学科广度,以了解该刊的多学科性(见“灵感源和影响力”)。我们对期刊里的每篇论文的参考文献(灵感源),以及引用了这篇论文的其他论文(影响力)的主要所属领域进行标记,然后对其多学科性进行打分(从0-1)。
我们利用归一化熵(normalized entropy)进行记分。0分意味着一篇文章的所有参考文献,或者引用了这篇文章的论文均属于同一个学科。1分意味着参考文献以及引用文献中学科分布是均匀的。我们发现,归一化熵并不受到期刊发表论文数量的影响,它反映的可能是期刊的其他特质,比如接收的稿件特征,或是编辑的选择标准。
数据来源:Web of Science. 分析:A. J. Gates et al.
对大多数期刊来说,论文影响力以及灵感源的学科范围高度相关。对于那些学科性很强的期刊,如《细胞》和《物理评论快报》来说也是如此。当代期刊论文的参考文献和被引的学科数量一般是6个。
泛科学期刊《自然》和《科学》的影响力(被引用)以及灵感源(参考文献)的学科广度超过99.7%的期刊。《自然》的多学科性在20世纪60年代达到顶峰,之后一直维持在高位。这或许反映了《自然》收录的论文拥有更广泛的吸引力,并且这些论文更容易被科学界获知。
其次,通过测量每一篇论文的参考文献以及引用了它的文献的学科多样性,我们对每一篇论文的学科交叉性进行了评估[7-10]。有许多方法可以测量学科交叉性,有时得到的结果可能并不一致(见参考文献11、12)。
但是研究者们就一点达成了一致,那就是仅仅看参考文献和引用的学科数量是不够的。比如,一些论文的参考文献里大部分是生物学和临床医学的研究,那么它的学科多样性就不如那些综合了生物学和物理的论文。我们采用饶斯特林指数(the Rao–Stirling diversity index)来测量这个性质,饶斯特林指数能够反映代表性的学科数量、它们的分布以及差异,所得指标的范围在0和1之间[13]。
我们的分析显示,参考文献和引用的学科多样性都在增长。粗略来看,近10年里一篇典型的论文的参考文献以及引用了它的论文所涉及的学科数量是50年前的3倍。
目前平均一篇论文要参考11个学科的文献,但《自然》的论文的参考文献学科数量仅仅为9个。这印证了之前的研究结论——有高度影响力的论文也更有深度[14]。
反之,泛科学期刊受到引用的学科范围高于其他期刊,这说明这类期刊在科学界的影响范围比其参考的范围更广。这个现象很合理,因为这类期刊希望通过出版科学大发现来影响更多的读者。
有时,某篇论文的参考文献所属学科和它所影响的学科相距甚远。比如,2003年系统生物学家Leroy Hood 和David Galas[15]发表在《自然》上发表了“The Digital Code of DNA”,它的参考文献主要来自分子生物学,但是却被计算机科学、临床医学以及社会科学引用。
我们赋予跨学科性0-1的分值区间。0指的是某篇论文的参考文献和引用了这篇论文的学科完全相同。1指的是,两者完全不同(用JS散度来计算,JS散度体现了两个概率分布之间的差别)。
我们发现,近几十年来跨学科性下降了,泛科学期刊的下降速度超过了整体水平。这或许是因为,跨学科的研究会影响到包括该研究所属的多个学科。随着参考学科数量的增加,它能影响的一套完全不同的学科范围便缩小了。
对科研成果的评估最好在其所在学科的框架内进行。比如,生物医学类研究的引用数量和生物医学类的相比才更有意义,和物理学的比意义就不大了。但是如果学科之间的“互动”不断上升,那么限制严格的比较就失去了价值。
我们认为研究一篇论文涉及哪些学科,可能有助于进行学科间的比较,也有助于改进对论文影响力的评估。此外,如果学科之间的界限不再分明,那么严格的院系划分以及资助项目就不太说得通了。作为研究网络的科学家,我们希望科学不再那么封闭。
我们发现,所有学科都出现了学科交叉性的增长,且没有放缓的迹象。随着研究人群、科研论文以及知识的增加,不同学科会变得愈来愈融合。研究机构以及资助单位应该意识到,学科交叉正在成为主流。
参考文献:
1.Fortunato, S. et al. Science 359, eaao0185 (2018).
2.Small, H. J. Am. Soc. Inf. Sci. 24, 265–269 (1973).
3.Mukherjee, S., Romero, D. M., Jones, B. & Uzzi, B. Sci. Adv. 3, e1601315 (2017).
4.Mayor, M. & Queloz, D. Nature 378, 355–359 (1995).
5.Farman, J. C., Gardiner, B. G. & Shanklin, J. D. Nature 315, 207–210 (1985).
6.Leydesdorff, L., Wagner, C. S. & Bornmann, L. Scientometrics 114, 567–592 (2018).
7.Choi, B. C. K. & Pak, A. W. P. Clin. Invest. Med. 29, 351–364 (2006).
8.Porter, A. L. & Rafols, I. Scientometrics 81, 719 (2009).
9.Wagner, C. S. et al. J. Informetr. 5, 14–26 (2011).
10.Leydesdorff, L. & Rafols, I. J. Informetr. 5, 87–100 (2011).
11.Wang, Q. & Schneider, J. W. Preprint at https://arxiv.org/abs/1810.00577 (2018).
12.Research Councils UK & Digital Science. Interdisciplinary Research: Methodologies for Identification and Assessment (RCUK/Digital Science, 2016).
13.Stirling, A. J. R. Soc. Interface 4, 707–719 (2007).
14.Uzzi, B., Mukherjee, S., Stringer, M. & Jones, B. Science 342, 468–472 (2013).
15.Hood, L. & Galas D. Nature 421, 444–448 (2003).
原文以Nature’s reach: narrow work has broad impact为标题发表在2019年11月06日的《自然》评论上
© nature
Nature|doi:10.1038/d41586-019-03308-7