bioRxiv五年文章大盘点——生信傲视群雄
自2013年以来,bioRxiv已走过了五个年头。其规模迅速壮大,尤其是在去年,发文数实现了翻番。然而,很多学者对bioRxiv这样一种研究成果的交流方式还很陌生。近日,来自美国明尼苏达大学(University of Minnesota)的两位科学家采用Python写了一个爬虫,对bioRxiv截止18年10月前发布的所有文章的各种信息进行了收集整理,就一些大家感兴趣的问题进行了解答。
1. 哪个领域的学者最钟意bioRxiv?
自2016年9月开始,来自神经科学(neuroscience)领域的文章就在数量上一直处于领跑地位(Figure 1)。也许你想不到,接下来的排在第二、三、四位的领域,竟然都同生信人有很大关系,他们分别是bioinformatics,evolutionary biology,以及genomics。其中,bioinformatics分类发布了4000多分预印本文章,进化生物学和基因组学都有近3000篇(Figure 1)。尽管没有完全的统计数据,同其他大部分领域相比,不论杂志数目还是从业者数目,生信领域都应该是相对弱势的。所以,这一现象似乎表明生信领域的科学家更喜欢利用bioRxiv进行最新进展和数据的分享,而非各自“闭门造车”。
Figure 1
2. bioRxiv上的文章的下载量如何?哪个领域的文章下载量最高?
2018年以来,每个月bioRxiv上发表的文章的下载量已超过一百万次(Figure 2a)!而每篇文章的下载量的中位数为279(Figure 2b),在基因组学、合成生物学和生物信息学领域的文章里的下载量最高(Figure 2c)。所以从下载量来看,生信领域的文章依然表现强势。
Figure 2. The distribution of all recorded downloads of bioRxiv preprints.
3. 哪些院校对bioRxiv贡献最多
作者统计了在biorxiv上发文最多的前25所院校,其中除了5所来自英国、2所来自加拿大之外,其余全部来自美国。排名在前五名的是斯坦福大学、牛津大学、剑桥大学、华盛顿大学和伦敦大学学院(University College London)。具体信息详见原文Table S3。
4. BioRxiv上的文章最后有多少发表了?
到本文作者统计为止(2018年10月),超过40%的bioRxiv文章最终得以发表。不过小编认为这一数字被低估了,理由有三点:大部分2018年才刊载到bioRxiv的preprint显然没有足够的时间正式出刊,此外并非所有bioRxiv上的preprint在同行评议期刊发表后都会在bioRxiv上留有记录,且有些preprint发表后的文章标题和其他相关信息会有变动,搜索时可能对不上号。实际上,如果只统计截至2017年的预印本,那么它们中有64%都已经可以在学术期刊中被找到。学科上看,发表率最高的领域是进化生物学,发表率超50%,基因组学紧随其后。最低的是病理学,刚刚超过20%(Figure 3)。这一环节,生信继续领跑!
Figure 3. Characteristics of the bioRxiv preprints published in journals across the 27 subject collections
5. bioRxiv的文章都发表在了哪些杂志上?
Figure 4
Nature旗下的scientific reports成为了bioRxiv接稿量最大的杂志。其中一个原因或许是该杂志本身的发表量就十分巨大。照同样逻辑,排在第三名的plos one也不难理解。然而,令人多少有些惊奇的是,排在前十名的杂志里,也赫然出现了多本高水平期刊的名字,比如elife、nature communication、pnas、NAR、bioinformatics、plos genetics等等,这也足以证明biorxiv有相当多的高质量文章。当然了,其中多本生信类相关杂志的出现可能也是因为前面提到的生信领域的学者更倾向于使用biorxiv的缘故吧?
6. bioRxiv上的下载量和所发表杂志有什么关联?
为探究预印本在bioRxiv上发出后的受欢迎程度同最终所发期刊的影响力的关系,作者对bioRxiv上所发布的文章的下载量同最终发布杂志的影响因子。这里,杂志的影响因子代表杂志的影响力,而preprint的下载量则代表了它们的受欢迎程度。可以看出,大体上两者呈正相关关系。举例来说,PLOS ONE上发表的719篇预印本文章的下载次数中位数为279,而对于著名Nature子刊Nature Methods上发表的119篇preprint来说,这一数字则高达2266!实际上,我们每个月的bioRxiv好文速览也会参考这些指标,尽力为大家选出高质量的preprint先睹为快。
Figure 5. A modified box plot (without whiskers) illustrating the mediandownloads of all bioRxiv preprints published in a journal.
7. 一个全新的数据库:Rxivist
此外,作者将获得的信息存放于一个在线数据库中,Rxivist,感兴趣的读者可以通过网址https://rxivist.org访问。
Figure 6
引文
1. Abdill Rhichard and Blekhman Ran, 2018, Tracking the popularity and outcomes of all bioRxiv preprints. bioRxiv.
更多生信分析需求,请联系电话(同微信号):13120220117