国际顶刊PNAS发文:“同质化”论文暴增,从根本上阻碍了科学的进步!
The following article is from AI科技评论 Author 琰琰
从2012年至今,我国科研论文的发表数量一直在持续增长。据Web of science数据统计,近10年中国科研人员发表 SCI 论文总数已累计339.7万篇,反超美国跃居全球榜首。
然而,论文数量的暴增是否真的代表科学的进步?
近日,美国著名SCI期刊PNAS(Proceedings of the National Academy of Sciences )刊登文章《Slowed canonical progress in large fields of science》指出,在科学研究领域,“同质化”论文的大规模生产可能会阻碍新兴思想的出现。
这篇文章出自美国西北大学和芝加哥大学联合研究团队,他们通过241门细分学科的9000万篇论文的18亿次引用的定量分析发现,大量论文的发表不但没有加快研究范式的更替,反而巩固了经典研究。那些可能蕴含潜在的、颠覆性观点的新论文正面临出版难、阅读量低、引用量少的困境,并且没有因为时间的演进而吸引更多人的关注。
这种现象所带来的后果是:如果科学家和研究机构仍然以“数量”来衡量科研能力,而不是关注科研质量和影响力,那么论文的暴增将从根本上阻碍科学的进步!
1
新论文引用率低,无创新是普遍现状
对大多数人而言,科学进步最直观的表现就是“越多越好”,某一学科发表的论文越多,科学进步的速度就越快;研究人员越多,覆盖的范围就越广。即使不是每一篇论文都有翻天覆地的影响力,但每一篇论文都可以为聚沙成塔贡献一粒沙子,增加新范式出现的可能。
事实上,众多科学领域每年的论文发表数量正在快速增长。以人工智能为例,从2007年到2017年,近10年的时间中国AI论文增长了400%,企业论文增长了73%。在国际学术会议中,ACL 2019年的投稿量超过2800篇,相比2018的1544篇,增量超过81%。同年NeurIPS也增长40%,投稿量达6809篇。CVPR\ICCV\ECCV三大计算机视觉顶会更是增幅明显。
其背后的原因一方面与学术政策和激励措施密切相关。在科学研究领域,不论是职位晋升还是考量绩效,专利、发表文章、文章的引用以及刊登杂志的影响因子都会成为核心指标。这些量化指标决定了科研人员的职业轨迹以及学术机构、企业和评估标准。对于一名高校学者而言,如果在规定的时间内发表足够多的论文,就有可能获得晋升或者终身教职的机会。
而另一层原因是,论文的“质量”也越来越倾向于定量化评估,引用量普遍被用来衡量某一学科领域内个人、出版商和期刊的重要程度。一篇引用次数多的论文会被默认为最佳、最有价值的研究,甚至会被视为该领域内的里程碑之作。
然而,这项研究中发现大量科研成果的发表不但没有推动科学的发展,反而成了行进的阻力,这是因为某一科学领域发表的论文数量逐年增多时,学者更倾向于引用已有的经典论文,而不是新论文,反过来,较低的引用次数又进一步影响了新论文的关注度,这导致学术研究很难摆脱现经典研究思想的束缚,而事实也证明,更多的新论文创新度不高,多局限于已有的理论框架。
作者在文中具体列出了六项可能带来的影响,并强调如果是研究范围更广的科研领域,以下现象可能会更明显:
1)新引用更偏向经典论文,而不是引用较少的新论文;
2)引用最多的论文在每年的引用排名中几乎保持不变;
3)一篇新论文最终成为最常引用论文的概率下降;
4)新论文不会通过长时间的累积传播进入最常引用行列;
5)新论文延续现有科学思想的比例增加,颠覆性思想的比例减少;
6)具有足够影响力的论文,出现的可能性降低。
至于为什么会出现这种现象,作者认为在理论上可能存在两方面因素,一是大量的新论文可能会剥夺专家和学者充分认识和理解一个新想法所需的时间和认知程度。二是过多新想法之间的竞争也可能会妨碍学者们发现或者将注意力集中在一个更有前景的idea上。
随着每年各学科领域科研成果数量的持续增长,这种影响会只增不减,且不可避免,除非采取政策措施重组科学生产的价值链,使大众的注意力集中在有前途的、新颖的想法上。
2
实验证明及分析
总结来看,在大多数学科领域中,高引用量的经典论文一直持续占据主导地位,这导致新论文的引用几率较低,并随着时间的推移淹没在了海量论文库中。此外,从内容上来讲,最新发表的论文更倾向于扩展现有理论,而不是进行底层创新,很少有打破常规的新观点被提出。以下是241门细分学科和9000万篇论文的实证结论:
一、在大多数学科中,引用最多的论文获得了更高的引用份额。
如图1(A),引用次数最多的论文在最大研究领域的基尼系数为0.5,相当于贫富差距最大的两个国家的系数水平——只有中国和南非的基尼系数高于0.5。重要的是,论文引用份额的严重失衡,导致研究方向出现明显的“马太效应”。
左图(A)表明,当某个领域发表的论文越多,被引用最多的论文在新引用中所占比例就会越大;右图(B)表明,当某个领域发表的论文越多,高引用论文的排名就越稳定。
如电气和电子工程领域,如果每年有10000篇论文出版,前0.1%的论文获得1.5%的引用概率,前1%的论文获得8.6%的引用;如果发表50000篇论文,前0.1%的论文获得3.5%的引用,前1%的论文获得11.9%的引用;如果发表10万篇论文,前0.1%的论文获得5.7%的引用,前1%的论文获得16.7%的引文。相比之下,随着每年论文发表量的增多,50%低引用论文在新引用中所占份额明显下降,从每年10000篇论文 43.7%的引用次数占比,下降到每年50000篇和100000篇论文占比仅稍稍高于20%。
二、在范围更大的学科领域,论文发表数量越多,引用最多的论文在高引排名中的波动越小。
如图1(B)所示,在引用最多的前50篇论文中,论文发表的本年和下一年之间在排名上存在明显的相关性。而在随后的几年,如果预测前50名引用最多的论文的斯皮尔曼等级系数,该系数从一年1000篇论文的0.25,增加到了一年100000篇论文的0.74。这是因为当研究范围较大时,引用最多的论文每年都会保持其引用次数,而其他所有论文的引用次数都会减少。
图(A)表明尽管有大量新论文发表,引用最多的论文平均每年保持在高引用前列;图(B-C)表明除引用最多的论文外,所有论文在该研究领域的引用次数均逐年减少。图(D)表明在所有学科领域,只有引用最多的论文每年保持高引用水平,其他所有论文平均每年的引用量都较少。
如何打破“论文泛滥”的局面?
构建更清晰的期刊等级体系,通过最具影响力的出版机构,引导科研人员从常规工作转向学术创新。 调整科研机构和企业的奖励和晋升制度,避免数量的权衡,提升质量、创新性贡献等指标的重要性。 在研究生培养、科研能力评估、科研经费申请方面制定新的考核标准,激励科研人员摆脱既定教条,提出新奇的idea。
动动小手加星标,浏览文章不迷路!
不用每天花费时间刷信息流
也可以随时看到自己喜欢的内容啦!
2021-10-12
2021-10-12
2021-10-12
2021-10-12
2021-10-11
点了“在看”的小哥哥小姐姐
今年发IF>10一作