预测论文影响力,机器学习行不行?
原文作者:Dalmeet Singh Chawla
旨在预测生物技术领域论文影响力的数学模型遭到研究人员批评。
多年来,研究人员不断尝试用公式准确预测学术论文的影响力。5月17日,《自然-生物技术》刊发了该领域的最新成果——一种机器学习算法[1],但是这一算法引发了争议。
论文共同作者、美国麻省理工学院计算生物学家James Weis称,该算法能够帮助基金管理者确定值得支持的研究,使研究人员了解哪些领域具有前景,还有望“加快科技创新”。
这一基于机器学习的工具利用几十项指标预测生物技术领域哪些论文将备受关注。来源:Jose A. Bernat Bacete/Getty
然而,介绍该算法的论文遭到研究人员的广泛批评,一些人并不赞同作者观点,即可利用数学模型来确定哪些研究应获得更多资金或资源。
英国伦敦国王学院分子生物物理学家Daniel Koch发布推文说:“很遗憾,影响力的衡量标准依然主要是一些基于引用次数的指标,所以‘优化’的不过是科学的自我指涉。”英国剑桥大学的分子信息学家Andreas Bender写道,这个基于机器学习的工具“只会固化现有的学术偏见”。
传统指标之外
这并非科学界首次尝试预测哪些工作可能更受研究人员关注,过去也有研究试图预测论文未来的引用次数和研究人员的职业发展。Weis说,其团队开发的这类工具非常重要,由于学术文献数量迅速增加,“判定研究或研究人员前景的传统指标和方法开始失效,或越来越带有偏见”。
Weis团队的模型将论文在一个网络中的位置作为其能否成功的判定标准,计算涉及29个指标,包括引用该论文的不同研究人员数量,作者的h指数变化及其它指标。其中,h指数是衡量作者论文发表数量及其论文影响力的一项指标。
“利用这些模式,我们可以找出那些尽管引用次数较少或出自不太知名的研究团队、但却有望在未来产生巨大影响的研究。”Weis说,“这项工作的首要目标是,探索能否使用基于数据的方法,在大量研究中寻找被埋没的瑰宝,这些研究终将焕发异彩,但当下可能无法像知名研究团队的高被引论文那样通过大量引用产生广泛影响。”
既有模型往往倾向于尽量减少依赖的指标,而Weis说,他们的方法可更准确地预测哪些论文最有可能获得关注。
研究人员利用1980至2019年期间42个生物技术相关期刊发表的近170万篇论文,对算法进行训练,正确识别出该时期“开创性的生物技术”。此外,他们利用算法得出2018年这些期刊发表的50篇得分最高的论文,预测到2023年,即论文发表五年后,其影响力将排在2018年发表论文的前5%。
目前,该模型仅应用于生物技术领域,不过Weis说可调整算法来评估其它学科的研究论文。
黑盒算法
美国西北大学元科学研究者王大顺,对于Weis团队的模型能够精准识别突破性技术和高影响力研究十分感兴趣。他评价道:“总体来说,其准确性令人震惊。”他曾于2013年在《科学》发表论文[2],介绍一个能够预测高被引论文的数学模型。不过,他警告说,这种算法往往像一个黑盒。“虽然这个方法展示出良好前景,但我们还需要进一步分析它成功预测论文未来影响的机制,以帮助我们做出更明智的决定。”
其他学者则更多表示怀疑。荷兰莱顿大学科技研究中心副主任Ludo Waltman认为,这样的模型不应用于资助决策。他指出,某项研究取得较大影响力或高引用率,并不意味着几年后开展类似研究也能获得成功。
Waltman还说,如果资助者使用基于指标的工具来决定为某一领域分配资金,这必将导致更多研究人员进入该领域并相互引用,最终形成一定数量的高影响力研究。“这是一个自我实现的预言,”他说,“但并不能证明你做出了正确的资助决策。”
Weis回应说,许多资助者已经开始用“次优”工具来评估资助申请书,包括引用次数和h指数等。他的目标是开发偏差更少的方法,“提供一个工具来突显当前或被忽视、实则值得关注的研究和研究者”。他补充道:“我们的工作可纳入更大范围的科学分析工具包,与人类的专业知识和直觉相结合,以确保我们确实扩大了研究待范围。”
参考文献:
1. Weis, J. W. & Jacobson, J. M. Nature Biotechnol. https://doi.org/10.1038/s41587-021-00907-6 (2021).
2. Wang, D., Song, C. & Barabási, A.-L. Science 342, 127–132 (2013).
原文以Frosty reception for algorithm that predicts research papers’ impact标题发表在2021年5月21日的《自然》的新闻版块上
© nature
doi: 10.1038/d41586-021-01358-4
点击阅读原文查看英文原文
招
聘
职位推荐
Nature Careers
1. 中国医学科学院北京协和医学院
招聘岗位:终身教授,北京
7月19日前申请职位,扫码查看详情→
2. 中国科学院干细胞与再生医学创新研究院
招聘岗位:博士后研究助理(干细胞等基础研究领域以及前沿生物技术/工程等),北京
7月24日前申请职位,扫码查看详情→
3. 景杰生物
招聘岗位:蛋白质组学研究员,杭州
7月27日前申请职位,扫码查看详情→
更多国内外科研工作机会,请访问:nature.com/naturecareers
点击图片查看如何通过自然职场(nature.com/naturecareers)平台自助发布职位
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2021 Springer Nature Limited. All Rights Reserved
星标我们🌟,记得点赞、在看+转发哦!