查看原文
其他

人工智能(AI)同行评审的时代来了


作者:Douglas Heaven丨译者:王心雨丨校译:陈铭


目前,出现了一系列自动化的工具帮助进行同行评审,但是主动权仍然掌握在人类手中。大部分的研究者都有充分的理由抱怨同行评审,因为这是一个耗时间且容易出错的工作。并且只有 20% 的科学家承担大部分的评审工作,工作量分配严重不均。如今,人工智能的出现有望改善同行评审这一过程,提高文章质量并节省评审时间。有一部分学术出版商已经在尝试使用 AI 来帮助他们完成一些事情,例如选择评审学者、统计和核查数据准确率、总结文章的新发现。


今年 6 月,总部位于阿姆斯特丹的出版业巨头爱思唯尔旗下的同行评审管理系统 Aries Systems 采用了一款名为 StatReviewer 的软件,用于检查来稿中的统计数据和方法是否真实可信。与此同时,广受欢迎的同行评审平台 ScholarOne 正在与丹麦奥尔胡斯的 UNSILO 开展合作。UNSILO 使用自然语言处理和机器学习等技术对来稿进行分析,并自动提取关键概念来总结文章的核心内容。但无论机器起了什么作用,最终的决定权仍然掌握在编辑手中。英国出版顾问大卫·沃洛克(David Worlock)在 10 月份的德国法兰克福书展上看到了 UNSILO 的展台,他感叹道:“它不会代替编辑的决策,但它能让这个过程简单了许多。”


决  策


UNSILO 对来稿文章进行语义分析处理,提取文本中机器识别出来的主要语句。UNSILO 的销售总监尼尔·克里斯滕森(Neil Christensen)表示,这一方法得到的结果比作者自己提交的关键词能更好地概述文章内容。他还补充说:“我们在他们的文章中找到了他们真正想表达的意思,而不是仅仅看他们在提交前五分钟里想出来的内容。”此外,UNSILO 还会识别出最有可能代表作者观点和发现的关键词语,从而让编辑对作者的研究成果有粗略的了解。UNSILO 还能够高亮出文章中与其他论文相似的观点,用于检测学术不端行为,或者将其与学界其他相关研究联系在一起。


Christensen 认为:“这一工具并不是在做决定,而是在告诉你,这里有一些内容和之前发表过的文章相比有些突出,而决定权在你手中。” UNSILO 从 PubMed Central 这一庞大但有限的学术数据库中采集信息。UNSILO 可以将新的来稿与数据库中 170 万篇已发表的生物医学领域的研究论文进行全文比较。UNSILO 还与位于宾夕法尼亚州费城的 Clarivate Analytics 旗下的 ScholarOne 合作,访问更多的数据,包括 Clarivate 的 Web of Science 数据库。


Giuliano Maciocci 在英国剑桥《eLife》杂志上带领一个新团队,她认为 UNSILO 是一个有趣的解决方案,能够解决同行评议中一些令人头疼的问题,但是 eLife 不会考虑采用它。“在我们这样一个非常重视专家管理的期刊上,这个工具可能用途不大。”Wizdom.ai 的董事 Worlock 注意到,市面上出现了很多类似的工具。Wizdom.ai 是一家由 Taylor & Francis 出版公司控股的新公司,该公司正在开发一款能够挖掘论文数据并提取不同学科和概念间关联的软件。他认为,正在研发的这个工具不仅能够在同行评审中起到作用,对于撰写拨款申请和文献综述等都有帮助。


从检测学术不端到检测 p 值


包括 ScholarOne 在内的很多平台已经能够自动进行学术不端评测,并且包括 Penelope.ai 在内的很多服务能够检查参考文献和来稿的结构是否符合期刊的发稿要求。有一些工具还可以用研究质量进行标记。由荷兰蒂尔堡大学的研发团队开发的工具 Statcheck 能够评估作者所报告的数据的一致性,聚焦于 p 值的大小。《心理科学》这一期刊把所有来稿都用这一工具检测一遍,其他出版商更倾向于在同行评审中使用这个工具。荷兰蒂尔堡团队在分析《心理学报》期刊上的文章的时候,他们发现大约有 50% 的论文至少有一项数据统计不够准确。在八分之一的论文中,有些错误甚至已经严重到足以影响已发表结果的统计意义。她说:“这令人担忧。”但是她也表示并不奇怪这些评审学者会忽略这些错误。“没有人有时间去核对所有的数字,你只会关注论文本身。”目前,Statcheck 仅限于分析使用美国心理协会报告格式进行数据统计的论文。


与之相反,StatReviewer 的开发者——北卡罗来纳州威客森林大学医学院的蒂莫西·侯勒(Timothy Houle)和威斯康辛州新兴科技公司 NEX7 的首席执行官查德威克·德沃斯(Chadwick DeVoss)声明他们的工具能够评估来自多个科学领域的标准格式展示风格的统计数据。为了做到这一点,这一工具可以检查论文中的样本大小和基线数据等信息是否正确。DeVoss 表示:StatReviewer 还能够识别欺诈行为的标记,例如他们是否在玩弄数据规则或是伪造数据?如果风险要高于期刊接受的范围,他们还可以调查细节。


对算法进行测试


DeVoss 说 StatReviewer 正在接受几十家出版商的测试,2017 年,伦敦开放出版商 BioMed Central 进行了实验,但是没有得出确定的结论。因为这个工具没能分析足够的稿件,但也提供了一些洞见。施普林格《自然》的公开研究传播总监艾米·伯克维特(Amy Bourke-Waite)说,StatReviewer 抓住了人类评审员忽略的东西,善于发现不符合标准要求的论文。Bourke-Waite 还说:参加测试的作者们表示很开心,因为如果没有 StatReviewer 进行报告,他们就会成为评审员撰写评审报告。


自动化的限制


即使实验结果成功,但 DeVoss 预计只有少数期刊会愿意付费扫描他们的来稿。所以他和他的同事们将目标转向作者,希望他们在投稿前会使用这一工具检查自己的文章。


一般来说,在同行评审中,人工智能存在着潜在的缺陷。一个担忧是,使用以前发表的论文培训的机器学习工具可能会强化同行评审中存在的偏见。Worlock 说:“如果你在过去被采纳的文章的基础上建立决策系统,不可避免会有内在的偏见。” DeVoss 说:“如果一个算法在评估一篇论文后只提供一个总分,正如 StatReviewer 所做的那样,编辑们可能会被这个结果影响,拒绝一些边缘文章,只是依靠那个分数来决定是否采纳一篇论文。”


新西兰的同行评审跟踪新兴公司 Publons 的联合创始人安德鲁·普雷斯顿(Andrew Preston)表示,目前的算法还不够智能,无法让编辑仅凭借提取的信息采纳或者拒稿。“这些工具可以确保稿件达到标准,但是它们不可能取代评审员在评审方面所做的工作。” 一部分学者也表示同意:“算法需要一定的时间去完善,但是自动化处理一些工作是有意义的,因为同行评审中的很多事情都是有固定标准的。”

(来源:科学网 - 数字科学交流)


更多阅读:

作者应如何回复专家的评审意见

全球同行评议现状报告中文版来袭

Editorial Manager投稿系统使用方法

Reviewer Credits,下一个Publons?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存