出品 | AI科技大本营(ID:rgznai100)
一、IJCAI 2020灭霸式拒稿引众怒
随着AAAI 2020于2月7日作为2020年人工智能学界的第一个顶会在美国纽约开幕,人工智能相关领域的研究者们又要为新一年的顶会忙碌了。对于AI界的研究者来说,一年的进度条几乎是靠数着顶会 deadline 来过的。尽管“投稿→rebuttal→接收/被拒→继续(斐波那契式)投稿”是很多研究者的日常,但是,被拒后质疑审稿机制、评审人水平,继而引发大规模吐槽的网络事件每年都在发生。 就在半个月之前,IJCAI 2020就以拒稿率达到史无前例的42%的审稿方式又在网上炸开锅。知乎上,很多研究者贴出拒稿信的截图,根据其中内容,很多研究者的工作在评审第一阶段——summary reject 阶段就被拒稿了,甚至没能进入正式的审稿过程。 summary reject是一种快速审稿的流程,放在正式的评审阶段之前。在这一阶段,论文一般会被发送给几位 Senior PC(SPC)。这些 PC 会花10分钟左右时间,根据论文的摘要、总结等部分,对论文情况有一个大概的估计。如果他们认为这篇论文不能进入下一阶段,则由领域主席做最终的决定。当下,顶级的人工智能会议要面对动辄 5000 甚至上万的投稿量。如果不提前过滤论文,每个审稿人都有着巨大的压力。此外,随着人工智能的兴起和技术门槛的逐渐降低,越来越多的人参与到人工智能研究中来,随之而来的还有大量“灌水”论文。因此,引入summary reject来过滤低质量论文、降低审稿人工作量是非常有必要的。
不过,真正让很多投稿人不满的是,本次IJCAI 2020大会summary reject似乎是SPC随机选择的,这样一来,很多人的论文存在被误杀的可能性。一位参与了 IJCAI 2020 summary reject的决策过程的SPC,纽约大学坦登工程学院的副教授 Julian Togelius就表示,他发现很难决定哪些论文值得 review,特别是那些非自身领域的论文。因此,选择 reject 哪些论文也几乎是随机的。此外,Julian Togelius 还推测大多数 SPC 会遇到 summary reject 决策困难的情况,并且很多 SPC 只是简单地拒绝了那些看起来与他们熟悉的研究不太一样的论文。显然这种做法会对一些小的子领域和新兴的研究主题造成重大打击。更令人沮丧的是,论文投稿的一个重要意义在于:即使没被选中,也可以通过同行评审来获得反馈,从而促进研究者进一步提升能力,完善研究。但是,在summary reject 阶段就被拒稿的论文是不会收到任何拒稿理由的,这样无法为他们带来实际的反馈,无助于他们提升自身的能力,下次做出更好更有水平的成果。很多人认为,没有提供理由/反馈就拒绝论文是非常不科学的,这样非常打击年轻的研究人员的积极性。不少人发帖表示,“大半年的工作,没给任何理由就直接reject,心态真的炸裂”。
AI顶会评审机制暴露的问题
事实上,这并不是IJCAI第一次引起争议。去年,IJCAI 2019就被很多人质疑审稿质量,甚至被评“本届IJCAI审稿宇宙最烂”。其他引起争议的顶会有AAAI 2019,一名中国知名高校的计算机博导发表公开信,实名投诉AAAI 2019评审不专业;ICLR 2020 ,当审稿结果放出后,有开发者给出了一个统计结果:“本次大会近半数审稿人没有在相关领域发过论文。”投稿者觉得自己“浪费感情”,审稿人又觉得“我太难了”等等。
总之,近年来,随着AI顶会的投稿量越来越大,争议的声音也越来越多,内容直指当前同行评议体系的缺陷。同行评审是社区中的其他专家对一份学术工作进行的全面审查,是传播科学成果的关键一环。然而,顶会论文投稿量的破纪录增长和合格评审者数量不足之间的矛盾使得同行评审过程举步维艰。为了审查所有的投稿论文,大会组织者不得不扩充评审者团队,并不可避免地将一些资历不深的学生也包括进来。这可能导致,花了几个月或几年时间写论文的作者最后收到的是不合理、欠考虑或不公平的评审结果。除此之外,审稿机制本身也存在缺陷,如审稿人权限过大,缺乏监督、很容易谎报资历,严重影响文章质量等。
或许正是由于此类原因,一些会议在学术圈的口碑正在慢慢下滑。比如在最新版的《清华大学计算机学科推荐学术会议和期刊列表》中,IJCAI 已经从人工智能与模式识别方向 A 类学术会议"降级"到 B 类的学术会议。
事实上,各大顶会也并非没有认识到问题,目前组织者试图通过各种方法来降低审稿人负担,包括限制每个人的投稿数、禁止一稿多投、提高拒稿重投门槛等等。比如IJCAI 2020规定每位作者的投稿数不能超过 6 篇,而去年的规定是不超过 10 篇。NeurIPS、ICLM 近几年都都发布了禁止一稿多投的规定。此外,还有前文所说的,可以利用summary reject来过滤低质量论文等等。不过,照目前趋势看,顶会扩招论文似乎已不可逆转,无论是 AAAI、ICLR 还是 NeurulPS,每年都在刷新记录,对于如何把握评审质量、保持顶会权威性,依然需要继续探索。
对此,一些曾经或即将担任顶会程序主席的学者的见解非常值得参考:
1、论文评审委员会如何组织、如何选人、如何应对大量论文如今各个 AI 会议都很容易出现审稿人不足的状况,即将担任IJCAI 2021程序主席的南京大学周志华教授认为,可以让投稿论文的作者也承担一些审稿工作。首先这直接增加了可以参与审稿的人数;其次,从个人和集体的关系来看,提交论文让别人审是论文作者享受了来自整个学术社区的服务,那么他也应当为学术社区做出一些服务,比如审别人的论文。此外,在审稿过程中,可以根据审稿人的资历来安排不同的任务或者做法,比如安排多位经验学识较浅的学者共同决定一篇论文的质量,但资深学者可以独立决定一篇文章。至于如何避免一稿多投,他建议针对同一篇论文的审稿意见可以在不同的会议之间通用,这样一来,时间顺序靠后的会议就不必重审这篇论文。应对大量的论文投稿,IJCAI 2020程序主席、蒙彼利埃大学教授Christian Bessiere提到可以考虑采用全新的审稿和发表机制,比如采取每月发表的方式,对应地,作者们就可以在全年中的任意时间投稿,然后论文评审和录用结果公布都是每月进行。这种方式可以克服很多目前会议集中审稿带来的问题。尽管Bessiere教授的建议是彻底颠覆性的,但论文评审制度一直摸索中改革,最后走向哪种模式目前并不可知。从这一点,我们能看到计算机科学家们探究本质、勇于创新的品质。 对于如何确保审稿人能够认真负责地审稿,目前有这样一个观点得到很多人认可,即使用积分制度,提出了高质量评审意见的审稿人、乃至被评为优秀审稿人的学者可以获得一些积分,然后各个会议就可以只允许有积分的人投稿多篇论文(第一篇投稿可以不需要积分)。论文投稿与评审过程中的不当行为包括:许多论文会涉及利益冲突,比如审稿人会给来自自己同事的论文打更高的分数,但给不熟悉的、乃至对于自己辨认出来自竞争对手的论文打更低的分数;在论文评审过程中,审稿人之间故意泄露作者身份;论文作者在投稿时为了提高中的概率,会把相同的研究写成几篇略有区别的论文分别投稿;在评审过程中,有些作者收到了审稿意见,但是不愿意修改自己的论文,只想尽快投到下一个会议等等。针对利益冲突,周志华教授认为我们需要一定的利益冲突检测机制,在论文分配过程中进行调整。而IJCAI 2013程序主席、巴尔-伊兰大学教授Sarit Kraus否定了当前学术界“唯论文”的风气,他认为投稿中的不当行为其实是我们自己培养出的怪物:根本原因是年青学者有很大的压力发表论文,如今许多东西都和发表的论文数量挂钩,所以他们也只能想尽办法让自己的论文能够录用。AAAI 2014 程序主席、得克萨斯大学奥斯汀分校教授 Peter Stone则提到了对整件事的“道”的想法:也许我们可以指定一些规则,规定了哪些事是不可以做的,但是我们人类总是能会想办法找到漏洞、绕过规则。改善这件事,我们需要更多鼓励好的行为、让好的行为成为大家效仿的样板。专家们提出的都是机制上的改革,而有些人则从技术层面想办法,试图用AI来改善同行评议过程,提高发表研究的质量,并且节省评阅人的时间。例如,在打击学术造假方面,来自美国纽约雪城大学的机器学习研究员丹尼尔·阿库纳等在2018年开发出一套算法,能利用人工智能识别学术论文中的图像造假,对论文图片进行查重。他们分析了生命科学领域来自4324本期刊的76万篇开放获取论文,并从中提出有效的263万张图片。其中,约有9%的图像存在高度重复。该团队又在其中选取了约4000张可疑图片进行人工核查。经测算,在所有论文中,约1.5%存在学术不端的嫌疑,0.6%确认存在图像方面的论文造假。在提取关键概念,总结文章核心内容方面,出版业巨头爱思唯尔旗下的同行评审管理系统Aries Systems采用了一款名为StatReviewer的软件,用于检查来稿中的统计数据和方法是否真实可信。与此同时,广受欢迎的同行评审平台ScholarOne正在与丹麦奥尔胡斯的UNSILO开展合作。UNSILO使用自然语言处理和机器学习等技术对来稿进行分析,并自动提取关键概念来总结文章的核心内容。此外,UNSILO还会识别出最有可能代表作者观点和发现的关键词语,从而让编辑对作者的研究成果有粗略的了解。UNSILO还能够高亮出文章中与其他论文相似的观点,用于检测学术不端行为,或者将其与学界其他相关研究联系在一起。但无论机器起了什么作用,最终的决定权仍然掌握在编辑手中。 在质量控制和评审员识别方面,总部位于瑞士的学术出版商 Frontiers(《前沿》)也在通过 AI 工具 AIRA(Artificial Intelligence Review Assistant)协助审稿人和编辑,以提高效率。AIRA 系统由内部自定义 算法 以及行业领先的工具构建,例如 Google,CrossRef 的 iThenticate 和 Editage 的 Ada。AIRA 目前主要进行两项关键同行评审任务:质量控制和评审员识别。其算法根据一组质量指标(包括文本重叠、语言、人体图像的存在和其他伦理考虑),来快速准确地评估提交的稿件。达到既定质量门槛的稿件将被传递给编辑,而有任何潜在问题的都会被送到审查团队进行进一步调查。不过,尽管目前学术界已对AI参与同行评议有一些尝试,但大多数人依然存在较大顾虑,其中一点在于,利用过去发表的论文训练的机器学习工具会强化已有的同行评议偏见。另外,目前利用AI来实现同行评审存在技术上的困难,因为同行评审最重要的职责是确保研究新颖,没有重复前人老路,尽管AI能够查阅文献,找出哪些问题仍悬而未决,但它目前无力辨认颠覆性的科学新发现。所以,AI参与同行评审还有很长的路要走,但由于同行评议过程中的许多步骤是标准化的,因此,研究评议过程自动化是非常有积极意义的。或许是为了嘲讽人类的偏见,2018年底,arXiv上发布了一篇论文引起了极大的关注。该研究基于论文的视觉外观训练了一个分类器来预测一篇论文应该被接收或者拒绝。该论文作者为弗吉尼亚理工学院助理教授 Jia-Bin Huang,同时他也是CVPR 2019、ICCV 2019的领域主席。这篇有趣的论文刚刚公开就在 Twitter 上引发热议。文章表示,好的论文版面非常重要。该研究中仅基于论文视觉外观训练出的分类器可以拒绝 50% 的坏论文,只有 0.4% 的好论文没被接收。然而,作者把训练出的分类器应用到这篇论文本身时,该论文遭到了无情拒绝,且拒绝概率高达 97%。不少人认为作者在搞笑,当然也有很多人严肃读论文,辩论数据、结论的不合理之处。甚至有人说,研究揭示了论文评审中本就存在的人类偏见。诚然,人类的偏见无法消除,目前也无法设计出完整的可解释、可纠正的、能够让评审员仅凭借提取的信息采纳或者拒稿的AI审稿工具,但我们不妨期待,当 AI 工具加入论文评审大军后,审稿人能够从其他环节中节省更多时间,从而认真评审我们的论文,给每位投稿人一个满意的答复。
树立正确评价向导,破除“唯论文”不良导向
最后要说一点,尽管顶会审稿机制存在诸多争议,但在投稿数量逐年递增的各大顶会中,“灌水”论文数量水涨船高也是不争的事实。于是,不断有声音在呼吁,“不要再只盯着论文看了”。深度学习先驱、蒙特利尔大学计算机系教授,2019 年图灵奖获得者Yoshua Bengio就在个人博客反思,顶会论文的 Dealine 让人疲于应对,对于提升研究质量来说弊大于利,机器学习研究的发表模式是时候开始变革了。 确实,从过去几十年来看,学术氛围发生了不小的变化。如今,人工智能领域的论文规模正在呈指数型增长,竞争氛围强烈,节奏快,这让每个人都背上了很重的压力,促使很多人一有新的想法就急于发表,唯恐其他人会在某处做了与自己相同的工作。如今,一个博士生在毕业前发表的论文数量,比二三十年前的博士生多了一半不止。AI领域的研究几乎完全进入了会议发表模式,这种模式与传统期刊论文相比发表节奏更快,但是无法经过多次的修订之后提升内容质量。 所以,尽管我们的生产力更高了,但是这种迫于压力的“生产力提高”对论文质量和内容深度造成了破坏。许多可能包含错误、不够严谨或者只是做了简单的增量提升的论文都赶在 Deadline 之前提交了上去,很多人甚至没有充足的时间去检查内容。此外,现在也有攀比论文发表数量的氛围,尤其是作为一作或者共同一作的论文。对此,很多学者呼吁,大家是时候思考慢科学了。因为有价值的、重要的研究进展是需要一个过程的,需要研究者用一些时间去深入思考,继而小心求证。正如香港中文大学助理教授周博磊发表《和 CVPR 十年来的不解之缘》写道:“在所谓的 AI 研究确实变得越来越 cheap,门槛越来越低的时候,以及大家都随地吐痰的时候,并不意味着你也可以吐。保持对科研的敬畏和好奇,这条路才能越走越宽,越走越远。”正是如此,2月17日,科技部印发《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》的通知,明确科技评价中要实施分类考核评价,注重标志性成果的质量、贡献和影响,矫正在科技评价中过度看重论文数量多少、影响因子高低,忽视标志性成果的质量、贡献和影响等“唯论文”的不良导向;2月18日,教育部、科技部联合印发《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》的通知,提出需要整顿“唯论文”“SCI至上”的风气,并列举一系列相应的纠偏举措:加大发表国内高质量期刊论文的要求、降低SCI和影响因子在学术评标准中的地位、收紧论文发表费用、推行论文代表作制度、不将 SCI 论文指标作为招聘和毕业的前置条件。这两条重磅文件同样对计算机科学(同样包括人工智能领域)有广泛影响。北京交通大学于剑教授和西安电子科技大学高新波教授认为,"顶会顶刊模式"是当今中国大陆计算机流行的科研模式,该模式曾推动了中国科学技术的进步和发展,但如今却成为科学原创性的阻碍。于剑教授认为,顶会、顶刊的论文,大多体现的是热点问题与时髦方法,从而相同方向的研究者会很多。所以顶会、顶刊的论文,大多是热点问题的扩展修正或热点方法的延伸改进,特别适合学生和年轻老师练手。但是,顶会顶刊并不代表科研最高水平,对于研究人员、特别是正高级职称研究人员而言,不宜再以“顶会顶刊模式”作为自己追求的“大目标”,而只能作为训练学生的“小目标”。正高级职称研究人员应当不再满足于跟踪模仿、改进修正的“从1到N”的研究,而是要追求原始创新、颠覆既有的“从0到1”的研究。即便没能彻底解决问题,能提出原创问题或猜想也很好。为此,我们迫切需要改进科研评估体制,特别是关于科研人员评估体制的改进,如此才能有一批研究者不以短期目标为主,能够追求更长远的目标。让我们期待,“树立正确评价导向”能逐渐摸索出合理的制度,在这样制度的保护下,一批屠呦呦式的科研人员一定会不断涌现。