查看原文
其他

当期荐读 2021年第6期·特约稿 | 同行评议一致性研究

刘欣 李江 吴金闪 信息资源管理学报 2024-01-09

图 | Internet


刘 欣 李 江1  吴金闪

(1.南京大学信息管理学院,南京,210032; 2.北京师范大学系统科学学院,北京,100000)

    摘  要    

评分一致性是衡量同行评议评价效果的重要指标之一。为了探究同行评议中评审人在研究质量评价上的一致性,本研究基于ICLR会议的公开同行评议数据,使用多位评审人对一项研究评分的方差衡量一致性,并采用单因素方差分析等方法,分析了对不同研究质量论文评审人评分一致性的差异。结果发现,同行评审对于质量较差论文的一致性高于质量较好的论文。基于这一证据,本研究提出以“择差”为目的的“底线评审”的构想,以完善当前以“择优”为宗旨的同行评议制度。

1

引言

自2018年开始,我国相继发布了“破四唯”“破五唯”以及“反对SCI至上”等政策,为高校以及科技工作中的项目申请、职称评定、学位授予等活动提供指导和建议。长期以来,基于量化指标的评价模式造成了急功近利的浮躁学术氛围。这一系列政策的目标就在于打破以简单机械的量化指标为主的评价传统,改善学术风气,促进创新发展。不少学者提出破除量化评价导向,需要建立更好的“同行评议制度”[1-2]

尽管同行评议一直是科学界公认有效的评价方法[3],但传统同行评议存在的争议仍不容忽视。研究表明,同行评议在评价中会存在主观性强、“马太效应”、利益冲突以及成本高等问题[4]。除了同行评议固有的问题以外,采用同行评议择优分配科研资源的方式也存在一定问题,主要集中在容易引发过度竞争[5]、对创新性成果、跨学科性研究的评价不准确,从而导致很多优秀的科研项目无法得到资助[6]等方面问题。

评审人的评分一致性是衡量同行评议评价效果的重要指标之一,有学者指出,同行评议的最大缺陷之一就是评审人对同一项研 究的评分不一致[7]。一致性是指评审人对一项研究作出判断的共识程度,若共识程度较高,则说明对该项研究质量的判断一致性较高。保证同行评议较高的一致性是必要的。当不同的评审人对研究的价值和贡献有不同的意见时,分歧问题经常发生,实践中往往会通过求取平均值或者以多数意见作为决策的依据。尽管出现分歧不一定是坏事,但是在同行评议制度下缺乏共识会导致埋没一些极具创新或者处于学科研究前沿的科学成果[8]。在评分不一致的情况下,基于均值作出决定的风险很大。

尽管目前已有较多研究对同行评议用于科研评价的效果进行审查,但尚未得到一致的结论,且在识别研究质量的评分一致性方 面研究较少。本研究尝试通过分析评审人对同一项研究的评分一致性,来探究同行评议在评价哪种质量的研究时更有共识。

2

文献评述

同行评议是科学界运用最广泛的质量控制机制,长期承担着科学守门人的作用。1665年英国皇家学会创办《哲学汇刊》,首次通过同行评议对投稿论文进行质量评估[9]。此后,美国率先将同行评议引入政府科研项目资金申请的评审工作中[10],如今已广泛应用在期刊论文评审、基金分配、人才评价等各类科研评价活动中。

 2.1 同行评议的可靠性与有效性


可靠性是与一致性类似的概念,指的是针对同一研究的两个或多个独立评价的一致程度[11]。当不同的评审人得出相同或相似的结论时,即评审人的意见较为一致,这样的同行评议才更有利于决策。已有研究对同行评议可靠性的评估大多采用了Cohen's Kappa系数、组内相关系数(ICC)等方法。这一类指标通过测量两位评审人对同一组研究的判断(评分)的一致性比例,来衡量同行评议小组内部信度,且均得出了同行评议具有较低可靠性的结论[11-12]。Bornmann等[13]对2010年以前发表的关于同行评议可靠性测度的研究进行元分析发现,同行评议的可靠性非常有限。

关于同行评议对于哪种质量的研究的评分一致性更高,目前学界研究较少,且没有一致观点。1991年,Cicchetti[11]发现在心理学、医学领域的论文评审中,低分论文的评分一致性高于高分论文,但在物理学等领域,评审人对接受稿件的一致程度会高于拒稿稿件。2013年,Ragone等[14]对计算机领域的10个会议的评审数据进行分析发现,同行评议过程对非常好或者非常差的文章具有较高的可靠性,因为审稿人评分的一致性较高。

同行评议的有效性关注的是评审人作出正确评估策略的能力,如果筛选出的研究最终被证实是具有学术价值的,那么这样的同 行评议是有效的。有效性的相关研究通常会分析评审结果与项目最终成功与否、论文出版后的影响力表现等量化指标之间的相关关系,但已有研究在该问题上也没有一致观点。例如,Li等[15]对NIH资助项目进行研究,以百分位分数为自变量,项目的出版物数量、引文总和等分别作为因变量进行回归分析发现,同行评议分数始终与被引频次正相关;而Fang等[16]的研究表明,受基金支持项目所发表的论文的各种表现指标和项目批准时候的评审分数基本没关系;Teplitskiy等[17]探究了发表在《American Sociological Review》期刊上的论文的同行评议分数与长期引用之间的关系,发现同行评议并不能预测引用影响;Bartneck[18]发现同行评议的得分与论文最终被引频次之间不相关。

2.2 同行评议“择优”的问题 


相比于量化指标,同行评议充分运用专家的领域知识对科研人员及其研究成果进行综合评价,因此,常用于解决期刊空间、科 研资金有限等资源稀缺情况下的评价和分配问题。然而,也有批评者认为,同行评议对科学价值的主观判断会受到各种偏见、社会关系和评审人自身属性的影响[4]。在各种因素的作用下,同行评议对质量的控制并不可靠[13],尤其是对高度创新的研究以及跨学科研究的支持不足。

Siler等[19]通过对三种精英医学期刊刊载和被拒论文最终发表以及引用情况进行研究发现,总体上同行评议可以识别好文章(以引用为判断标准),却无法识别杰出的、突破性的文章。2014年,NIPS会议对部分评审论文进行试验,结果显示,不同评审组对于文章的选择具有较大的差异,这体现了同行评议的任意性[20]。Brezis等[21]通过模拟实验进行研究,将任意性背后的机制归结为评审人对于口味与创新认识的同质性以及审稿时间投入的异质性,研究结果显示,创新性论文在同行评议中的接受度较低,且常被拒绝。Packalen等[22]分析了生物医学研究论文的创新想法输入时间与NIH资助率的关系发现,引入最新想法的文章比引入7-10年的成熟想法的文章更容易得到NIH的资助。从目前的研究所揭示的机制来看,同行评议无法较好地识别创新性的原因,在于创新性研究通常突破了已有的研究范式,与评审人基于自身认知所定义的优秀存在不一致[23]。而研究者倾向于认为自己选择的研究问题和采取的研究方法更合理,尤其是有经验、有成就的科学家,这种认知习惯导致评审人会低估与自己已有认知差异较大的研究,Gillies将这个现象称为“研究者自恋”[24]。并且,由于评审人无法预期结果,这样的创新性研究会被视为高风险的,利益相关方通常不会选择这样的项目进行资助[6,25]

与创新性研究评价具有相同困境的是跨学科研究的评价。跨学科研究会应用多学科知识解决问题,这对同行评议的评审人员提 出了挑战,因此跨学科研究的价值常被低估[8]。Jirschitzk等[26]在研究中发现,评审人在对其所属学科以外的研究进行评价时,评审人之间的信度相当差,而同一学科的评审人之间的评价意见差异不大。

此外,也有学者认为,同行评议择优的方式具有较大的随机性,因为衡量优秀或者成功的过程本身就包含着极大的随机性[27]。例如,Graves等[28]采用 bootstrap抽样的方法,对选择项目进行资助过程中的随机性进行测度,结果发现,超过半数的选择项目在考虑随机变异性后将得不到资助。

3

实证分析

3.1 数据来源及处理 


OpenReview网站是目前广泛被采用的开放评审平台,公开了大量学术论文的同行评审数据。其中,深度学习的顶级国际会议ICLR是采用该平台进行开放评审的最具影响力的会议之一,该会议公开了所有论文的评审结果,并且数据较为全面。本研究以ICLR论文评审数据作为数据来源,从网站上获取2017—2021年所有提交论文的评审数据,包括每篇文章所获得的各个评审人1—10分的评分、1—5分的自信度(Confidence,5分表示评审人完全确定给出的评价是正确的,1分表示评审人的评价是有根据的猜测)以及论文最终的收录情况(接受为口头展示、接受为海报或拒绝)。由于2020年该会议修改了评分标准,评审人仅可以对论文打1,3,6,8这四个分数,导致论文得分分布与其他年份的分布差异较大,故去除2020年的数据,总共获得5268篇论文及其评审结果。

ICLR会议的每篇文章均由3—5位专家独立对其进行评审并给出评审得分。计算各个评审专家对单篇论文评分的平均值,作为该论文的最终评审得分(以下简称论文得分)。本研究以论文的最终评审得分来衡量学术论文的研究质量。

3.2 描述性统计分析 


各年份论文得分的描述性统计结果如表1所示。该会议的投稿数量呈逐年增长趋势,各年份论文得分的平均值基本稳定在5.400分左右。图1展示了各年份论文得分的核密度分布,由图可知,四年的得分分布大体一致。

表1  ICLR 论文各年评审得分的描述统计

图1 各年份论文得分核密度分布图

表2 被接受和被拒绝论文的得分情况 

接着对被ICLR会议接受和拒绝的论文得分情况进行统计。表2结果显示,被接受的所有论文得分的平均值(avg_rate_accept_oral=7.356)比被拒绝的所有论文得分的平均值(avg_rate_reject=4.878)要高。但是,被拒绝的文章中也不乏得分较高的论文,例如,被拒绝组中存在得分为7分的论文,被接受的论文中也存在得分较低的情况,这一点体现了即使论文被接受,也并不代表其综合质 量一定较高。当然,如果评审人评分出现分歧,平均得分也可能被拉低。

3.3 评分一致性分析 


为了进一步探究评审人在评价同一篇论文时的共识问题,本研究基于ICLR数据,从单篇论文得分变异性的角度分析多位评审人对单篇论文评分的一致程度。如果多位评审人对同一篇论文评分相差较大,则说明评审人之间存在较大的分歧,也即一致程度较低。在这一情况下,评审人得分的平均值与被评审对象的真值将存在较大的差距,该评审过程被视为不可靠。如果评审人之间存在共识,即评分分歧很小,则评审人得分的均值能更加准确地代表论文真实质量。我们将“一致性”定义为论文获得的一组得分的方差,则对于论文i,有n位评审人对其进行评分{ri1,ri2,…,rni},则一致性Ci 为:

方差越小,表示评审人对于第i篇论文的一致性越高。当方差为0时,表示评审人对第i篇文章的评分完全一致,不存在分歧情况;反之方差越大,表明评审人之间的一致性越低。

首先,将评审人一致性与论文得分映射为散点图,并绘制95%置信区间下的一致性拟合曲线,如图2所示。从图2中可以看到,对于质量较差的论文(左侧),评审人在评审时存在的分歧程度低,一致性高。随着论文得分越高,评审人的评分分歧开始逐渐增大,在论文得分为5.5分时达到波峰,之后分歧开始小幅度减小。

图2 评审人评分一致程度

接着将论文得分从0到10均等划分为四个分数段,分别代表不合格[0,2.5)、合格[2.5,5)、良好[5,7.5)和优秀[7.5,10]四个等级,分析评审人一致性在不同研究质量组别之间的差异。以论文研究质量为自变量,一致性为因变量,进行单因素方差分析(ANO-VA)。表3展示了单因素方差分析的结果,结果显示,在评审人一致性上,因变量的组间差异显著(p<0.05),表明各组论文的评审人一致性具有显著的差异。进一步对各组的均值进行分析。图3展示了不同研究质量组对应的评审人一致性以及评审人自信度。对各组一致性的均值进行比较发现,不合格组的评审人一致性(C=0.660)高于其他三组,合 格、良好和优秀三组的均值分别为0.760、0.841、0.767(分值越高,一致性越低)。各组分歧程度均值差异大小关系为:不合格组<合格组<优秀组<良好组。此外,评审人自信度的特征与评审人一致性的 特征基本一致,评审人对“不合格”组评分的自信度明显高于其他组,且对良好和优秀组论文的评分持有更高的不确定性。

表3  论文得分等级与分歧程度的单因素分析结果

图3 评审人一致性及自信度

上述分析发现,在评价论文等内驱型被评审对象及其研究成果时,评审人对得分极低的论文的判断具有较高的共识,对评审过 程及结果也更具自信,对较为优秀成果的共识略低。值得注意的是,评审人对处于中间层次的论文的评分产生了较大分歧。这一结果反映了目前同行评议择优的标准给评审人的评审带来了一定的困难,评审人难以准确评价处于被接受边缘的论文,因此容易产生较大的分歧。然而,判断被评审对象质量是否较差,会比判断被评审对象是否优秀的复杂度更低,在“是否达到底线”这一问题上,评审人更容易达成一致意见。

4

结论与讨论 

本研究基于ICLR会议的公开同行评议数据,分析了评审人对单篇论文评分的一致性,研究发现,评审人对质量较差的研究的判断具有更高的一致性,且更自信。本研究的贡献体现在:① 验证了Cicchetti[11]和Ragone等[14]的观点,即同行评议在识别质量较差的研究上有高度共识;②提供了来自最新数据的证据,即1991年[11]和2013年[14]之后, 2021年的实证数据(ICLR2017—2021)仍然支持“同行评议在识别质量较差的研究上有高度共识”的观点;③提出了与Ragone等不同的观点,即同行评议在识别特别优秀的研究上缺乏共识(Ragone等认为同行评议在识别特别优秀的研究上有高度共识)。

由此可见,当前科研评价中盛行的“择优”的逻辑并没有充分的理论与数据支撑,相反,“择差”的逻辑更容易找到依据。同行专家在评判研究质量的时候,在“择优”上的分歧大于“择差”,在识别“差”的研究上更容易达到意见一致,而且他们对于自己“择差”的结果更自信。这是本研究的观点,且与Cicchetti[11]和Ragone等[14]的研究发现一致。该观点对于我国科研评价改革尤其是完善同行评议制度具有重要意义。

“择优”在项目评审中体现为“择优立项”,即资助机构根据同行评议得分将项目申报书从高到低排序,择一定数目高分者立项。项目评审与学术论文评审存在一定的差别, 主要表现为期刊论文的评审是对已有研究成果进行评价,而科研资助项目是对研究计划进行评价,这是一种对预期结果的评价。Cicchetti[11]对NSF(美国自然科学基金)项目资助的研究发现,评审人对于低分申报书的评分一致性会高于高分申报书的评分一致性。因此,我们有理由认为,在项目评审过程中采用基于“择差”逻辑的“底线评审”方案具有合理性。

“底线评审”方案,可在项目评审的同行评议过程中设置一条“底线”,底线以下为差,将项目申报书交由专家“择差”,然后在底线以上“不差”的申报书中采用随机分配的方式立项。随机分配最早由Greenberg[29]提出,随后,Brezis[30]提出了更具体的focal randomization的资助分配策略,即接受所有评审人员认为排名靠前的项目,拒绝所有评审人员都认为无价值的项目,而排名不一致的项目将被随机化进行资助,这一思想可被视为“底线评审”的雏形。随机资助计划在发展中进一步得到优化,Fang等[31]将科研资金的分配分为两个阶段,第一阶段根据传统的同行审查,判断申请是有用的或无价值的;第二阶段对评审为有用的项目,按照计算机随机生成的分数,向尽可能多的申请提供资金。目前已有一些机构尝试了随机分配的资助方式,例如新西兰卫生研究委员会的探险者基金计划[32-33]、德 国VolkswagenFoundation的资助倡议[34]以及新西兰政府的SfTI基金项目[35]等。底线评审充分结合了同行评议和随机分配的优势,只判断研究是否达到了合格线(通常是“科学性”“可行性”等容易做出准确判断的标准),对超过底线的所有研究进行平均支持或者随机分配。其内在逻辑就是同行评议虽然无法准确地识别优秀的研究,但可以准确地筛选出质量较差的研究。

本研究的不足之处包括:①本研究试图通 过证明同行评议在识别质量较差的研究上更有共识,进而为底线评审提供理论支撑,但因难以获取基金项目的同行评议数据,而采用计算机领域ICLR会议论文公开的同行评议数据作为代替方案,因此,逻辑上存在因研究设计而导致的固有缺陷;②ICLR会议的同行评议方式 在2018年由单盲改为双盲,因此,本研究采用2017—2021年的数据中,可能存在评审方式 的改变对同行评议评分依据的改变。

参考文献


作者简介

刘欣,硕士生,研究方向为信息计量学;

李江(通讯作者),教授,研究方向为信息计量学,Email:lijiang@ nju.edu.cn;

吴金闪,教授,研究方向为科学学与系统科学。

*原文载于《信息资源管理学报》2021年第6期,欢迎个人转发,公众号转载请联系后台。


* 引用格式

刘欣,李江,吴金闪.同行评议一致性研究[J].信息资源管理学报,2021,11(6):10-16,94. 


往期 · 推荐

当期目录 | 2021年第6期

当期荐读 2021年第6期 名家讲坛 | “十四五”科技情报创新的思考

往期荐读 2021年第5期 | 我国数字包容政策分析与对策研究—基于政策工具视角

往期荐读 2021年第5期 | 合乘出行政策文本分析及审思:价值共创的视角

往期荐读 2021年第5期 | 公共信息系统发展决策的同伴影响研究——以我国市级政府开放数据网站为例



制版编辑 | 王伊杨

审核 | 于阿媛



长按识别二维码关注我们

信息资源管理学报

微信号

xxzyglxb




分享、在看与点赞

只要你点,我们就是朋友😊



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存