从翟天临事件,讲讲学术评价这池水有多深 | 大家·匿名专栏
1
最近几天,学术圈和娱乐圈莫名其妙地搭上了桥,搭桥的就是那位倒霉的青年演员。网友们之所以能高度自信地质疑几位事主的学术水平,主要依据就是那几个人的学术作品没能达到规定的要求。只要指标是清晰的,就怪不得人人都可当评委了。
翟天临的硕士论文目录被扒出
翟天临的道歉信
不巧的是,时下学术圈的热点话题却是破除“五唯”(唯分数、唯升学、唯文凭、唯论文,唯帽子),所以就有人开玩笑说:“事件风波中的某高校居然成了破五唯的先驱”。一句玩笑道出了问题背后的复杂性。
“五唯”之害广为人知,教育工作者体会更深,但之所以成为现行教育评价体制中的“顽瘴痼疾”,原因显然不是其本身难以废除,而是废除之后不好替代。所谓“破旧易,立新难”,而若“立新”的好处遥遥无期,“破旧”的弊病却已排山倒海而来,改革就变成了折腾。
教育评价改革既是一场攻坚战,又是一场持久战,作战时间表恐怕至少要以10年来筹划,不可能毕其功于一役。改革需要决心,但更需要耐心。
作为高校教师,我更关心“五唯”中的“唯论文”和“唯帽子”,原因不言而喻,论文和帽子是高校学术评价的重要指标。论文要看数量和级别(ABCD,1区2区,影响因子、引证转载等等),不同级别的论文之间还有换算关系。帽子要分大小(优青、杰青、长江、百人、千人、万人、院士等等),从小到大已然竖起了一道天梯。
对于理工科的教师,攀爬这道天梯就是人生的旅途。成功的攀爬者必须在规定的年龄爬上相应的横杆,一步赶不上就步步赶不上了。所幸人文社会科学领域没那么多帽子,路子反而要宽阔一些。
虽然“唯论文”和“唯帽子”在扭曲学术评价乃至破坏学术生态方面已经造成了严重后果,但这两个问题的背景都高度复杂,牵一发而动全身。改革需谨慎,搞清楚背景和原因,才好对症下药;若是慢性病,就使不得虎药狼医。
我写这篇文章主要针对人文社会科学领域的学术评价改革,试图探索一种补充性的而非替代的学术评价体制,同时主张一种侵入式或渐进式的改革思路。最好先行试点,即使新体制确实行得通且有生命力,也不要对旧体制全盘否定;只要能与现行体制形成竞争,就算大功告成,剩下的交给市场。
大家都在说让市场发挥基础性作用,但到了关键时刻却经常忍不住要越俎代庖。要知道并非只有经济市场才是市场,隐性的市场同样是市场,学术竞争和市场竞争的逻辑是一样的,而“五唯”正是导致市场失灵的首要原因。
2
人文社会科学领域的学术评价体系是由各种指标组成的,这些指标包括论文、项目、获奖、专著、荣誉、社会服务及领导批示等等。
对于高校老师而言,指标就是身价;职称晋升、业绩考核、人才引进以及各种帽子评审,无一不是看指标。对于学院和学校而言,指标就是资产;学科评估、学位点评估以及各种排名,同样都是看指标。
各项指标可以被汇总进一张表格,一目了然。资深评审人深谙本专业内部公认的指标权重和不同指标之间的换算关系,上眼几分钟打量一下申报表格,就能大体做出评价。
即使评审人了解申报人的真实学术水平,也必须尊重表格,因此有时会很纠结:这个人水平不错,可惜表格不好看;那个人水平一般,但表格很漂亮啊!
权重最大的指标当属论文和项目,这是职称晋升的两大硬件,缺一不可。但从根源上看,论文才是重中之重。论文发表后可以拿去评奖,可以作为争取项目的依据,攒足了还可以整合为专著出版。千里之行,始于论文。
于是期刊版面成为学术界最珍视的稀缺资源,学术圈里的宫斗剧,拼的就是版面。为啥书号反而不值钱?因为出版是一种商业行为,出版商收钱就可以出书,所以专著在学术评价的指标体系中从来不是硬通货。
学术期刊
倘若所有指标都过硬且占足天时地利人和,就有条件去拼“帽子”了。帽子评审是学术界关注的大事儿,主管部门会牵头组成一个评委会,评审人都是行业内部的资深专家。
至于评审人能起多大作用,不好说。前些日子媒体爆出了某高校某青年长江学者的狗血事件,让很多人惊呼:“她是怎么拿到青年长江这顶帽子的?”不客气说,凡吃惊的都是外行,内行觉得很正常。评审未必有黑幕,原因很简单,这位年轻人的表格实在是很漂亮。
中国青年报的报道
狗血事件折射了帽子评审过程中的两重尴尬和两重委屈。
制度设计者当然很尴尬,但他们会觉得很委屈:“我们已经最大限度地排除了行政干预和权力寻租,同行评审难道不是全世界通行的做法吗?出事怪不得我们,要怪只能怪评审人太不负责任。”
评审人也免不了尴尬,但同样觉得很委屈:“我们收到的评审材料无非几张表格,表格上填满了学术指标的统计数字。虽然评审材料附有申报人的代表作,但谁都知道评审的潜规则要求我们该怎样对待表格和作品。”
按论文质量评,难免起争议;按表格评,谁都没话说。评审的潜规则其实也没什么不可说的。
听说曾有位院士在某次评审会上抱怨说:“这活儿用不着我们来干,找个会数数的小学生就够了!”话虽说得夸张,但几分真假,大家心里有数。
还有一个流传已久的说法:“国内学术界的帽子归根到底是由期刊编辑们评出来的!”这话说得也夸张,但几分真假,大家同样心中有数。
3
不过坦率地说,现行学术评价体系并非没有合理性,指标和学术水平之间的相关性还是很显著的,没点真本事很难在指标上系统性胜出。指标当然会失真,但系统性失真的概率就没那么高了。狗血事件的发生有马太效应在作怪,一个人发论文越多,就越容易把论文发得更多;个中缘由,大家心知肚明。
即使有马太效应,有运气的因素,也免不了各种交易,但总体而言,只要申报人能把表格填得漂亮,水平就差不到哪里去;在这个意义上,事主是个特例。但表格漂亮也只能说明 “水平差不到哪里去”,至于是否真正出色,确实不好下判断;在这个意义上,事主不仅不是特例,而且是常态。
其实,现行学术评价体系最大的危害,还不是评价失真,而是激励扭曲。它会逼迫高校管理者和教师们把主要精力用来拼指标,而不是用来提高学术和教学水平。
老实说,做学术研究是需要天分的。知识产出和知识传播是两种不同性质的工作。高校教师是一个庞大的群体,只有少数人有能力创造知识。包括我自己在内的大多数高校老师还是应该致力于做好知识传播。
《死亡诗社》的电影剧照
寒暑假是高校老师集中完成写作任务的日子,这段时间很珍贵。如果连续三天只读书不写作,我内心就充满了负罪感,觉得自己太任性了。
何苦逼迫大家都去写论文呢?国家不需要,人民不需要,学生也不需要。真正的赢家,除了垃圾期刊的经营者,就是权力寻租游戏中的玩家们。
逼迫大家都去写论文也倒罢了,毕竟写作还是个技能,随时都能派上用场,可逼迫大家都去申报项目就显得很荒谬了。
你写了一本书,花了国家一大笔钱,而我写的书分明比你好,只是没花国家的钱。按理说我为国家省了钱该受到褒奖才对,怎么到头来反倒是你成了赢家?
不能装天真,我必须得认输,因为在表格上我只能填一本专著,而你的表格上却可以多填一项指标。更要命的是,按现行学术评价的指标体系,项目才是硬通货,专著是不值钱的。
高校管理者有问题吗?没有,问题还是来自主管部门。主管部门把项目数量、级别和资金列入学科评估、学位点评估的指标体系,学校管理者怎能不把贡献指标的任务分摊给教师们?
搞个项目不容易,从申报到立项、再到结项,其间还有开题和中期检查,每个环节都得扒层皮。搞个大项目更是难乎其难,光是撰写的申报材料就差不多有半本书厚,一大堆研究生非得折腾上一个假期不可,其他那些麻烦就不要提了。
申报项目是有技巧的,很多掌握技巧的申报专家应运而生,他们受邀到各大高校巡回演讲,还办了一些培训班。这些专家指导的不是如何做研究,而是如何提高申报成功率。我们对这些事情都习以为常了,可回头想想不是很滑稽吗?
多年前我申报某个国家级项目也是屡战屡败,坚持了很多年终于屈服,换了个大家都能看明白的选题,写了份规规矩矩的申报书,当年就中彩了。
一位朋友曾说:“如果你爱他,就让他做项目,因为这里有好处;如果你恨他,就让他做项目,因为这会毁了他。”
这位朋友最近忙着写一本书,他自以为即将写出来的这本书会很有价值,至少比他过去发表的那些论文有价值。但他经常自嘲说:“一个人得堕落到什么程度,才会去做这么有意义的事情!”
堕落谈不上,奢侈是真的,再怎么潇洒也应该先以这本书的选题申报个项目,等书稿写完再拿去充作结项的成果。但这位朋友却只打算写本书。申报项目太麻烦了,也没什么办法让评审人理解这本书的价值。
自嘲暗藏沾沾自喜,但他之所以能沾沾自喜,是因为他已经基本实现了“学术自由”。所谓“学术自由”,是指一个人在其学术生涯中可以不再为指标而奋斗的境界。达到这个境界,才有资格去做自己认为有价值的研究。
实现学术自由起码要具备三个条件:第一,必须拥有教授职称;第二,必须放弃更高的追求(那些帽子);第二,所处高校的管理和考核必须足够开明。具足这三条,才能摆脱指标的纠缠,当然,内心还得足够洒脱,脸皮也得有点厚(他不申请项目,就意味着他把申请项目的任务推给了自己的同事们,因为学院需要指标)。
不管怎样,这位朋友还是值得羡慕的,因为在我看来,“学术自由”是一个人学术生涯的真正起点。学术人生可能就是这样,要做一件有意义的事情,就得先做一些无意义的事情。
4
破除“五唯”中的“唯论文”,显然不是要降低论文在学术评价体系中的权重,而是要从注重论文的数量转向注重论文的质量。没人否认论文质量是评价学术水平最重要的指标。但论文质量是不好评价的,哪个评审人敢说我的论文不如你?
学术评价的最大问题,根本不是“评价”,而是控制争议和分歧,防范冲突和麻烦。
电影《一代宗师》中有句台词说:“功夫就是一横一竖。赢了的,站着;输了的,趴下。”如果学术界也有擂台赛,学术评价就变得简单了,失真与否姑且不论,关键是输赢大家都服气。
《一代宗师》的电影剧照
学术评价要做到没有争议,就必须拿出类似“一横一竖”的制度性标准。期刊级别、引证率、转载率或影响因子之类的指标之所以意义重大,原因就在于此。质量和水平不可观察,但指标却是一目了然。数字嘛,总是清晰的。
尽管发表于权威期刊的论文,其质量未必优于核心期刊,甚至未必优于普通期刊,但在制度上却只能如此确认,否则就会引来无穷无尽的争议。
不是还有论文盲评吗?没错,如今各大高校普遍实行论文盲评制度,无论职称评定,还是研究生毕业论文答辩,都要经过盲评这一关。
盲评采用“双盲机制”,申报人和评审人双向匿名。但是很遗憾,盲评制度在学术评价中没能发挥出它应有的作用,至少在教授职称的评审程序中已经形同虚设。不管论文质量多么糟糕,评审专家都很难打出“不合格”的评语,原因是多方面的。
首先是不忍心,谁都知道高校老师熬到有资格申报教授得经历多少煎熬;其次是感觉不公平,每个人心里都有杆秤,如果认定眼前这篇论文不合格,那么此前已经评上教授的那些人的论文又有多少能算得上合格呢。
更何况,评审专家都知道论文盲审只是职评程序的许多关卡之一,高抬贵手只是把职评的任务留给高校自设的评审会,其潜台词是:“此人上不上教授还是由贵校自己决定吧,在这个问题上,我一个外人可不想说了算。”我猜测,那些打出“基本合格”的评审人心里都是这么想的。
莱顿大学的博士评议仪式(1721年)
评审专家还会进一步想到,盲评的潜规则是“得饶人处且饶人”,如果其他评审人都足够宽容,只有自己较真还有什么用?谁能改变得了制度和风气?
职评程序最重要的关卡还是评审会,评审会由学校人事处牵头组成,评审人都是校内不同学科的资深专家。但到了评审会上,评审人手里的职评材料就只有申报人填写的表格了。没错,最终还是指标说了算。
据我观察,研究生毕业论文的盲评制度也在最近几年呈现出迅速退化的迹象。主管部门搭建了一个研究生毕业论文的盲审平台,每年邀请大量专家评阅大量毕业论文。但出乎意料(其实是不出所料)的是,盲审平台的规模越大,盲评制度就越容易失灵。
评审人越是认真负责,他耗时就越多,而那些不负责任的评审人却可以敷衍了事或干脆让学生代劳。由于评阅论文的报酬是固定的,所以那些认真负责的评审人就更可能选择拒绝评审(不只是因为觉得不划算)。但当这种情形积累到一定程度时,逆向选择就会恶性循环;评审人的总体质量明显下降,而这会让那些认真负责的评审人更倾向于选择退出。
去年夏天,研究生毕业论文答辩期间,我曾看到过一份反馈回学校的令人吃惊的论文评阅书,这份评阅书的奇葩之处是,评阅人连评审意见都懒得写,而是直接抄袭了送审论文的一部分摘要,并且在几乎没有解释任何理由的条件下,就把这篇毕业论文给毙掉了。
如此不负责任评审只可能出现在大规模的盲评平台中。倘若某所高校的管理人员把学生的毕业论文单线送给某个评审人,断然不会发生这等事情。虽然是盲评,但学校的管理人员却有条件知道是谁这么不负责任,哪怕只有这一点点顾忌,评审人也不至于如此无下限。但在大规模的盲评平台上,却没人得知这份奇葩评阅书究竟出自谁手。
5
想必大家已经看出端倪了,盲评制度失灵的关键就在于一个“盲”字,匿名评审变成了黑箱操作。制度设计的初衷就是为了打消评审人的顾虑,匿名是对评审人的保护。但结果却是,评审人的顾虑非但没有消除——因为匿名不能保证管理人员不向申报人通风报信,毕竟他们在一所学校工作——黑箱操作反而让评审变得毫无约束了。
对症下药的话,学术评价改革就应从打破盲评入手,不仅要公开公布评审人的姓名身份,而且要让评阅书暴露于众目睽睽之下。利用网络平台引发围观,让围观的压力迫使评审人认真负责,进而为高水平且负责任的评审人积累声誉,与此同时那些缺乏学术判断力的评审人就会主动远离这项工作。
具体做法是由主管部门设立一个网络评审系统,申报人提交代表作,管理人员将作品公布在网络平台上,人人都可下载阅读;然后,官方负责在全国范围内招募同行专家作为评审人,但要求评审人必须对论文写出详细评语之后再给论文评分,评语和评分都要公布在网络平台上。申报人匿名提交论文,评审人实名写出评语。评审由双盲变成单盲。评审制度的其他细节,可以由主管部门继续补充。
例如,评阅人还可以在送审作品的电子文档上详加批注,然后把批注版的论文上传到网络平台,人人都可下载阅读。
再如,若申报人对评审人的评语和评分有异议,可以针对评语写出辩解和反驳,但评分依然有效。当然评审人也可以针对辩解和反驳再次作出回应。
此外,还可以考虑设置开放的网络评论区,任何人有权在评论区匿名或实名发表言论。不必担心申报人或评审人雇佣水军,因为水军的身份从其发言质量一望而知,这种行径成事不足,败事有余。
评审制度如此设计,主要是为了避免黑箱操作。但其可行性仍然面临诸多质疑,最重要的是,如果申报人和评审人串通作弊怎么办?回答是不用担心。既然送审论文和评阅书都被晒出来了,任何明显的作弊行为都很容易被围观者识破,至少双方都有这个顾虑。有所顾忌就比无所顾忌要好得多,说得难听点,即便作弊杜绝不了,阳光下的作弊也一定是有分寸的。
单盲将评审人置于一个危险的位置,他因此有了拒绝作弊的过硬理由。设想一下,假定我是申报人,且得知评审人就是我的好朋友,我会不会向他打个招呼,求他“给点照顾”、“网开一面”或“手下留情”?老实说,很难开口。因为我的顾虑很多,并且我知道评审人的顾虑也很多。学术圈对声誉还是高度敏感的,见不得光的事情只可能发生在阴暗的地方。
单盲评审是个很残酷的机制。围观的力量很强大,它能把网络评审系统变成一个擂台:申报人和申报人、评审人和评审人都会暗自较劲,申报人和评审人之间甚至可能会发生一场恶斗。
双盲机制下,大家睁一只眼闭一只眼也就过去了;但单盲机制下,谁的眼里都揉不进沙子。学术圈之所以一团和气,是因为很多人选择了独善其身。
假如长江学者采用单盲机制,我猜测无论申报人还是评审人都不会很踊跃。很多人也许会跃跃欲试,但思之再三就会感觉还是选择吃瓜比较好。能有多少人对自己的论文质量、学术水平和学术判断力真正自信呢?
6
世上没有完美的学术评价,同行评审之所以流行,只是因为实在找不到更好的做法。所谓“同行公认”通常都是夸张的说法,行业内部的分歧实际上远超外行的想象,被一部分同行捧上天的学术作品在另一部分同行眼里可能连垃圾都不如,但真相却未必站在多数人一边。
评审人的美德和判断力是同行评审成败的关键,遴选评审人的环节因此至关重要,单盲机制恰恰可以有效淘汰不合格的评审人。当然,逻辑上可行不见得实践上可行,我没有绝对把握说,单盲一定优于双盲,但至少可以确认,在单盲机制下不可能发生前面提到的狗血事件。
与单盲机制相匹配的是“资格论文制度”。想获得教职、职称或帽子,只需提交相应水平的论文通过评审和答辩就可以过关了,很多真正有才华和天分的年轻人因此能够更早摆脱指标的枷锁。
整个学术界的风气会发生变化,令人窒息的权力结构也会被撕开一道口子,山头和派系会受到冲击。学术作品的数量当然会减少,但质量肯定会提升,以数量换质量不正是破除“五唯”的题中之义嘛。
此外,英文论文会减少。很多人踊跃发表英文论文,既不是写给国内同行看,也不是写给国外同行看,而是写给评审人看。这是个信用背书的问题。
还可以想得更加乐观一些。如果将来有一天,我们建立了起真正的高水平中文学术圈,那么中文的劣势就一下子变成了优势。中国学者都能读英文,但外国学者却读不了中文。这其中的差异应该是喜不是忧。
但即使单盲机制被证明是可行的,也会由于条件有限且障碍太多而无法全面推广。好在尝试的代价并不高昂,尝试一旦成功其收益却是巨大的。
不妨先以评审长江学者为试点,现行评审机制依然保留,只需另辟一条单盲评审的蹊径就足够了。评审采用双轨制,新旧两种体制可以并行,当然也可以给新体制取个新名称,比如“黄河学者计划”云云。若干年后,就有条件观察黄河学者和长江学者的各自表现了。若出现系统性差距,则高下立分。
其实帽子工程无非是个激励机制和投资策略。通过把优秀的学者遴选出来,给予资助、待遇和荣誉,就可以形成一个群雄逐鹿的局面;而把有限的经费开支更多分配给帽子学者,是为了提高投入产出比。但问题是,帽子工程的初衷真的实现了吗?
许多学者在获得帽子之后依然能够坚持在一线开展学术研究,这已经非常值得敬佩了,是高度自律的表现。因为只要获得长江学者的帽子,他完全有条件选择寄生,以组织团队的名义招募雇佣军就可以玩得很嗨。
当然,学术竞争最终还是声誉指向的。只有高度清醒和高度自律的学者才会把帽子和声誉区分开来,才会在有了帽子之后依然执着地追求学术声誉。只要声誉机制能发挥作用,越是高水平的学者就越会珍惜自己的羽毛。更何况时代变了,信息渠道如此广泛,真有水平是不会被埋没的。
但有时帽子反而对学术声誉造成了严重的干扰,一旦帽子释放的信号失真,负面效果就会扩散到行业之外。外行看不清其中的门道,还以为请到帽子就见了真神。一想到地方政府“招才引智”正搞得如火如荼,就不由得替他们捏把汗。
相关阅读:
本文原标题:《破除“五唯”,学术怎样评价?》
文章内容纯属作者个人观点,不代表平台观点。