近年来国内外学术评价的难点、对策与走向
摘要:学术评价是一个世界难题,对学术评价的反思和展望既是讨论话题也是研究的热点。《旧金山宣言》和《莱顿宣言》是国外学术期刊的编辑、出版者和学者提出的应对学术评价难题的一些原则和办法。“全评价”体系则是中国学者提出的有关评价理论的成果。三者都主张评价目的的重要性,都反对将影响因子绝对化,质量评价应以同行专家评价为主,文献计量学评价可以作为补充、校验,都与近期中央反“四唯”“五唯”的精神相一致。但“全评价”体系对内容的阐述更具逻辑性和学理性,提出的时间也比两个宣言早了几年,体现出中国的话语,表明我国在学术评价理论研究上至少与国外处在同一水平上。从三者内容的对比也能分析出近年来国内外学术评价的难点、对策与走向。
1.近年学术评价概况
随着学术研究对于国家发展的重要性的增强,世界各国越来越重视对学术资源的分配和研究者水平和研究质量的评选。学术研究是一项高强度的复杂劳动,真理的探讨和认证都需要一个相当长的过程,但科研管理的现实却要求在一定的时间里,最好尽可 能快和好的评选和确定“好的学者”和“好的研究”,因此学术评价就成为一个世界难题。首先从国内看。2004 年,《中共中央关于进一步繁荣发展哲学社会科学的意见》第 20 条明确提出,要建立和完善哲学社会科学评价和激励机制。之后学术评价的时间和研究均有了很大发展,包括学术期刊( 核心期刊/来源期刊) 和学术图书评价、学术论文评价、学者评价、大学评价、创新力评价、学术评价体系和机制研究、学术评价理论分析、学术评价管理、评价指标研究、学术评价的规范研究等。在这 10 多年中,各个部委根据中央精神颁发过不少与学术评价有关的文件,直到 2018 年 10 月,管理部门又密集发布多个文件均与评价相关 ( 如表 1 所示) ,这说明国家高层和各管理部门非常 重视学术评价问题,拟下大工夫解决这一疑难问题。同时也说明管理部门接受了学界的一些有益建议,固化在有关文件中,希望更合理地评价、掌握和分配各种学术资源。
为了深入贯彻落实全国教育大会精神,教育部办公厅于 2018 年 11 月 7 日发出关于开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动的通知,明确要求“健全立德树人落实机制,扭转不科学的教育评价导向,推行代表作评价制度,注重标志性成果的质量、贡献、影响”。“认真梳理本校涉及项目评审、人才评价、机构评估事项,如职务职称晋升、项目 基地评审、重点建设学科确定、人才培养指标分配等方面,可参考但不限于附件2。对照‘五唯’表现逐项检查。对涉及‘五唯’问题的事项要深入分析问题根源,研究提出整改措施和意见建议。”清理的对象有: 单位内部管理文件; 各类考核评价条件和指标,具体表现形式包括但不限于评价指标体系、评价手册、评审细则等; 有关管理信息系统和工作表格。要求 2018 年11 月 19 日( 周一) 前报送清理情况。接 着,2019 年3 月4 日科技部、财政部、教育部、中科院四部门联合召开“减轻科研人员负担七项行动推进 会”,具体包括减表、解决报销繁、精简牌子、清理“四唯”问题、检查瘦身、信息共享、众筹科改等 7 项具体行动,分为“解剖麻雀”和“问题治理”两个阶段,要求集中整治后固化形成制度成果。科技部、财政部、教育部、中科院召开“减轻科研人员负担七项行动推进会” 。从2019 年“两会”一些代表的提案看,学术评价和学术规范的问题仍然是重点之一。例如,有的学界代表提出以下建议: 对一流大学建设高校 A 类 36 所单独制定更为合理的评估标准,可以先从前几轮学科评估中综合成绩排在前几位的大学入手进行试点;应主要采用国际国内同行评估,彻底淡化论文数量、项目数量的指标权重;对于一流高校的评估,建议有更长的时间周期,从目前的 4 年一评,扩展到 8 年一评,给一流高校更多时间从容发展,充分形成自身特色;取消学科评估中在读硕士生、博士生的论文发表统计。
从总体上看,中央及各部委发出的一系列文件,再次明确了搞好学术评价的原则、要求。目前各学术机构都在深入领会反“四唯”“五唯”的精神,结合各单位评价实际,找出问题,颁布措施,这是主流。例如, 2019 年4 月 19 日清华大学发布《关于完善学术评价制度的若干意见》,并提出了“七大任务”,包括研究制定符合学科特点的分类评价制度、教师评价体系、研究生学位论文评价标准、大学生荣誉奖励体系等。但是,有不少机构仍在等待观望,其原因一方面是源于对不“唯”论文等后,还“唯”什么的疑虑,另一方面也有“枪打出头鸟”的担忧。对这两个问题,需要从学理上解释清楚反“四唯”等的真实含义,出台保障“敢为人先”者的核心利益不因创新未果而受损的政策和制度。
其次从国外看。多年来,国外学术评价长期以同行评议为主,但自《科学引文索引》 ( SCI ) 、《社会科学引文索引》 (SSCI) 、《艺术与人文学科引文索引》 ( A&HCI) 以及欧洲的 Scopus引文数据库等检索工 具、美国 Dimensions 等统计与评价平台问世以来,世界各国有关引文数据评价与同行评价的实践与争论一直延续至今。2008 年以英国学者为一方,美国、以色列和澳大利亚的学者为另一方,曾激烈争论引文数 据能否完全代替同行评价问题。欧洲有感于 SCI 等数据库偏重于英文,近年建立以西文( 包括法文、德文等拉丁字母的文字) 为主的引文库 Scopus, Scopus 是 Elsevier 公司于 2004 年推出的多学科文摘索引型数据库号称全世界最大的摘要和引文数据库,涵盖了 15000 种自然科学、社会科学、技术及医学方面的期 刊。Scopus 不仅为用户提供了其收录文章的引文信息,还直接从简单明了的界面整合网络和专利检索。
Dimensions 则是将引文数据与 altmetrics( 补充计量学或替代计量学) 结合在一起,为研究人员、研究机构、出版者、研究基金机构和政府提供更快更准获取各种研究及其影响的数据检索和评价平台。谷歌学术( Google Scholar) 、微软学术( Microsoft Academic) 、 COUNTER和 F1000 等一些类似的开源或免费的统计与评价平台在国外已出现不少,说明国外在应用大数据、网络等技术开展学术评价的实践和理论方面有很大发展。
近年来欧美各国都在尝试进行研究的质量评价: 意大利曾大力利用文献计量法,但后因受到学界反对而放弃;法国曾利用专家法,但后因工作量太大而终止,继而改用“独立、便于操作、程序简单,并具有科学合理性及透明度”的方法; 德国科学委员会则以同行评议为主,文献计量法为辅,将数据提供给专家参考, 其评价目的不是资源分配,而是找出研究之不足,寻找发展方向; 英国于2014 年对全国 154 个大学的研究质量进行评价( Research Excellence Framework,REF) ,以国际同行评价为主,其评价目的是配置科研经费和资源。评价指标是研究成果产出(outputs) 、影响(impact) 、研究环境( environment) ,“产出”是指评价研究成果的质量(Power rating) ,权重占 65%,主要从研究的首创新( originality) 、重要性( significance) 、 严谨性(Rigour) 三个方面测评。“影响”是指研究对 社会经济、文化、政治、生活方方面面的影响( Power Index) 权重 20%,这是 2014 年新加入的排名统计项 目。“研究环境”是指研究的人力和物资条件等 ( Market Share) ,权重为15%。质量等级为5 级:最高 级为4 星级,次之为3 星级、 2 星级、1 星级和无星级。如被评为4 星级( 最高级) ,则获得的研究经费最多, 被评为最低级研究人员则无研究经费或走人。据悉, 2021年英国REF研究质量评价项目将继续开展,近期已公布评价指南和评价标准等重要文件。下一次的评价将总结 2014 年评价的经验和教训,将由科睿维安( Clarivate Analytics,前身为汤姆森-路透) 提供引文数据。评审专家在评审期间将负责任地利用引文数据进行验证和校对,以便做出合理的评价决定。
2.《旧金山宣言》《莱顿宣言》与“全评价”分析框架
学术“全评价”体系,或“全评价”理论或分析框 架( AARES: Academic All-round Evaluation System) 是叶继元研究团队于2010年初正式提出的有关学术 评价理论探讨的创新性成果。利用此评价体系, 可以更好地认清以往的评价经验和教训,合理解释目前的评价现状及存在的问题,提出解决办法,并可科学预测评价的未来。此成果是国家社科重大项目《建立和完善哲学社会科学评价体系研究》 ( 2004年— 2011年) 的一项重要成果,已在学术期刊、著作、网站等评价上应用,被业界引用、评论较多,在学界、教育界和科研管理界产生了较大影响,亟待进一步推广和应用。
概括说来,“全评价”体系就是“六大要素”和“三个维度”。该评价体系认为,一个有组织的学术评价体系至少由评价主体、评价客体、评价目的、评价方法、评价标准及指标、评价制度六大要素组成,每一大要素又可以分成几个要素,各要素之间相互作用、影响。这些要素复杂多元,其中评价目的是龙头,它决定着其他五大要素及其他要素的选择。评价具有三个维度,即形式评价、内容评价、效用评价。大体看来,形式评价对应于文献计量评价,内容评价基于同行专家学者评价,效用评价则依赖于实践和历史评价或检验。通过检验,该评价体系及其有关推论,诸如评价目的制约论、同行专家主导论、评价客体分类论、评价指标关键论、评价方法适度论、评价制度保障论、 计量方法与专家方法互补论、三个维度阶梯论等具有较大的合理性和可操作性。
比如是优中评优的评价,还是基本合格评价,不同的评价目的决定选择什么样的评价主体,评价客体如何分类,采取何种评价方法、标准和指标,匿名还是具名、是否需要申诉、复议等评价制度。如果是全国性优中评优有名额限制的评价,就要选择国内外一流同行专家学者作为评价主体,评价客体即对象的分类要根据名额来设置,要以定性评价法为主,以创新性、 复杂性等学术标准及指标为主,评价结果的公示、申诉、复议、评审专家的信度考察等程序与制度就应设计和实施。评价主体中的同行专家学者是评价的主导,评价标准及指标是核心,评价方法是实现评价目 的的工具和手段,评价制度则是评价的保障和基础。
目前国内许多评价之所以没有达到奖勤罚懒、褒优贬劣,激浊扬清、调动研究人员积极性的评价目的,其中一个主要原因,就是没有明确评价目的,并根据评价目的来选择评价主体、方法等,复杂的评价被简单化,而简单的评价又被复杂化。
形式评价可以是定性或定量的评价,一般是从评价对象的外部形态进行的评价,常常用数据表示评价结果,如有多少教授,发表多少文章等。它在一定的评价目的下是有用的,不可一概抛弃,但不能将其绝对化。
内容评价是指同行专家学者针对评价对象实质性内容的评价,一般要花较多时间和精力对文本、成果实体进行深入解读、分析,对其逻辑性、学理性、思辨性、解释性、预见性等进行评价,常常用文字评语来 表达,如此学者是一流学者,此成果具有高质量等。
效用评价是指对评价对象的实际贡献、社会和经济效益、应用结果、人们思想变化等的评价,它依赖于一段时间或较长时间的评价,是“进行时”或“未完成 时”,可以用数字,也可以用文字来表述。
大体看来,形式评价对应于文献计量评价,内容评价基于同行专家学者评价,效用评价则依赖于实践和历史评价或检验。文献计量评价包含一般大众同行专家的评价,内容评价更多是经过挑选的精英同行专家学者的评价,效用评价涉及学术实践和学术“市场”的评价和检验,形式、内容和效用评价的概念组合可以较好地将大众同行评价、精英专家评价和“市场”评价和检验统一起来,既可以是评价方法,也可以以此形成评价标准和一级评价指标。形式、内容和效用评价,从低到高,从相对简单到相对复杂,可以根据不同的评价目的,评价的难易程度,加以选择、组合和应用,以避免评价中过分形式化、数量化、行政化、简单化等倾向。
从“全评价”体系可以演绎出若干推论,诸如评价目的制约论;同行专家主导论;评价客体分类论;评价指标关键论;评价方法适度论和计量方法与专家方法互补论;评价制度保障论;三个维度阶梯论,等等。
目前国内都在强调质量,何为质量? 尽管有多个定义和不同理解,但质量的一个重要特征就是主要从评价对象的内容、效用上反映出来。因此,“全评价” 体系为学术成果等的质量评价提供了学理基础。换言之,高质量的研究评价主要注重于内容、效用评价,即依赖于同行专家的评价和实践、时间的评价。同行专家又有大同行与小同行之分,尽管二者各有其用,但一般说来,对内容质量的评价更依赖于小同行的评价。不论是大同行还是小同行,都应考察其可信度,这对于保证同行专家评价的公正性至关重要。
同行专家一般将学术作为职业,更作为“志业”, 且具有相近的研究目标和旨趣、价值观和行为规范, 因此多数同行专家也是学术共同体的成员。但有些同行专家,如果不具有上述的学术共同体所具备的要求,则就不是学术共同体成员。同行专家与学术共同体成员并非同一概念,二者既有联系又有区别。目前国内同行专家很多,但学术共同体成员还不多,这也许就是学术评价难题难解的主要原因之一。学术共同体成员多了,学术评价中的许多问题将迎刃而解。
质量评价除了重视同行专家的评价外,更重视实践、时间的评价,这是更有难度的评价,不仅需要较长实践、时间的考验,更需要“贵人”在一定的时间内看出其价值,这样才能有助于“王子文献”拉动“睡美人文献”和“润物细无声文献”。建立与评价有关的事实数据库或案例数据库则是进行效用评价的重要环节。
该体系是在较详细考察了国内外近年来的评价实践基础上概括出来的,既参考了自然科学评价的研究成果,更注重人文社会科学的特点及其评价的特点;既考虑到学术评价的普适性,更突出不同学科、不同领域、不同成果等的多样性、特殊性;既有相对稳定的分析框架,又留有动态的发展空间。该体系能较合理地分析国内外学术评价的历史,较清晰地解释目前学术评价的现状、问题和应采取的对策,也能大致预测学术评价的今后走向。该体系已被《新华文摘》 ( 2010 年第10 期第 161 页 ) 、《高等学校文科学术文 摘》 ( 2010 年第2 期第61-62 页 ) 、《光明日报》 ( 2010 年08 月 03 日学术版) 、国家社科基金全国哲学社会 科学规划办公室网站( 2011 年05 月09 日 ) 、《中国社 会科学报》 ( 2010 年 03 月 18 日 ) 、《社会科学报》 ( 2011 年11 月08 日) 等转载或报道。有的评论者认 为, “叶继元对评价体系的构想既是他多年研究的结 晶,也是对学界对学术评价现状反思成果的吸纳,特 别是他提出的评价体系六要素说,即评价主体、评价客体、评价目的、评价方法、评价标准及指标、评价制 度,值得学界重视”。有的学者认为,所提出的学 术评价的定义“较具学理性、理论性”,“形式评价、内容评价和效用评价的‘三位一体’组合的观点,既具创新性、学理性,也具有较强的可操作性”。“笔者赞同叶继元教授的观点 : ‘不同的评价目的决定着不同的评价标准和指标、不同的评价方法和评价专家的选择以及评价程序的确定,它是评价的龙头,分类评价的动因,规定、制约和导引着整个评价的方向和具体做法。’”“叶继元曾提出由‘评价主体、评价客 体、评价目的、评价方法、评价标准和评价制度’六部分构成的学术评价体系。笔者借鉴这一观点,可初步得到系统论视角下的四维度社会科学评价体系,即评价客体、评价主体、评价活动、评价结果”。
近10 年来,“全评价”体系已有多项应用,如对中国经济学学科、学者、论文、著作,对中国高校外国语言学及应用语言学学者专家库及其论著,对中国法学学术期刊质量,对中国图书馆学情报学学术期刊质量与特色,对学术网站等进行了验证性应用评价。已有数十篇论文正式发表,数十篇博士、硕士学位论文通过答辩。从应用结果看,证明该评价体系及其有关推论,诸如评价目的制约论、评价专家主导论、计量平价与同行专家互补论、评价客体分类论、形式评价、内容评价和效用评价层次论等具有较大的合理性和可操作性。比如,同行专家评价法与引文等文献计量评价法均有其局限性,为了克服这些局限性,一个有效的办法就是引入明确的“评价目的”,这样可以根据评价目的,最大限度地利用二种评价方法的优点而避免其局限,从而达到相对合理、公正的评价。例如对大学、各省市地区、各国文科成果的评价,如果评价目的只是要了解评价对象的部分论文产出及其被引用情况,那么形式评价,或引文等文献计量评价就可大体达到。但如果其目的是要知道评价对象的整体质量情况,那就要在形式评价的基础上,主要进行内容和效用评价,即由同行专家直面评价对象进行审读或对形式评价中的引文等数据的解读,还要根据其他表明内容质量和效用的非引文等的指标进行综合评价。
评价对象的规模越大,工作量也越大,甚至有的评价因为成本太大而简直无法操作。笔者团队曾对我国60 种法学学术期刊、对中国图书馆学情报学学术期刊质量与特色等进行了验证性应用评价。仅是问卷调查表的设计就花了几个月的时间,再加上选择调查对象、发放、回收、统计、分析和撰写调查报告,所花费的时间、精力就会更多。
在目前很难或不可能收集到有关评价对象全面或最重要的有关质量的信息情况下,要慎重进行质量综合评价,宁可进行评价目的明确的单项、过程性评价,少做或不做整体质量评价或等级排名评价。一旦要做,必须具备充分的人力物力,精心设计,合理组织,搜集较全面的、最重要的有关评价信息,力求“业内公认,同行服气”。影响力评价不等于质量评价,尽管二者有密切联系。凡是间接评价质量的,都必须明确说明,不能含糊,更不能误导。否则暧昧、勉强、仓促的评价,不仅不能反映评价对象的真实情况,反而会给用户和大众以误导,与评价目的背道而驰。
2013 年叶继元课题组将笔者提出的“全评价”体系应用于人文社会科学学术图书评价领域,拓展了学术图书质量评价框架体系,建立了中文人文社会科学学术图书“全评价”模型。根据形式评价、内容评价和效用评价新概念组合,采用引文等文献计量评价与同行专家评价相结合、以同行专家评价为主导的评价方法,基于人文社会科学学术图书“全评价”模型筛选出高质量的学术图书“代表作”,再通过学科同行专家小组审核方能确定为精品图书,即作为统计源 ( 来源图书) 构建了中文人文社会科学学术图书引文索引数据库( 示范库) 。
学界的一些同行也对“全评价”体系进行了一些应用,诸如《基于“全评价”分析框架的开放存取仓储评价体系研究》《21世纪以来网站评价研究进展与趋势》《基于全评价体系框架的专业性网站评价体系构建——以书画艺术网站为例》《高校图书馆学科馆藏 “全评价”体系构建研究》等。目前可以针对某些评价的具体问题,来进一步推广“全评价”体系/理论的应用。
3.学术评价的难点、对策与走向
从上述两个宣言和“全评价”体系提出的时间看,“全评价”体系提出时间比两个宣言早了3-5 年。从内容上看,他们都强调评价目的的重要性,都反对将引文数据、影响因子绝对化,但“全评价”体系的内容更为系统和逻辑化,能够体现出评价方面的“中国话语”。从主体上看,两个宣由学科领域专家、期刊界、出版界互动发声和提出,而“全评价”体系是由学者独立研究后提出。反“四唯”等文件则是由管理部门听取、归纳了学术界的合理建议后提出和颁布的。
( 一) 学术评价的难点
从两个宣言和“全评价”体系内容来看,也能看出当前学术评价的难点主要有:(1) 如何克服过分数量化、形式化的评价。这个难题多年始终没有得到根本的解决,其中一个重要原因就是数量化、形式化评价简单易行,表面上看很客观。因为在实际的评价中,往往评价时间有限,评审专家来不及或没有兴趣进行内容或效用评价。(2) 如何改变论文与期刊唯影响因子的评价。影响因子是测量期刊而非论文的指标,将影响因子高的期刊中所有论文都赋予一样高的评价,这是很大的误区。但也由于其简单易行,“一刀切”,不服气也无可奈何。(3) 如何选择、监督、评价同行专家的评价。内容和效用评价都依赖于同行专家,同行专家具有很大的评价权。任何权利都需要监督,否则必然带来不公或腐败。因此,必须从制度上形成一套办法,以确保同行评价的公正性和权威性。但是谁有资格,由谁来选择、组织专家库就是很大的问题。(4) 如何根据评价目的制定评价标准及指标,并如何使其具体化和可操作; 标准和指标是评价的精髓,但它受评价目的之制约,评价目的不同,评价标准及指标就不一样。不可能有一套指标包打天下。(5) 如何厘清科研管理部门与学术共同体的责任边界。在学术机构,学术是逻辑起点,管理是为学术服务的。但在实际工作中,常常分不清主次,章程中的规定与实际做法不一致。
( 二) 学术评价的对策
解决上述难点是一个长期任务,可从如下几个方面制定有效的对策:(1) 落实中央治理“四唯”或“五唯”的精神,推广“全评价”体系,体现中国话语。反 “四唯”或“五唯”,不是不看论文、奖励等,而是不能“唯”。“唯”者,形而上学、片面化、绝对化也。这也是“全评价”体系的精髓所在,不能将形式评价推向极端,而要根据一定的评价目的确定其权重。相比而言,内容评价和效用评价更为重要。可见,“全评价” 体系与反“四唯”或“五唯”有内在的联系,或者说,前者奠定了后者的学理基础。(2) 建立和共享统一、权威、动态的同行或小同行专家库,需体制内外、管理与学界良性互动后产生。同行专家是评价主体,在质量、贡献、影响等评价中具有极为重要的作用。将真正活跃的、有真才实学研究者,包括青年学者组织起来,动态管理。(3) 评价与研究同等重要,千里马常有而伯乐不常有,学界同行,尤其是权威专家更应重视评价,积极参与评价。(4) 根据一定的评价目的,建立多元、适度、柔性评价标准及指标。指标应适中,不宜太繁或太简。(5) 深化科研体制改革。目前的科研体制和管理方式,尚未进行过实质性的修改,管理部门权限过大,学术共同体作用有待加强。体制改革了,牵一发动全身,评价难题有望解决。
目前学术评价的改革正在建立和完善中,还需要管理部门与学界共同坚持韧性的努力: (1) 加速中国的学术共同体自律、自主建设。(2) 学术具有普遍性、公有性等品格,故学术评价应以精神奖励为主,适当物质奖励。或在给予研究人员足够体面的生活待遇后,学术评价一律与物质奖励脱钩。(3) 利用新的信息技术、网络技术、数据库技术,建立和完善各类型评价数据库和公示平台,评价的信息越多越准确,越便于评审专家利用、分析和决断,评价的结果才有可能越公正、合理,同时引文等数据还可以抑制同行评议的缺陷。(4) 根据一定的评价目的,将学科专家精审评价与文献计量学宏观、参考评价有机结合起来。
( 三) 学术评价的走向
学术评价与其他事物的评价相比最为复杂。如同学术研究不可能达到而只能不断接近绝对真理一样,一定时间的学术评价的结果总是相对的。虽然建立和完善中国公正合理的学术评价体系还有很长的路要走,但近10多年来实际上学术评价已有所推进,并呈现出积极的走向:(1) 学术评价开始回归同行评价,这种回归并非简单重复,而是高级轮回,在这个过程中一定要对评价专家固有的缺陷要采取措施,逐步克服“人情化”“主观性”的弊端。(2) 文献计量学评价对宏观评价仍然具有价值,对中观、微观评价亦能够对专家评价起到参考、核查、补充、验证作用。对引文等数据既不能高估,也不要低估,应适当用之。(3) 形式评价将被放在合理的位置。形式评价仅是底线,有上限,而内容评价、效用评价将越来越多。随着有关内容评价和效用评价的文献内容数据库、评价案例、事实数据库的增多,评价的可行性、可操作性将越来越多。(4) 评价制度和评价文化建设将受到格外的重视。评价制度的建设非一蹴而就,需要在丰富的评价实践基础上加以总结、抽象和概括,形成文字性的规范。评价文化建设更需要时间和耐心,需要所有与评价活动有关的利益各方,从内心深处认同评价的目的、旨趣、意义和价值观等,形成良好的评价氛围和环境,这将是一项长期的任务。
本文来源:中国人民大学评价研究中心,欢迎点击阅读原文阅读。
延伸阅读
重要学术论著最关注的20种人文学科学术期刊(1992-2012)
Y编微信
项目申报群
欢迎留言、分享至朋友圈