孟照海、刘贵华：教育科研评价如何走出困局?

Original 孟照海、刘贵华中国教科院 2023-06-07

构建中国特色的教育科学学科体系、学术体系和话语体系，关键在于科研评价体系改革。破除“五唯”的总体布署以及《深化新时代教育评价改革总体方案》都对评价改革提出了重要性和紧迫性的要求，“改进结果评价，强化过程评价，探索增值评价，健全综合评价”，更是将评价改革摆在了更加突出的战略位置上。科研评价是对学术品质和学术贡献优异程度的鉴别与认可，它既是学术知识生产的内在动力，也是学术资源分配的主要机制。

科研评价在项目评审、人才评价、机构评估中发挥重要作用。从世界范围来看，科研评价在很大程度上支配着科研机构及专业人员的行为；把控着学术论文和专著的发表以及学术会议的主题发言；主导着学术人员的聘用和晋升；决定着科研资助机构的基金项目分配以及国家的基本科研经费分配；对高等学校的研究生招生同样也发挥着重要影响。推进教育科研高质量发展，必须紧紧扭住评价改革这个“牛鼻子”，克服科研评价中过度数量化、简单化和形式化的倾向，使教育科研评价真正发挥鉴别、诊断、规范、引导和激励的作用。

教育科研评价如何误入歧途

学术评价归根到底是一个“分配正义”的问题，是通过对每个人学术劳动的准确判断，给予他们与其贡献相当的回报和相应的社会责任，其最终目的是选拔优秀人才，激励先进成果，推动学术进步。科研评价是形式评价、内容评价和效用评价的“三位一体”，包括评价主体、客体、目的、标准、方法与制度六个要素。教育科学的繁荣发展有赖于合理的评价体系和奖励系统，正如培根（Bacon，F.）所言，“得不到奖励的事业就不会繁荣”。教育科研具有特殊性和复杂性，在强调技术理性和绩效评价的社会背景下，教育科研评价在目的、主体、标准、方法和结果等方面容易发生异化或错位，致使科研评价未能有效、合理地发挥规范和引导作用，激励和奖励体系的识别偏差也带来了教育科研的虚假繁荣和学术泡沫。

（一）评价目的异化，片面追求新颖、绩效和功用

在教育科研领域，评价目的异化主要表现为三种评价倾向。一是为创新而评价。从学术共同体内部而言，教育科研的实质性评价是对学术原创性的鉴别，归根结底要实现知识的增长。但在科研评价中，真创新与假创新通常难以区分。美国社会学家默顿（Merton，R.）就指出，原创性评价的最大难题就是，把值得承认的真正的创新与不值得承认的仅仅是新颖之物区别开来。在教育科研领域，由于教育世界的人文创造性，研究者常常把自己的情绪、态度、偏好等主观因素掺进研究过程，把自己所意愿或期盼的研究结论或主张混同于研究证据所支持的客观结论，研究的主观性、私人性和相对性也被幻化成研究的创新性。在追求标新立异的科研评价导向下，教育研究常被各种意见和臆断所包围，研究者和实践者要“穿越教育概念的丛林”，同时要面对教育研究的标签化趋同和低水平重复研究。二是为绩效而评价。从外部的资源配置而言，教育科研评价是为了资源使用效率和效益的最大化，因而要以物化的研究成果来证明“物有所值”或“物超所值”。在实际评价中，由于形式评价和效用评价便于测量和计算，能够更有效地对科研活动进行鉴别、区分和排名，因而更受管理机构和科研资助机构的青睐。此外，改革开放以来的教育资源配置十分倚重各种工程和项目，而其筛选有赖于容易操作的简单指标，从而驱使高等学校和科研机构片面追求科研的绩效和功用，不遗余力地制造甚至包装各种评价指标，以争取资源、获得头衔或更好的排名。因陷入这种竞赛机制中，许多人都在努力地做着他们明知道不对的事情。为绩效而评价的倾向带来了有数量缺质量、有专家缺大师的状况。三是为功用而评价。教育研究要能够有效解决实际的教育问题，科研评价通常比较重视研究成果是否“及时、有用和管用”。决策者和实践者对科研质量的评价也是强调即时有用性，特别是具体的、可操作性的建议，从而逐渐使教育科研成为一种纯粹的技术性活动。正如美国学者拉伯雷（Labaree，D.）所说，当教育研究者一心寻求科研的有用性时，他们有时就会削足适履，让自己的研究满足此时此地的教育实践需求，致使教育科研成为“短视”行为。而一些抽象的理论构建尽管在研究时看不到用途，却在将来大有用途。我们必须为“天马行空”的基础研究保留空间，以思考不可思议之事。我们需要研究者挑战基本假设和正统观念，从而使政策议题发生根本转向，如果研究者不去为之，就更不可能指望其他任何人。

（二）评价主体失范，学术共同体独立性和自主性力量不足

科研评价通常包括学术性评价、行政性评价与社会经济效益性评价。作为一种价值判断活动，它面临学术标准与非学术标准及不同评价主体、评价程序之间的多重矛盾。学术力量、行政力量和社会力量在科研评价中的力量并不平衡，在权力关系的支配下，评价主体的失范是造成科研评价乱象的重要原因。一是行政力量过强。国家是科研资源的主要供给者，从总体上调控着科研的方向和知识生产。教育研究具有鲜明的意识形态属性，政治体制和政治制度对教育科研评价发挥关键作用。面对同样的事实，在科学问题上，决定对与错的是其真假；而在价值问题上，决定对与错的却是评判者的立场。同样的事实可以为不同的甚至截然相反的价值问题提供支持，关键就在于证明者站在什么样的价值立场上解释这些事实。以学术评奖为例，学界和民间组织的权威性评奖很少，且让人议论纷纷，而主管部门组织的评奖则由于主管官员主导的色彩甚浓，官员或准官员所占的比例过高，使评奖的学术水准很难让人信服。换言之，行政力量既被排斥，但又被需要。二是学术力量被扭曲。在学术评价中，学术共同体的独立性和自主性因内外因素的影响而难以真正实现。在项目评审中对政策热点和政策意图的过于迎合，在成果评价中对领导批示的过于推崇，都将政治逻辑置于学术逻辑之上，最终损害学术评价的公信力和权威性。同时，由于学派和利益纷争，评价者发生角色错位，成为某部门或某个人的代言人，使正常秩序下的公平竞争蜕化为无序竞争。在不同的研究范式之下，对相同的教育事实也可能有不同的看法。在学术评价中掌握话语权的评价者就可能将自己的偏好强加到评价标准上，从而限制了学术创新和教育研究的多样化。三是第三方评价重形式轻内容。由于同行评议的公信力不高，为显示客观和公允，以文献计量为主的评价机构日益膨胀，由此带来量化评价的泛滥和学术评价的异化。这些评价机构主要包括各种核心期刊与来源期刊、各种文摘类期刊以及各类排名机构，它们是量化评价和“出身”评价的主要推手，“以刊评文”和计件制是其评价的主要方式。这些评价机构的兴盛，正是由于同行评价的作用发挥不充分。

（三）评价标准单一，忽视教育科研的类型差异

评价标准是科研评价的关键，标准不当将会破坏整个科研生态。教育学科具有人文学科、社会学科和自然学科的多重属性，其知识是一种复合型知识。从教育科学的发展来看，尽管规范性的人文社会科学研究范式仍然占据主流，但进入 21 世纪以来，学习科学、脑科学等自然科学知识的引入使教育科研日益重视随机实验和准实验的实证研究方法，讲求客观、可量化、可验证、可重复等相关特征。在教育科学追求科学化的道路上，评价标准日趋单一。一是简单参照自然科学的评价模式，忽视教育科研评价的独特标准。在自然科学和社会科学模式的影响下，教育科研的评价标准比较强调严谨性、原创性和影响力，特别是定量和定性的研究方法及科研的社会影响力。然而，教育研究不像自然科学那样具有极强的和直观的累积性，文献之间的相互引用有时显得可有可无。单纯以学术成果发表数量和引用率等作为质量评价标准，不一定适合教育科研的独特性。以文学和艺术史等人文科学的研究为例，研究者就比较重视促进文化记忆以及反思批判性等学科独有的标准。同时，即便是相同的指标，不同学科的侧重点也不一样。就原创性而言，人文与历史学研究者强调的是研究视角以及史料的原创性，社会科学研究者强调的是研究方法的原创性。因此，在教育科研评价中，必须凸显教育研究的独特性。二是按照一种知识逻辑评价不同类型的研究。基础研究、政策研究和实践研究遵循不同的知识生产模式和知识逻辑。基础研究侧重于对根本问题的原创性研究，遵循纯粹知识生产的模式，追求的是不以应用为目的的“无用”知识。政策研究侧重于政策的可行性和社会合法性研究，要兼顾知识逻辑和政策逻辑，追求的是学术创新与特定政治制度和政策环境的适切性。实践研究侧重于理论知识的实践应用，遵循知识逻辑和实践逻辑，追求的是实践者的认知和行为改变。而以同一种知识逻辑评价不同类型的研究，则会加剧教育研究的同质化。三是在不同情境中采用一种评价标准。好的教育研究不是一个抽象的概念，而是体现在不同的具体评价情境中。在教育科研领域，作为知识创新的科研成果不是一个客观的结构实体，而是主体与环境互动的产物，科研创新在不同的情境中被重新界定，产生不同的意义。通常，学位论文的评价侧重于学术规范的掌握和知识的原创性；学术期刊论文的评价侧重于填补知识空白和研究方法的合理性，以及与刊物风格的适切性；竞争性科研项目的评价，侧重于研究的学术价值和社会政治价值，以及研究的前期基础和研究设计；委托研究项目的评价，侧重于研究者的学术声誉及完成研究任务的时效性和经济性。对于不同评价情境中的教育科研，应该在坚持一般科研评价标准的基础上有所侧重，根据评价的对象构建个性化和针对性的评价指标体系，而不能采用一刀切的方式进行评价。

（四）评价方式简单，以数量指标取代质量判断

《第四次全国科技工作者状况调查报告》显示，论文仍是科技评价的最主要手段，62.1％的大学教师、44.9％的科学研究人员在各种形式的科研成果中最看重论文。学者可能在某个时期会出一些好的成果，但是不可能一辈子都出好成果，这是符合人的基本成长规律的。学术评价必须遵循知识创新规律和人才成长规律。首先，教育科研评价方式的简单化表现为数字崇拜和指标崇拜。这种评价方式以客观化的指标和数字抽离了不同个体学术生产的情境性、复杂性和差异性，将学术生产作为简单的、程式化的流水线生产过程，把学术发表的期刊或出版社级别、成果的字数、科研项目的级别及经费数量作为评判学术水平高低的依据。进入 21 世纪以来，尽管社会科学引文索引（SSCI）上发表的中国教育研究论文数量猛增，但大陆学者在国际合作网络中仍处于“学术加工”的地位，因而要提升中国教育研究的国际影响力，需要纠正当前评价指标体系过度强调国际发表数量的导向，建立理性的评价体制，引导学术研究转向精耕细作的发展方式。其次，评价方式的简单化表现在不同成果之间的可换算性。在一些评价中，数量指标可以替代质量指标，可以用数量更多的较低质量的成果经过一定的换算，代替高质量的成果，这就使得“十年磨一剑”不如“著作等身”，造成“劣币驱逐良币”现象。以阿伦特（Arendt，H.）提出的“平庸之恶”来看，当前在人文社会科学领域，平庸的“伪学术”论文占用了大量的学术资源，研究缺乏“真问题”，不讲逻辑，“伪综述”等都是其重要的表现形式。“伪学术”无关社会生活，无关学术责任，比以剽窃与不当引用为主要特征的学术不端更为普遍、更为严重，因而也就更难于揭露、更难以治理。教育科研的评价方式要适应创新性学术的生成规律。创新性学术的生成需要天赋、勤奋和灵感的三位一体，优质学术研究者的稀缺性要求学术评价机制能够真正识别出学术天才、常才和庸才；学术成果形成的长期性要求不能急功近利年年考评，要使优秀的学术作品能够有一个如琢如磨的生长过程；学术评价的公正性要求期刊的运行要规范，避免平庸之作进入权威期刊而将学术庸才装扮为学术天才。再次，科研评价的简单化还表现在过于强调结果导向，忽视不同学科、研究者和研究条件的差异，完全“以成败论英雄”，造成研究者避重就轻、舍精求多，热衷于“短平快”的研究，甚至为了多出成果而篡改数据，产生学术腐败。罗尔斯（Rawls，J.）的经典著作《正义论（Theory of Justice）》用了 10 年以上的时间写作，而在这段时期中，他没有发表过一篇文章，但在这“没有成果”的 10 年中，他的待遇完全没有受到影响，这样的事情在中国几乎是不可想象的。

（五）评价结果的公信力不高，易受非学术因素影响

教育科研评价要面对技术的复杂性、社会的复杂性和人的复杂性，而标准缺失、权力支配和人情主导是造成评价结果公信力不高的重要因素。科研评价体系的问题表现在三个方面。一是评价标准的主观性和模糊性使评价结果难以获得普遍认可。当前，管理层面和学术共同体，对教育科研评价的根本原则还缺乏共识，甚至出现相互背离的现象。以科研影响力评价为例，英国学者霍金森（Hodkinson，P.）指出，科研发现或政策建议只有符合决策者的期望或预期时，才最有可能对政策产生影响，而这实际上与科研质量几乎没有任何关系。挪威科研评价委员会在教育科研评价中就出现了科研有用性和质量的对立，研究者认为追求有用性实际上损害了科研的质量，这使科研成为一种工具和附庸，从而限制了批判性和原创性研究的空间。可见，决策者和研究秉持不同的科研质量标准。正如美国学者韦斯（Weiss，C.）所言，“评估者认为相对无效的项目却得以延续甚至拓展，而评估者认为有效的项目却被削减”。对于此种研究与决策之间的鸿沟，韦斯将其归结为两种文化的差异，并提出了“两个共同体”理论。二是科研评价容易受到行政力量和人情关系的影响，在一定程度上学术依附权力，权力绑架学术，科研评议容易被人为操纵而丧失公信力。我国教育学科的同行评议制度不完善，突出表现在地方庇护主义和政府介入两个方面。从地方庇护来看，评审专家对自己所在学术机构、朋友和其他关系亲近者的过度保护，常以牺牲质量标准和其他学术机构、研究者的利益为代价。此外，由于教育研究具有较强的实践性，同时教育在政府部门中又有相应的、明确的管理机关，与其他人文社会科学相比，行政力量对教育学术界的同行评审的介入程度更深一些。三是评价过程不透明和缺乏监督。部分科研工作者利用评价机制的不完善谋取不当利益。同时，现有制度对评价者的评价行为监督相对有限，发生道德风险的概率较大。许多由政府机构控制的评审项目，无论立项还是奖励，举凡专家的遴选，评议对象的选定，评议程序的安排，评议结果的确定、公布和利用，尽管越来越强调同行专家的参与，但仍主要由管理部门操控。在中国这样的“人情社会”中，学术问题时常被“人情化”，使学术评价成为人情交易或交换的手段。

教育科研为何难以评价

学术评价就像量子测量，遵循测不准原理，一评就变味，所以永远评不准。科研评价的制度化从一开始就面临着多重矛盾，知识与非知识的界限、“以学术为业”与竞争性表现的冲突、鉴别内在品质与授予社会认可的差异及不同社会文化和政治制度对评价的影响，都使科研评价成为一项复杂而艰巨的任务。对于科研质量标准几乎没有广泛的共识，而对于何为好的研究也几乎没有准确的界定。教育科研评价除了要面临一般科研评价的难题之外，还要适应教育科研评价对象的特殊性、评价标准的模糊性及评价体制的矛盾性等难题，这使得教育科研评价异常困难。

（一）评价对象的特殊性

一是教育科研知识的复杂性。教育学研究中长期存在实证主义和现象学范式的争论，两者在历史上有过三次大的交锋，但现在已逐渐退潮，有趋于相互吸收融合之势。格林奈尔（Grinnell，F.）指出，日常的科学研究既不遵循实在论范式，也不遵循社会建构论范式，而是依据不同的情境在二者之间实现一定平衡，研究发现和可信性是科研的两个主要特点。从教育学知识生产的历史来看，教育研究知识在很大程度上是非累积性的，它们并不是建立在之前研究的基础上，没有通过证实或证伪、拓展或完善，或者以更好的证据或理论取而代之，而是在老问题上不断开辟新路，形成平行发展的知识结构。按照英国学者伯恩斯坦（Bernstein，B.）的观点，平行知识的发展“并不是透过整合而达成，而是透过新语言（新概念体系）的出现，从而构建出新视域、新问题、新联系、新质疑以及最重要的是一群新的发言人”。由于平行知识的属性，在教育科研领域中，无的放矢、没有问题交集的集体独白现象仍然具有一定的普遍性。此外，由于情境和文化差异，教育研究结论几乎不可能重复验证。美国学者麦克尔（Makel，M. C.）和普拉克（Plucker，J. A.）按照 5 年间的影响因子对排名前 100 位的教育类学术期刊的研究发现，仅有 0.13%的教育类论文是可重复性研究，并且 48.2%的重复性研究是发表最初研究成果的同一个研究团队进行的。在社会科学思想和方法论的影响下，教育研究者倾向于根据研究热点变化而不是问题解决与否，经常变换研究主线，从而难以像自然科学那样产出以事实为依据的累积性科学知识。近些年，为促进教育学知识的增长，构建中国教育学科的知识体系，崇尚实证研究的风气逐渐形成，教育研究者特别重视确凿知识的积累。教育科研知识的复杂性，给教育科研评价带来了挑战，使得科研评价要综合考虑教育科研知识的多重性和多维性。对于教育科研而言，在后现代主义范式下，要从扩大知识生产主体、承认知识观多元化、开放知识生产组织形式三个维度对教育学知识生产方式进行重构。

二是质量显现的滞后性。与自然科学相比，人文社会科学研究的质量通常需要更长的时间才能达成共识。人文社会科学研究对象的差异性和复杂性更大，在科学研究从特殊到一般的抽象过程中，对学术卓越的判定更要整合时间维度和社会—空间维度上更大的差异性，这也使得教育科研质量的显现通常需要更长的周期。在历史上，具有真实独创性价值的东西常常因为其非正统性而被忽视，被视为异端学说，直到另一个时代才被接受。在现有评价体系之下，突破性成果不符合评价标准之事时有发生。学术成果的价值必须经过一定的时间才能看清楚，无论是评价成果、评价学者还是评价机构，都应当留出一定的滞后时间，不能患有“近视症”。衡量学术成果的价值，最终标准只能是历史和实践。因此，教育科研质量判定的一个重要难题就是质量显现的滞后性与学术承认的即时性之间的矛盾。按照默顿的说法，既要避免因荣誉来得“太迟”而变得“太轻”，也要避免荣誉来得“太早”、“太多”而导致研究者自满地停滞不前。

三是科研影响的间接性。教育科研在实践和政策中的应用不是工程模式，而是更多地发挥启发作用。由于教育实践的极端复杂性，教师在课堂教学中主要依靠自己的常识、经验、判断和价值观念等缄默知识，而不是基于教育科研。对于决策者而言，教育科研知识首先作用于他们的“工作知识”（working knowledge），而后通过改变此种知识间接对决策者行为发生影响。教育科研的政策影响力主要表现为概念性应用，科研成果常常以“滴灌”的渗透方式或“知识潜入”（knowledge creep）方式影响决策和实践。以素质教育为例，20 年来尽管竞争性表现主义的社会现实为素质教育带来本体论、知识论和方法论上的问题，但它是承载着中国人对“好的教育”的愿望最简练、最适切的合法表述，并作为一种理念和合法化话语潜移默化地影响教育决策和教育实践。由于政策逻辑和学术逻辑的不同，好的教育研究不一定会转化为教育政策。教育科研的这些特征决定了教育科研评价不能也不应当简单套用自然科学的评价模式。

（二）评价标准的模糊性

一是评价标准随社会政治和知识范式的变化而变化。教育研究的对象处于多样化和变动的政治社会情境中，不同的利益相关者对教育科研知识的类型和供给方式提出了不同的要求，外部的决定和程序直接或间接地界定了科研质量标准，并影响研究者的方法选择。以英美等国的教育研究为例，20 世纪 60 年代，对教育不平等问题的关注和社会科学的影响，好的教育研究体现在对社会弱势群体的教育社会学研究上；20 世纪 80 年代对学校“效能”的关注使得教育经济学研究成为科研的典范；进入 21 世纪，美国更是强调基于证据的科学的教育研究，并将其作为评判教育科研质量的主要标准。教育研究与教育实践一样，它的变化看起来更像艺术或时尚品味的钟摆变化，而不像科技进步那样的逐步改进。

二是对特定性和个性化知识的评价标准更难把握。教育研究是一门最难的科学研究，研究者常常需要掌握特定性或本土化的知识，而最容易的科学研究则追求更加普遍性的知识，显然，充分理解极其复杂的特殊性要比归纳不同情境中的一般性更难。好的教育研究不仅仅是提供普遍性的知识，而要对具体的教育情境进行分析，找准每种特殊情景中教育发展的敏感因子和钝感因子。教育学的研究对象是人与人之间的相互影响，其复杂程度显然处在最高一级水平。教育学所探索的不仅是必然性，而且可能更多时候是或然性。复杂系统的一个固有性质是，它在微观尺度上的非线性动力学和对于初始条件的敏感性依赖，不允许人们对于系统的终态作出预见。因此，对于教育结果的评价就不可能严格按照既定的目标进行考核，而应以一种动态的、模糊的评价方式来鉴别潜在的可能空间。

三是教育研究的复杂性和多维性增加了评价的难度。默顿对 83 种学术杂志的稿件拒稿率的研究发现，人文学科方面的拒稿率最高，其次是社会科学和行为科学，再次是数学和统计学，物理学、化学和生物学的稿件拒稿率最低，只有人文科学的三分之一。拒稿率高说明，编辑和评议人与那些撰稿人之间，对于什么是合乎标准的学术成果几乎是各执一端。尽管美国等把基于证据的研究作为教育科研质量的判定标准，但不可否认其他研究方法仍然可以产出高质量的科研成果，正所谓“条条大路通罗马”。美国学者福伊尔（Feuer，M.）等人也指出，研究方法本身没有好坏或科学与否之分，对科研质量的判断主要看某种方法对于特定问题的适切性。教育科研与教育领域一样是一个复杂的生态系统，理应包含多种研究方法，这给教育科研评价增加了难度。

（三）评价制度的矛盾性

一是推动创新与排斥创新的矛盾。科研评价体系旨在给予知识创新者应得的承认和肯定，从而激发更大的创新活力。但制度化和体制化的学术评价制度是按照科学的常规范式，对作为反常行为的创新进行评价，在常规范式过于强大时，这种“反常”常常被排斥在外，使学术创新得不到应得的承认。在制度化的评价体系中，评价者扮演“守门人”的角色，要通过评价实现学术分层和学术区隔，维持不平等的学术等级秩序，真正的学术创新很难通过评价得到承认。同时，教育研究的“平行知识”特征使教育科研评价催生出诸多标新立异的伪创新。麦克尔和普拉克的研究也表明，研究教育事实比追求标新立异的创新更加重要，过分追求和倡导原创性成果，是造成今天不可重复的研究越来越多的重要原因。为追求新颖，浅尝辄止的研究和跟风式的研究越来越多，而专注某一个问题的长期追踪研究却越来越少。可以说，大家都去挖坑了，结果金子不一定越来越多，但坑一定是越来越多。学术评价是评价者与被评价者之间的对话和争鸣，缺少这种互动，科研评价也就背离了初衷。

二是内在评价与外在评价的矛盾。科研评价包括对内在品质的评价及对外在表现的评价，默顿将前者称为工具性承认，将后者称为荣誉性承认。由于内在品质难以把握，评价者倾向于把外在表现作为内在品质的代理变量，但是二者在很多情况下并不同步或等同。正如在大学评价中内在卓越与外在声誉的关系一样，后者是前者的“症候”，尽管声誉好的大学通常的确具有卓越的品质，但显然外在声誉不能确保内在卓越。教育科研质量有时会依据外在的学术声誉、学术头衔和刊物级别来判定，尽管高质量的教育科研通常具有这些“症候”，但具有这些外在特征并不能确保内在的科研品质。

三是技术理性与整体判断的矛盾。出于绩效评价、科研竞争等技术治理的需要，科研评价会追求技术的效率，强调科研的可计算性、可比较性，并把不同类型的科研进行化约，按照相同的尺子进行评判和测量。这种技术理性导向的科研评价制度会催生出光鲜亮丽的科研数据，但却丧失了科研的灵魂。教育科研质量评价更多的是一种审美而非科学活动，它更像是一种鉴赏而非测量。科研质量评价如同欣赏一个人一样，要察觉出不依赖于外在装饰的“纯粹”品质；对质量的判断也不是通过定量的测量，而是建立在对被评价者充分了解和细微观察的基础上，如同没有身高体重数据同样能判断人的身材；对质量的总体印象显然也不能通过各部分加总而得出；识别出这些质量能够给拥有者带来愉悦的反应。

科学合理的教育科研评价体系如何构建

人文社会科学评价体系可以从三个层次来构建，一是核心层（对机构、学者和成果的评价），二是环境层（学术理念、学科结构等），三是社会层（政治经济结构、意识形态等）。构建教育科研评价体系必须秉持整体主义的观点，正如戴维斯（Dvais，A.）所说，不能孤立地看待和使用评价指标，一个评价指标的使用取决于对相关指标的理解及其匹配性的认识，反之亦然，这就是解释学的循环。科研质量通常包括四个维度，即内部的可靠性（严谨性、一致性、连贯性和透明性）、外部的有用性（原创性、相关性和可推广性）、形式的逻辑性（可接受性、可理解性和可获取性）和研究的规范性（合规定性、伦理性和可持续性）。具体而言，教育科研质量的一般标准包括严谨性、原创性、有用性、重要性、影响力、伦理性、规范性和科学性。这些质量标准相互关联，没有原创性，严谨性就显得机械刻板；不考虑学术价值，原创性就变得微不足道；而学术影响力也要通过学术价值来评价。总体上，推进科研评价改革，需要重视五种评价。

（一）实施分类评价，回归评价初心

科研评价的鉴别、区分和排名功能建立在对科研内容质量和创新的准确判定上，过于强调科研的形式评价和效用评价无异于缘木求鱼，本末倒置。《旧金山科研评估宣言（San Francisco Declaration on Research Assessment）》建议停止使用期刊影响因子等期刊计量指标来评价单个论文或学者的贡献。《科学（Science）》杂志也认为影响因子可能妨碍创新，它使科学家热衷发表高影响因子论文，追逐科研“热点”，而不是潜心科研创新。教育科研评价要超越“工具理性”，回归以评促改、以评促建的初心与使命，突出创新在科研评价中的核心地位。一是要针对不同研究类型设定不同的评价标准。基础研究、政策研究和实践研究的知识创新分别以“真、善、美”为目标，通常有不同的内容和表现形式，评价的尺度和标准要适应各自的特点和规律，不能笼统地采用统一的数量标准或形式标准（如论文数量或学术化程度）。二是科研评价要与人才评价和机构评价有所区分。对人才和机构的评价，除了学术评价之外，还要有针对性地增加其他维度的评价，比如大学教师的教学能力和师德、高等学校学位点的教学质量等。要适当降低科研评价在人才和机构评价中的比重，要各类评价回归各自初心，防止科研评价绑架甚至主导人才和机构评价。三是剥离科研评价的资源分配和利益调节功能。科研评价之所以备受重视并逐渐异化，就是承载了过多的非学术因素。在机构和个人的科研活动越来越依赖于外部资源和环境的条件下，学术共同体内部的自发的科研评价就逐渐让位给外部的学术干预或控制，容易出现“外行评价内行”或非学术目的的评价。学术评价只有回归学术初心，才能获得社会的合法性基础。

（二）完善同行评价，发挥权威认定

文献计量等定量评价方法简单易行、便于操作，且确凿的数据也更具有说服力，而同行专家评价则相对困难和成本更高，但科研评价追求的不仅仅是效率，更重要的是准确与公平。“数字会撒谎”以及定量评价的形式主义弊端，呼唤同行专家评价的回归与作用发挥。一是将同行评价建立在定量和定性的综合评价基础之上。评价标准的主观性和模糊性，是造成同行专家评审公信力不高的重要原因。教育科研质量评价标准要适应教育科研活动的特点和规律，同时要按照分类评价的原则，针对不同类型、群体和分支学科制定各有侧重的评价标准，从形式、内容和效用等多个维度确定教育科研质量的评价标准。科研质量评价的最优方法是建立一套适应学科特点的定量指标体系，同时对学术成果进行同行评议，在此基础上，以评审小组的形式对科研质量进行综合的专家判断。二是探索建立科研奖项提名制。2019 年年底通过的《国家科学技术奖励条例（修订草案）》提出，要将过去主要由单位推荐改为专家、学者、相关部门和机构等均可提名，并强化提名责任。提名制将更多发挥学术共同体和专家作用，尽可能减少行政部门对科技奖励的影响干预，诺贝尔奖、图灵奖等国际大奖都采用提名制。包括教育科研在内的人文社会科学研究成果评奖可以探索建立提名制，更大程度上发挥学术共同体和专家的积极性、主动性，遴选出真正具有学术原创性的科研成果。三是优化同行评议的人员结构，兼顾广泛认可和权威认定。华东师范大学组织的人文社会研究“思勉原创奖”通过知名学者推荐与同行大众“海选”相结合的遴选方式，兼顾了学术共同体金字塔结构的两端，实现了“同行评议”在数量讲求上的最大化和质量讲求上的最高级，从制度层面使推荐过程和结果经受学术共同体的检验，克服学者个人视野的局限，充分发挥了学术共同体的作用。在学术权威欠缺的情况下，教育科研评价要通过优化同行专家组成，使评价结果获得更广泛的认可。

（三）强调综合评价，减少评价偏差

一是完善代表作评价制度。针对科研评价中“只数数量和影响因子、不看论文质量”、“重国外期刊轻国内期刊”等问题，北京大学等知名高等学校在职称评审中试行学术代表作制度。但人文社会科学研究的复杂性、评审专家的认知偏差、学科划分、同行选择、人情关系等因素对代表作制的评价效用产生影响。当前，完善代表作评价，需要处理好同行评议与定量评价之间的关系，构建科学的评价治理体系及优化学术环境。二是建立个性化、发展性评价机制。评价最重要的意图不是为了证明，而是为了改进。我国科研评价问题的症结在于追求各项指标上的“比较”，而不重视发展性、开创性研究的实质性进步。人文社会学科更多受到了学科立场、价值偏好的影响。对于一些“冷门绝学”或基础性、开创新的研究，现行的评价标准通常会把它们排斥在优秀成果之外。对于这类研究，就不能以“显学”的评价标准来对待，而是要从“学术”与“学科”的关系、“有用”与“无用”的相互支撑等角度，考察这类研究对于促进学科体系的系统性、完整性和保护民族文化的独立性、自主性的重要价值和意义，特别要遴选熟悉学科规律、具有战略眼光的学科专家进行评价，防止此类研究在常规的评价中被弱化甚至被淘汰。教育科研评价不能仅仅满足在评价指标上的证明和比较，更应该为原创新研究开拓学术认可的空间。三是建立全过程的科研评价体系。教育科研评价不能仅仅关注作为结果的学术成果数量和质量，而是要从条件质量、内容质量和成果质量几个方面做出综合评价。动态的科研评价可以把科研活动放在一个更广阔的评价框架中，从全要素生产的角度更加客观全面地评价科研的潜力、成绩与不足，真正实现“以评促改”的目的。

（四）推进多元评价，丰富评价方式

一是要有“ 多种组合 ”的科研评价方式。要突破一元化评价范式，探索实施定量评价与定性评价、同行评价和社会评价、过程评价和结果评价、当前评价和长远评价相协调的多元化评价范式，通过多种评价方式的组合，全面、整体地反映科研的质量。二是要用“多种尺子”评价不同的教育科研。要克服科研评价中的“一刀切”，根据不同的研究类型，科学设置精准的评价标准和评价方法，如基础研究侧重于知识创新，应用研究侧重实践改进，青年项目评审侧重于科研潜力，要根据评价目的选择最适应的“尺子”。三是要有“多种技术”支撑的科研评价方式。教育科研评价要充分利用区块链、大数据、社会网络等现代技术，创新科研评价的方式方法，从而更加全面、系统、客观地展现科研人员和科研活动的发展过程和影响因素。

（五）健全公开评价，构筑良好生态

科研评价乱象的根源在于良好的科研生态尚未完全建立起来。改进教育科研评价，需要完善科研治理体系，构筑良好的学术生态。一是要提高同行评价的科学性和公开性。要通过制度创新和技术创新，最大程度地降低学术偏好、人情关系和长官意志等因素对科研评价的干扰。不断提高同行评价透明度，完善科研评价实名制和责任制，回归学术评价的原点。二是健全科研评价的社会监督和申诉机制。不断加强制度体系建设，进一步完善评价结果公示和申诉等机制，逐步建立健全信息披露、责任追溯、风险管理等机制与制度。明确学术不端行为的判定标准和处理程序，科学划分各类机构在处理学术不端行为方面的权责范围。三是优化教育科研的学术环境。教育科研的政策环境要为原创性成果的产出创造有利条件，在资源分配、人才评价和机构评估中重视基础性、原创性研究，要通过评价引导各类研究各安其位、各得其所，坚决破除教育评价中的“五唯”现象，使科研评价真正发挥鉴别、诊断、规范、引导和激励作用。

教育科研评价体系实际上是教育科学领域中的“运行法则”，各种可见的和潜在的教育科研活动都受到了这种“法则”或“实践逻辑”的支配。由于在教育学科本体论、认识论和方法论上的分歧，教育科研评价长期以来难以达成共识，在碎片化的知识体系中，并行着各类集体独白式的质量诉说。改进教育科研评价体系，需要在科学文化和科学信念的大前提下，进一步澄清教育科学知识的复合型、复杂性和特殊性，找准不同类型、不同情景中教育科研的敏感因子并制定个性化的分类标准，秉持“和而不同”的思维构建“一与多”相统一的科研评价体系。教育科研评价不是单纯的教育现象，更是一种社会学现象，评价体系的构建需要正确应对各种内在的矛盾性，合理解决评价的“测不准”问题以及结构化带来的负效应。只有正确认识并妥善化解这些问题，教育科研评价才能走出目前的困局。

来源|《教育研究》2020年第10期

作者|孟照海（全国教育科学规划领导小组办公室副主任、中国教育科学研究院副研究员）；刘贵华（中国教育科学研究院副院长、教授）

往期回顾

➤张浩、胡姝：高等教育财政政策十年变迁与未来挑战➤《中国德育》：我国学校生命教育的经验、反思与展望➤曹培杰：用线下的“缰绳”套到线上教学，马会怎么跑？➤吴安春、王晓燕：习近平关于体育的重要论述——理论内涵及实践特质➤刘玉娟：执行功能与儿童早期语言能力发展的研究综述

老花镜戴错了也伤眼！内行人手把手教你怎么挑！

往鼻子上一抹，爽翻天灵盖！老鼻炎常备神器，5秒通鼻止痒，自由呼吸

1500张尾单床笠捡漏！49元入希尔顿花园酒店同款！拼手速~

5秒冲走牙缝肉渣，我花79元买了个随时能帮我“洗牙”的医生！

5秒冲走牙缝肉渣，我花79元买了个随时能帮我“洗牙”的医生！

孟照海、刘贵华：教育科研评价如何走出困局?

您可能也对以下帖子感兴趣

老花镜戴错了也伤眼！内行人手把手教你怎么挑！

往鼻子上一抹，爽翻天灵盖！老鼻炎常备神器，5秒通鼻止痒，自由呼吸

1500张尾单床笠捡漏！49元入希尔顿花园酒店同款！拼手速~

5秒冲走牙缝肉渣，我花79元买了个随时能帮我“洗牙”的医生！

5秒冲走牙缝肉渣，我花79元买了个随时能帮我“洗牙”的医生！

生成图片，分享到微信朋友圈

孟照海、刘贵华：教育科研评价如何走出困局?

您可能也对以下帖子感兴趣