【“四个评价”笔谈(7)】何莲珍：以语言评价专业化建设推动教育评价改革

Original 何莲珍中国考试 2022-04-25

编者按：2020年6月30日，中央全面深化改革委员会第十四次会议审议通过《深化新时代教育评价改革总体方案》（以下简称《方案》）。《方案》提出，教育评价事关教育发展方向，要全面贯彻党的教育方针，坚持社会主义办学方向，落实立德树人根本任务，遵循教育规律，针对不同主体和不同学段、不同类型教育特点，改进结果评价，强化过程评价，探索增值评价，健全综合评价，着力破除唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾，建立科学的、符合时代要求的教育评价制度和机制。这是继2018年全国教育大会提出“扭转不科学的教育评价导向”后指导教育评价改革的又一份纲领性文件。为深入探讨《方案》提出的“改进结果评价，强化过程评价，探索增值评价，健全综合评价”（简称“四个评价”），本刊邀请专家围绕“四个评价”展开笔谈，同时欢迎广大专家学者就此问题展开更广泛的讨论。

作者：

何莲珍，浙江大学副校长，教授。

原文刊载于《中国考试》2020年第9期第5—9页。

摘要：为落实中央全面深化改革委员会第十四次会议审议通过的《深化新时代教育评价改革总体方案》，评价领域自身的专业化建设至关重要。以语言测试的专业化建设为例，从提高语言测试相关人员的评价素养和加快制定适合我国国情的外语考试质量标准2个方面提出建设性意见。

关键词：教育评价改革；语言评价专业化；评价素养；考试质量标准

　　习近平总书记在2018年召开的全国教育大会上指出，要深化教育体制改革，健全立德树人落实机制，扭转不科学的教育评价导向，坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾，从根本上解决教育评价指挥棒问题。2020年6月30日，中央全面深化改革委员会第十四次会议审议通过《深化新时代教育评价改革总体方案》（以下简称《方案》），对如何扭转不科学的教育评价导向提出“针对不同主体和不同学段、不同类型教育特点，改进结果评价，强化过程评价，探索增值评价，健全综合评价”，为建立科学的、符合时代要求的教育评价制度和机制指明了方向。为确保《方案》落地，除政策层面的引导与支持、评价所涉各方的观念转变以外，评价领域自身的专业化建设至关重要。本文以语言测试为例，就语言评价领域的专业化建设提出一些意见和建议。
　　早在20世纪80年代，我国应用语言学学科、语言测试学科奠基人桂诗春先生就指出，要实现考试现代化的“四化”——制度化、专业化、标准化、电脑化，其中“专业化”包含2个方面：一是建立一支教育测量的专业化队伍；二是用教育测量学的专业知识武装各级教育行政管理人员和广大教师^[1]。笔者认为，桂诗春先生倡导的考试专业化在今天仍具有重要的现实意义。下面从语言测试相关人员评价素养的提升和语言测试标准的制定2个方面阐述语言测试领域的专业化建设。

语言测试相关人员评价素养的提升

　　语言评价素养指的是利益相关群体（如语言教师、考生、考试成绩使用者、大学管理人员等）对评价理论与实践的熟悉程度，以及将相关知识应用于评价实践的能力^[2-3]。评价素养的缺失可能导致以下2个问题：一是教师倾向于使用终结性评价而忽视形成性评价；二是评价结果往往会被误用甚至滥用^[4]。在过去的20年间，国际语言测试界在语言评价素养的理论建构及实践方面进行了有益尝试。2011年，第33届国际语言测试研讨会（Language Testing Research Colloquium，LTRC）设立语言评价素养专题。2013年，国际语言测试权威期刊Language Testing出版语言评价素养专刊，分别从评价基本要素——评价实施者和评价结果使用者视角^[5]、评价素养定义——评价实施者和非评价实施者视角^[6]、大学水平测试使用者的评价素养提升^[7]、非语言评价从业人员的评价素养提升问题^[8]等方面展开讨论。就其定义而言，Boyles认为语言评价素养包括对测试实践的了解、多种评价手段的运用、评价结果的解释与分析，以及评价结果在教学中的应用^[9]。Inbar-Lourie建议构建一个语言评价素养理论框架，该框架需包括有关语言评价的知识与相关研究，这些知识与研究基于理论和认识论信念，并与教育学、语言学、应用语言学领域的其他知识相关联^[2]。Davies提出语言评价素养的三要素，即评价技能、评价知识和评价原则：评价技能包括考试设计、评分、数据分析等方面的实践能力；评价知识包括测量学、语言学等方面的知识；评价原则是指导考试开发和使用的理论基础和伦理道德，如效度、信度、行为准则等^[10]。
　　我国对评价素养的关注相对较少，且不成体系。金艳通过调研我国高校语言测试课程的开设情况，发现课程虽基本覆盖语言测试理论和实践的主要内容，但在教育和心理测量方面的发展、命题实践、测试的社会学问题等方面探讨不够^[11]，提出我国语言评价素养研究的分类体系，并通过典型案例分析了语言评价素养研究的内容和方法^[12]。林敦来聚焦课堂评价中教师的评价能力，提出中小学英语教师语言评价素养参考框架^[13]。概括起来，评价素养就是要知道为何评、评什么、如何评，建立科学的、符合时代要求的教育评价制度和机制，需要对这3个问题进行深入思考。

1.1　为何评

　　任何一项考试都有其目的，考试目的不同，评价方法不同，分数解释不同，结果的运用也不同。从考试的用途来分，有成就考试、水平考试、学能考试和诊断性考试等。成就考试用来测量学生在一段时间内完成某一教学大纲或教材的情况；水平考试用来测量考生是否达到某一水平；学能考试测量考生完成学业任务的能力倾向，主要用于预测考生进入大学后的学习能力；诊断性考试与成就考试具有一定的相似性，测量学生掌握某一部分教学内容的情况，所不同的是，诊断性考试的目的是直接获得教学反馈信息，以便于教师改进教学。

　　从评价与学习之间的关系来看，有3种评价：对学习的评价（assessment of learning）、促进学习的评价（assessment for learning）、作为学习的评价（assessment as learning）。“对学习的评价”使用最广泛，为广大英语教师所熟知，无须赘言。“促进学习的评价”近年来受到较多的关注，也有一些成功的实践案例；但如何在评价过程中不断寻找、解释教学和学习过程中收集到的各类证据，确定学生的水平、学生需要达到的目标以及如何才能取得最佳学习效果仍有较大的研究与探讨空间。“作为学习的评价”旨在让学生反思和掌控自己的学习进程与进步，以便确立未来的学习计划。学生对自己的学习负责，要知晓评价的标准，确立学习目标，制定达到目标的方法和策略^[14]。贯彻落实“四个评价”，要明确评价目的，充分发挥“对学习的评价”“促进学习的评价”“作为学习的评价”3种评价方式的作用，为教和学提供有效反馈，以评促教，以评促学，实现教学质量提升和学生能力提高这一总体目标。

1.2　评什么
　　语言测试，顾名思义，就是要测试语言能力，而语言是用来交际的，因此测试语言能力就是要测试学生的交际语言能力。国际语言测试终身成就奖获得者Lyle Bachman提出的交际语言能力（communicative language ability，CLA）框架由3部分组成，即语言能力（language competence）、策略能力（strategic competence）和心理生理机制（psychophysiological mechanisms），其中：语言能力包括组构能力（语法能力和篇章能力）和语用能力（施为能力和社会语言能力）；策略能力把语言知识、语言使用者的知识结构、语境结合在一起，在决定达到表达目的最佳方法时起到评估、策划、执行的作用；心理生理机制主要指语言使用的渠道和模式^[15]。交际语言能力模型反映了人们对交际语言能力及其相关方面的基本认识，为外语教学提供了基本的理论指导，也为语言能力考试的设计提供了坚实的理论基础、具体的操作方法和可行的评价原则^[16]。《中国英语能力等级量表》（以下简称《量表》）研制组以交际语言能力模型为基础，从语言教学和社会需求的实际出发，将语言能力定义为：一个人理解和表达意义的能力，即语言使用者/学习者运用自己的语言知识和非语言知识及各种策略，参与特定情境下某一话题的语言活动时体现出的语言理解能力和语言表达能力^[17]。这一定义为中国语境下英语能力测试的构念定义、命题细则编制等提供了重要参考。

1.3　如何评
　　如何评是一个方法论的问题。测试者除需要了解测试开发的相关理论与方法外，还需要了解教育测量学知识，能够对测试结果进行量化分析与质性分析，对测试分数作出科学解释，并对测试结果予以妥善运用，还应能从社会学角度审视测试的公平性，对基于测试结果的决策作出理性判断。笔者认为，重点是要加强语言测试的效度研究及公平性研究。
　　效度是一项测试的价值所在，没有效度的考试不能称其为考试^[18]。效度是证据及理论支持测试分数解释的程度^[19]。效度验证贯穿测试的开发、实施和使用全过程。在语言测试领域，最具影响力也最具可操作性的效度验证框架有2个：一个是评价使用论证（assessment use argument，AUA）^[20]，另一个是社会认知框架（social-cognitive framework）^[21]。AUA框架通过4个主张有效描述了评价后效、决策、分数解释、评价记录，以及考生表现之间的线性循环关系，强调了评价的公平性、公正性、稳定性、充分性、关联性等核心要素，为评价的设计及效度验证提供了理想的、实用的理论框架。社会认知框架由6个部分组成，即考生特征、认知效度、语境效度、评分效度、结果效度和准则关联效度。在这一框架下，考试所测的能力被视为考生的心理过程，即认知的维度；考生用语言完成任务被视为一种社会现象，而不是纯粹的语言现象。社会认知框架明确了在考试开发、实施、评分等各个阶段需要收集的各种效度证据^[22]。为实现有效测评的目标，需要建立常态化的考试效度验证机制，为考试的分数解释和使用提供支持。
　　教育公平是社会公平的重要体现，考试是迄今为止所实施的相对公平的人才选拔制度，对守护教育公平及社会公平起到了至关重要的作用。大规模、高风险考试的公平性无疑是教育公平的重中之重，历来是我国政府和社会各界聚焦的重点。考试公平性问题在语言测试、教育测量等领域乃至整个社会日显重要，应予以充分的关注。国内学者在借鉴国外相关理论与实践的基础上，在概念溯源及研究框架构建、大规模高风险考试的公平性研究等方面进行了有益探索，也取得了一些成绩，但也存在一些问题，如中国语境下考试公平性研究的优先级不明确，缺乏深度。此外，已有的实证研究多采用量化方法，质性研究不足，部分涉考群体数据缺失，研究结果对实践的指导意义有限。笔者认为，有必要在全面梳理语言考试公平性研究框架的基础上，结合中国的考试实践、教育现状和社会环境，提出具有较强可操作性的理论框架，并明确考试公平性研究的优先级。

语言测试标准的制定

　　中国是考试大国。20世纪70年代后期，桂诗春先生把国际主流的语言测试理论引入中国，设计开发了我国第一个英语水平考试——English Proficiency Test（EPT）。从此，我国的语言测试研发取得长足的进步。大学英语考试、英语专业考试、公共英语等级考试等大规模考试为推动我国英语教学作出了重要贡献，高考、研究生入学考试等高风险考试为推动科学选才、人才多元化培养目标的实现提供了强有力支撑。但是，这些考试质量如何？基于考试所做的决策是否科学？考试是否被误用甚至滥用？涉考各方的责任与义务是否明确？是否有一整套标准来指导或规范考试从设计到使用的全过程？这些问题值得深思。
　　没有专业的标准，就无法判断考试质量，也无法对考试使用是否符合伦理标准作出判断^[23]。美国心理学协会（American Psychological Association，APA）早在20世纪40年代就组建了心理学道德标准委员会，并且制定了第一套道德准则。欧洲语言测试者协会（Association of Language Testers in Europe，ALTE）于1994年颁布《欧洲语言测试者协会行为准则》，并于2001年对其修订，同时颁布了《欧洲语言测试者协会良好测试行为原则》。国际语言测试学会（International Language Testing Association，ILTA）于20世纪90年代组建特别工作组，对各类标准和行业准则进行调研，在此基础上成立由Alan Davies担任组长的工作小组，着手制定《国际语言测试学会道德准则》（ILTA Code of Ethics），并于2000年3月在温哥华举行的LTRC上获得通过。《国际语言测试学会道德准则》是一份原则性文件，用于指导良好的职业行为。在此基础上，ILTA又组织专家制定《国际语言测试学会实施指南》（ILTA Guidelines for Practice），于2007年6月在巴塞罗那举行的LTRC上获得通过。《国际语言测试学会实施指南》对各种语言测试环境下良好的语言测试实践所要思考的基本问题、考试设计者和命题人员的责任、组织高风险语言考试机构的义务、考生及利益相关群体的责任、测试使用者的责任、考生的权利与义务、课堂语言测试等方面提出了指导性原则。
　　在我国，杨惠中和桂诗春教授指出：“政府机构相关部门应尽快制定适合我国国情的《教育与心理测量标准》并颁布实施，起到‘量同衡’的作用。这是造福千百万学子的重要举措。”^[24]2014年9月，国务院颁布《关于深化考试招生制度改革的实施意见》，明确提出要加强外语能力测评体系建设，首次从国家层面对我国外语教学和考试制度综合改革提出具体要求。外语能力测评体系建设包括5项任务：制定中国英语能力等级量表，研发国家英语能力等级考试，推动外语考试内容与形式改革，制定适合我国国情的外语考试质量标准，逐步推行形成性评价和终结性评价相结合的评价体系。外语能力测评体系建设，从国家发展层面讲，是实现新时期国家发展战略的需要，是参与国际合作与国际竞争的需要；从人才培养的角度讲，是科学选才、促进公平的需要；从个人自身发展层面讲，是促进多种学习成果沟通互认、构建终身学习体系的需要^[25]。经过近4年的努力，《量表》研制工作顺利完成，并于2018年正式颁布。《量表》构建起一个中国英语学习、教学与测评的完整理论体系和统一的英语能力标准，为我国英语课程大纲制定、教学、考试提供一套合适的能力参照标准^[26]。笔者认为，在现有工作基础上，制定出台适合我国国情的外语考试质量标准并落实标准实施的保障机制迫在眉睫。

　　总之，以“四个评价”为抓手“扭转不科学的教育评价导向”，顺应时代潮流，符合时代发展要求。通过评价领域的专业化建设推动教育评价改革，提升利益相关群体的评价素养，加快制定适合我国国情的考试质量标准及标准实施的保障机制，对于提高人才培养质量具有重要意义。

相关文章

● “教育评价改革研究”系列文章

● 周光礼, 袁晓萍. 聚焦“四个评价”　深化教育评价机制改革[J]. 中国考试, 2020(8): 1-5.

● 张楠, 宋乃庆, 申仁洪. 新时代教育评价改革的价值意蕴与实践路径[J]. 中国考试, 2020(8): 6-10.

● 张志勇, 杨玉春. 综合评价是考试招生制度改革的根本方向[J]. 中国考试, 2020(8): 11-15.

● 刘学智, 田雪. 新时代基础教育评价改革的路向转变[J]. 中国考试, 2020(8): 16-19.

● 许海霞, 王蕊, 马陆亭. 新时代基础教育评价改革的路向转变[J]. 中国考试, 2020(8): 20-23.

● 刘海峰, 李木洲.构建“四位一体”功能互补的教育评价新体系[J]. 中国考试, 2020(9): 1-4.