专家视点 | 姜钢、何莲珍：构建系统连贯的考试体系，促进英语教育教学和评价方式改革

外研测评外研测评 2022-04-24

收录于合集 #专家视点 10个

编者按

2014年，国务院明确提出要加强“外语能力测评体系建设”，构建面向各级各类学习者的外语能力综合评价体系，其中，建立“国家英语能力等级考试”是测评体系建设的重要组成部分。理解“等级考试”的导向和宗旨，对于理解英语教育教学和评价方式改革具有重要意义。本期“专家视点”转发教育部考试中心姜钢主任、浙江大学何莲珍教授发表于《中国外语》的文章。文中系统阐述了“等级考试”的设计理念。各位关注测评的读者朋友可收藏研读。

作者

姜钢，教育部考试中心主任；

何莲珍，浙江大学教授。

摘要

以中国英语能力等级量表为参照标准建立全国性的英语能力等级考试，是国家外语能力测评体系建设的一项重要任务。为提升考试的科学性与系统性，促进我国外语教育教学的改革与发展，促进学生健康成长成才，“等级考试”的设计坚持以问题及需求为导向、以科学设计为核心、以促进能力培养为宗旨、以多元科学评价为方向等理念，旨在通过构建系统连贯的考试体系，促进英语教育教学和评价方式改革，为促进学习者语言能力发展提供连贯有序的阶梯。

关键词

等级考试；交际语言能力；评价方式改革

01 引言

2014年，国务院颁布的《国务院关于深化考试招生制度改革的实施意见》（以下简称《实施意见》）中明确提出要加强“外语能力测评体系建设”（以下简称“测评体系”），第一次从国家层面对外语考试综合改革和系统化建设提出了明确要求。测评体系建设以我国外语教育教学存在的问题为导向，以促进学生健康成长成才为宗旨，着重评价体系的科学化、系统化建设。测评体系建设任务包括建立统一、规范的测评标准，研发科学、系统的等级考试，推动外语考试内容与形式改革，促进形成性评价与终结性评价的综合应用，构建面向各级各类学习者的外语能力综合评价体系。

建立“国家英语能力等级考试”（以下简称“等级考试”），是测评体系建设的重要组成部分。“等级考试”以“中国英语能力等级量表”（以下简称“量表”）为标准参照，设置多个级别连贯有序的考试，着重考查学习者综合语言运用能力，为促进学习者语言能力发展提供连贯有序的阶梯。“等级考试”研制工作以现实需求为基础，强调科学设计及验证，着眼于考试内容、成绩报告方式的改革与创新，以加强考试对教与学的积极反馈，更好地满足不同类型学校和专业、用人单位以及教育行政部门的评价需求，促进科学的教育评价体系的建立。

02 “等级考试”的设计理念

测评体系建设坚持“服务教学、服务招考、服务社会”的基本定位，结合我国各教育阶段实际，在需求分析及科学研究的基础上构建连贯有序的“等级考试”体系，促进考试的系统性和科学性。

2.1 以问题及需求为导向

每一项考试既要有明确的考试目的，又要满足主要目标群体的需求。研制团队从2015年4月开始，以大学入学、大学阶段和研究生入学为三大支点，开展大规模的外语测评现状及能力需求调查（张文霞等，2017；张浩等，2018；程蒙蒙等，2017；吴莎等，2018；魏兴等，2018）。每一个支点的需求调查（包括问卷调查与深度访谈）均涉及3个方面，即英语测评及教学现状、能力需求，以及对考试改革的建议。调查对象包括普通高中、高等职业院校、普通高等院校（包括本科与硕士研究生阶段）的学生、英语教师、学科教师（非英语专业）及管理人员，还包括海外高校招生工作人员，以及非教育领域的用人单位管理人员和员工等。调查采用多段抽样、PPS抽样和主观选取的方法，在样本的选择上兼顾覆盖面与代表性。来自16个省（自治区、直辖市）的800多所高中、77所高职高专院校、110所本科院校参与调查。研制组还在300多家用人单位、20多个国家的50多所高校开展调研，共收到近8万个样本的数据。此外，还分别在北京、陕西、湖北等地召开高中教研员、高校教师座谈会，征集他们对外语考试改革的意见和建议。

调研发现，现有外语考试存在的问题集中在3个方面：

（1）缺乏统一标准，不能满足社会对高质量考试的需求。现有外语考试项目多，标准各异，考试级别概念不清，公众难以理解。各学段考试之间缺乏衔接，“铁路警察各管一段，缺乏通盘考虑”（受访学生），或内容重复，或存在断档，不利于学段间有序衔接。此外，因考试缺乏统一标准，试题的科学性、评分的一致性、成绩的解释力及可比性等方面难以检验，不利于科学选才。

（2）考查内容及成绩反馈不全面，对教学的积极导向作用不足。现有外语考试对学生语言综合运用能力考查不够全面，与实际语言运用结合不够紧密，对英语教学、学习的积极导向及促进作用不够充分，各学段学生的听说能力普遍较弱，本科及以上学生的书面表达能力偏弱。考试成绩主要提供总分，不能全面呈现学生能力水平，对教学、学习的反馈不足。

（3）国际认可度不高，不利于提升教育国际化水平。我国虽然外语考试规模世界最大，但现有外语考试因缺乏清晰统一的标准，不能向外界提供证明考试质量的足够证据，考试的国际认可度不够高，不利于建设教育强国目标的实现。

基于现存问题及社会各界对考试改革的建议，“等级考试”研制组提出了“整体设计、内联外接、以评促学”的研制原则。

（1）整体设计。《实施意见》强调此次招生制度改革的原则是“整体设计从基础教育到高等教育考试招生制度改革”。测评体系建设的目标是促进各阶段外语学习、教学和考试的纵向衔接与横向沟通。作为测评体系建设的一部分，“等级考试”以“量表”为准则参照，使我国各个教育学段的英语考试构成一个连贯有序的整体，减少重复考试。同时，为了满足英语学习服务于专业发展的需求，在整体设计时考虑采用“1+n”模式，如“综合语言运用能力考试+专门用途英语考试”模式，选择个别专业先行试点。此外，“等级考试”将提供多样化的分数报告，以满足毕业、升学、就业、出国等对综合语言运用能力评价的多元化需求。

（2）内联外接。“等级考试”要与我国主要教育学段的英语课程标准或教学要求相衔接，以更好地服务教学、促进教学；要与“量表”相衔接，在明晰各级别能力标准的同时，提供学生能力描述，以更好地反馈学习与教学；要与国外重要的语言能力量表和英语考试在分数解释上进行对应衔接，以方便用户更好地解读和使用考试成绩，推动国内英语考试的国际认可。

（3）以评促学。在考试内容与任务的设计上，以考查综合语言运用能力为核心，体现核心素养，并加强对考生审辩性思维和解决问题能力的考查，努力实现以评促学。根据语言能力的发展特点和我国英语教学的实际情况，低级别加强基本人际沟通能力的考查，高级别加强学术交流能力的考查。

研制“等级考试”是提升外语考试科学性和系统性的需要，是促进我国各级各类外语教育教学健康、协调发展的需要，更是推动教育评价改革、落实立德树人理念的需要。按照试点先行、稳妥推进的工作方式，实现“等级考试”的设计目标，即“中国标准、国家考试；等级连贯、能力阶梯；有效测评，提质增效”。

2.2　以科学设计为核心
（1）理论框架
建立科学的考试体系需要有先进的理论做指导。Bachman（1990）提出了交际语言能力（Communicative Language Ability，简称CLA）框架。CLA包括语言能力（language competence）、策略能力（strategic competence）和心理生理机制（psychophysiological mechanisms）。语言能力包括组构能力（包括语法能力和篇章能力）和语用能力（包括功能能力和社会语言能力）。策略能力把语言知识、语言使用者的知识结构、语境结合在一起，在决定达到表达目的最佳方法时起到评估、策划、执行的作用（刘建达、韩宝成，2018）。心理生理机制则主要指语言使用的渠道和模式。交际语言能力模型反映了人们对交际语言能力及其相关方面的基本认识，为外语教学和测试提供了基本的理论指导，也为“等级考试”的设计提供了坚实的理论基础、具体的操作方法和可行的评价原则。

（2）效度验证
Bachman & Palmer（1996）提出了包含信度、构念效度、真实性、互动性、影响和可行性六要素的测试有用性框架（test usefulness framework）,一项好的测试应具备这6个方面的特征，而效度则是其中最为重要的特征（Chapelle，2012）。效度是一项测试的价值所在，没有效度的考试不能称其为考试（Oller，1979）。美国教育研究协会（AERA）、美国心理学协会（APA）和全美教育测量学会（NCME）共同对1985年版本进行修订后颁布的《教育和心理测试标准》（AERA、APA、NCME，1999）将效度定义为“证据及理论支持测试分数解释的程度”。当代语言测试效度理论认为，效度验证贯穿整个测试开发、实施和使用过程，提倡在测试实施前，应有一个完整的效度验证计划，说明每个阶段应提供的理论和实证证据（Bachman，1990；Bachman&Palmer，1996，2010）。近年来，基于论据的效度验证方法（argument-based approach）受到越来越多研究者的青睐，如Mislevy et al.（2003）以证据为中心的方法（evidence-centered design）、Kane（1992，2001，2004）的解释性论据（interpretive argument）。由Bachman（2003，2005）提出，并由Bachman&Palmer（2010）最后修正的“评价使用论证”（assessment use argument，简称AUA）框架通过4个主张有效描述了评价后效、决策、分数解释、评价记录以及考生表现之间的线性循环关系，强调了评价的公平性、公正性、稳定性、充分性、关联性等核心要素，为评价的设计及效度验证提供了理想、实用的理论框架。

为了实现“有效测评”的目标，需要建立常态化的“等级考试”效度验证机制，为考试的分数解释和使用提供支持。为此，研制团队在项目启动伊始即确定效度验证框架，搭建数据库，围绕AUA的4个主张收集效度证据：一是测试结果的使用对所有涉考者有益；二是基于测试所作出的决定考虑到现存的教育及社会价值观和相关法律、法规，并且对受决定影响的涉考者是均等的；三是对学生语言能力的解读是有意义的、公平的，可为决策提供足够信息；四是测试记录（分数、能力描述）具有一致性，即使测试任务、测试的各个过程和被测试者有所不同。这些证据的收集为“等级考试”效度验证的常态化、提升考试体系运作的透明度提供了强有力的支撑。

2.3　以促进能力培养为宗旨
“考试，尤其是公共考试，对教学有着无可否认的反拨效应，有时候还是很强大的反拨效应”（李筱菊，1997），因此设计考试时须有意识地让考试给教学带来一种良好的导向作用。把促进能力培养作为“等级考试”的设计宗旨，有利于理顺教学与测评的关系，增强“以考促学”的主动意识。

“等级考试”以考查交际语言能力为核心，着重考查考生听、说、读、写各方面的能力，包括综合运用各项语言技能的能力。在考试内容与形式方面，“等级考试”的研制遵循5个原则：一是各级别考试题型应适合本级别的能力标准，能够考查出所要求的语言知识或语言能力。语言能力包括语言理解能力和语言产出能力（表达能力）。语言理解能力包括识别、提取、概括、分析、批判、评价能力，呈现从低到高的层级性（Anderson & Krathwohl，2001），这种层级性在“等级考试”的听力理解、阅读理解测试任务设计中得到了充分体现。二是应保证考试体系的完整性，使各级别之间保持必要的连贯，且保证考试要求从低级别向高级别逐级提高。三是适当减少客观题，代之以半主观题或主观题题型，从多角度考查语言技能。四是增加综合技能考查题型，如听说结合、读写结合等。五是加强审辨性思维能力考查，如在相关级别的测试中增加了综合、评判双方或多方观点或态度的题目。

“等级考试”在考试内容和形式改革上做了多方面的探索，以听后写、概要写作、综合写作3种测试任务为例：

（1）听后写任务
边听边记是日常学习、工作和生活中一种常见且必要的补全记忆与促进回忆的手段（Siegel，2018），边听边记还是大学课堂学习中的一个典型特征（van der Meer，2012）。对于英语作为外语的学习者而言，在听力理解过程中，对目标语言的不熟悉会加大他们的短期记忆负担，从而难以实现对内容的理解（Peverlyet al.，2007）。在听的过程中做笔记则能在一定程度上克服上述困难，有助于提高学生回忆信息的能力（Kneale，1998）；有助于增进学生对学习内容的理解与记忆（Bonner & Holliday，2006）；有助于激活学生的学习进程，如促进注意力集中（Dunkel，1985）、帮助区分主次信息（Bonner & Holliday，2006）、促进长期记忆（Piolat，Olive & Kellogg，2005）等。对学生而言，掌握边听边记技巧是学习成功的一个重要因素（如Crawford et al.,2015；Kobayashi，2006），相关的调查研究也表明学生非常认同边听边记这种学习策略，且渴望得到相关的指导与训练（如Crawford et al.，2015）。Tsai & Wu（2010）的研究表明，笔记教学（如Cornell笔记法）能够显著提高学生的听力理解能力。

在听力测试实践中，笔记任务表现为完成提纲（note completion）和简答题（short answer）两种题型，主要考查考生对细节和关键信息的理解，如果限制答案长度，评分的效率和信度都较容易得到保证（Buck，2001）。考生做笔记的方式主要有两种：自由笔记（freenote）和提纲笔记（outlined note）。许多研究发现，在给出听力提纲的情况下，考生能够记录更多，并能更好地完成相应的听力理解任务（如Kobayashi，2006）。许多实证研究还发现，考生的笔记质量与其听力能力高度相关，听力能力越强的考生笔记质量越好（如Cushing，1991；Kobayashi，2006；Song，2012），表明这种题型具有良好的效度。

（2）概要写作任务
概要写作是一种读写结合的复合性任务，是根据特定需要，系统地对书面文本进行缩减与重构，以忠实地再现原文的主要内容（Yu，2008）。将阅读和写作有机结合有助于促进读者更好地与文本互动，提高理解质量（Smith，1988）。概要写作从本质上说是一种交际活动，接近现实世界目标语言使用的场景（target language use domain），满足交际性语言测试框架下测试任务真实性的要求。概要写作任务能够有效培养和考查学生使用目标语言的能力，这种能力对于学生当下的语言学习和未来的学术或职业发展都具有非常重要的意义，同时也是应对信息时代的必备技能之一。

Yu（2005）提出的IFOE框架，从输入（input，即阅读文本的特征，包括文本的体裁、可读性、词汇密度、句法复杂度、文本的可概括性等）、考生（filter plant，即考生特征，包括考生的词汇知识、阅读能力、写作能力、认知风格等）、输出（output，即产出的概要，包括呈现方式、篇幅、原义总结/批判性总结等）、评价（evaluation，即对概要质量的评价，包括内容覆盖、简洁程度、与原文的结构关系、整体质量）等4个方面进行了详细阐述。IFOE框架为概要写作任务的设计和评估等提供参考，促进设计和评估过程的规范化、系统化和科学化。

（3）综合写作任务
从语言测试与评估的发展阶段来看，当前语言测试的研究重点已从离散性测试转向语言运用测试（如Grabe & Kaplan，1996），综合写作任务则是语言运用测试的一个典范，日渐成为二语写作测试的发展趋势。较之传统的独立写作任务，综合写作任务提供了有意义的语言背景（Lee & Anderson，2007），即写作提示，其形式一般为听力提示、阅读提示或两者兼有，因而综合写作测试有如下两大优势：一是提高真实性，即写作测试常涉及对所读所听内容的理解与阐释（如Weigle，2004），更符合现实生活中的写作任务；二是提高公平性，即写作提示中富含写作思路与语言素材，其作用类似于语言智库（Plakans & Gebril，2012），为考生提供均等的背景信息作为参考，弱化先验知识的影响。国外许多大规模标准化测试项目已逐渐采用综合写作任务，如美国教育考试服务中心的新托福考试（TOEFL iBT）、培生教育集团的PTE学术英语考试（PTE Academic）、加拿大学术英语水平考试（CAEL）等。

在二语/外语综合写作测试领域，已有较多研究发现试题特点对考生写作表现的影响，其中备受关注的是写作提示的系列文本是否会影响考生在综合写作中的表现，包括写作提示对作文得分的影响（如Lee&Anderson，2007；Kobrin et al.，2011）、写作提示对作文文本特征的影响（如Cumming et al.，2005；Plakans&Gebril，2013）、考生在完成综合写作任务时的写作过程与策略运用（如Plakans，2009）。何莲珍、孙悠夏（2015）聚焦提示特征对中国学生完成综合写作任务的影响研究，为这一测试任务在中国语境下的设计和使用提供了启示。

从高校反馈的情况看，听讲座做笔记、撰写论文摘要、写英文报告或论文均是大学本科及研究生阶段所需的关键技能，也是目前学生整体较弱、亟待提升的能力（张文霞等，2017）。上述题型的设计，着眼于考查学生综合运用多种技能提取、评估、整合信息及有效表达的能力，以期更紧密地结合语言使用实际，帮助学生掌握适应“信息爆炸”时代并谋求未来发展的核心能力，实现以评促学、学以致用。

2.4　以多元科学评价为方向
外语是21世纪人们赖以生存的关键技能之一，外语考试也因此成为人才选拔和评价的重要工具。它不仅对教学实施、学习内容产生影响，还在教育政策、社会用人机制中发挥不可忽视的作用（Shohamy，2008）。这些影响和作用，既有促进国民外语能力提升的积极的一面，也存在限制学生个性化发展及人才有效使用的消极的一面。特别是按考试成绩、通过率等来评价外语教学和学生能力的情况还较为普遍，这种现象不仅会强化教学中的应试导向和功利性，也不利于学生的健康成长和多样化、创新性人才的培养。究其原因，在于考试成绩使用的单一化、简单化，还在于考试所提供的反馈信息不充分、不全面。要改变重分数、轻能力的现象，促进外语教育教学有活力、有效率、有质量地发展，就考试而言，需要提供更多的选择性、更丰富的成绩反馈。这也是“等级考试”需要实施的重要改革。

（1）提供多维评价报告

AUA框架中，成绩阐释的充分性、相关性及富有意义对考试使用的合理决策提供重要的支撑作用，成绩报告是测试研发及使用中的重要环节。从测试对教学的反拨作用来看，要加强考试对教学的积极反拨作用，成绩报告应具备丰富性、创新性、相关性、诊断性等特点，包含多个能力维度，而不是只提供一个总分（如Shohamy，1992）。“等级考试”通过多维评价报告的研制，力图为考试用户的决策提供服务与支持，为教学提供积极反馈。“等级考试”评价报告主要有3个特点：

一是总体与分项评价兼有。“等级考试”将同时报告总分和听、说、读、写等各分项成绩。分项成绩可为成绩使用提供更多选择，如：对口语能力要求高的专业或学校可以对考生的口语成绩有较高的要求。分项成绩还可为教学提供更多反馈信息，有助于教师了解学习者各方面能力发展的情况，以便结合需求开展有针对性的教学。研究者认为，分项成绩较总分对教学的积极反拨作用更大（如Spolsky，1990）。

二是量化与质性描述并重。“等级考试”提供分数、等级等信息的同时，使用通俗易懂的文字对考生的各分项能力进行描述。质性描述部分借鉴量表的能力描述语，并结合考试的具体标准，以“能做……”的方式来描述考生所具备的能力，使考试使用者更清晰地了解成绩所代表的能力含义，帮助考生了解自己的优势及不足。研究者认为，使用现实生活中的语言来阐释成绩可使成绩更富有意义，利于考试用户理解和使用，有助于提升考试使用效度（如Kane，2012；North，2014）。

三是个体与群体评价兼顾。要发挥考试对教学的积极促进作用，“等级考试”向考生个体提供成绩报告的同时，还将向学校、教育部门提供群体性评价报告，侧重对学生的群体表现进行多角度的评价，弱化排名比较，强化对教学的正面反馈。

（2）提供多级别、多等级的选择
“等级考试”包含多个有序连贯级别的设计，为不同类型的学校、用户提供了更多的选择。学校可结合自身办学特点及专业需求选择合适的考试级别，有利于学校有针对性地安排教学和各类人才的培养。各级别考试的成绩报告通过分项成绩、等级和能力质性描述的方式力求全面、立体地反映学生的能力。用户可参照各等级的能力描述，结合自身对各项语言能力的需求来确定评价要求。

03 结语

建设一个既体现中国特色、符合中国国情，又与国际接轨的英语能力考试体系，是国家新时代人才选拔及培养的要求，是外语教育教学健康可持续发展的要求。通过考试评价方式的改革与创新，有助于克服“唯分数”带来的问题，推动教育教学的改革和评价科学化，促进学生健康成长成才。建立科学的、系统的“等级考试”体系，需要充分了解教情、学情、考情，科学设计考试目标与内容，建立全流程的质量管控体系，创新评价方式方法，完善考试服务。这个过程中不仅需要考试机构的努力，更需要教育行政主管部门、教育机构以及涉考的各个利益群体的协同创新。

本文转载自中国考试微信公众号

原文刊载于《中国外语》2019年第3期

学习·分享·成长

长按关注外研测评

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

专家视点 | 姜钢、何莲珍：构建系统连贯的考试体系，促进英语教育教学和评价方式改革

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

生成图片，分享到微信朋友圈

专家视点 | 姜钢、何莲珍：构建系统连贯的考试体系，促进英语教育教学和评价方式改革

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时