查看原文
其他

期刊好文 | 口语测试评分标准研究与实践三十年(上)(文 / 金檀 刘力 郭凯)

期刊好文 邀您共享

中山大学 金檀   中国人民大学 刘力  东北大学 郭凯

提要:本文旨在对20世纪80年代以来国际口语测试评分标准的发展进行综述。口语测试评分标准的发展主要包含研究及实践两个层面。在研究层面,口语测试评分标准主要历经了“专家型经验”、 “实践者认知”及“学习者发展”三个阶段;在实践层面,口语测试评分标准大致可分为“本族语者”、 “能做表述”及“典型特征”三种类型。基于对代表性研究论文及典型性实践案例的分析,本文旨在梳理国际口语测试评分标准的发展脉络,以期为我国口语测试评分标准的研究及实践提供参考。


关键词:口语测试、评分标准、研究与实践

本研究得到国家社科基金重点项目“基于语料库的大学英语语言能力标准特征参数研究”(13AYY005)资助。


1

引言

近年来,我国许多大规模外语考试都已逐步将口语测试纳入其中,例如部分省市高考、大学英语四、六级考试及英语专业四、八级考试等(吕长竑等 2008)。许多研究者对口语测试开展了积极有效的探索,研究重点主要集中于口语测试的设计原则及命题(薛荣 2009)、评分方法或评分标准的使用(金檀等 2008)以及评分信度或评分员偏差分析(戴朝晖、尤其达 2010)。然而,对口语测试评分标准的具体研制与发展,却鲜有涉及。


口语测试评分标准的作用在于对考生口语能力做出操作性界定。基于评分标准,评分员可对考生的口语表现进行评定并给出相应分数。伴随着英语口语测试的出现,口语测试评分标准已有较长的发展历史。早在19世纪30年代,评分标准就已被研制并应用于口语测试,为课堂教学与学校发展提供相关数据。后来,由于英语口语测试被广泛应用于国际流动、高等教育以及工作就业等领域,评分标准也成为提供有效参考依据的关键,其研制也逐步成为语言测试研究者关注的焦点问题之一(Fulcher 2003, 2015)。


20世纪80年代中期以来,随着ELTS(雅思考试前身)口试、雅思口试及托福口试的实施与推广(Taylor & Falvey 2007;Chapelle et al. 2008),国际口语测试在研究与实践中取得了长足发展,具有典型代表性和较高的分析价值。为系统考察三十年来国际口语测试评分标准的发展,本文拟从研究及实践两个层面对文献与案例进行梳理和回顾。研究框架见图1。

1)从研究层面出发,本文通过回顾国内外口语语言能力量表、测试大纲及具有重要意义的论文成果,对口语测试评分标准发展的阶段性特点进行整理和归纳。


2)从实践层面出发,本文通过对ELTS、雅思及托福考试主办方或研发团队研究及实践成果的分析,考察评分标准相关理论发展在实践应用中的转化。


在研究层面,国际上,语言能力标准的研制主要历经了“专家经验”、“实践者认知”及“学习者表现”三个阶段(赵雯等 2015)。作为语言能力标准的一个重要组成部分,口语测试评分标准也随之经历了三个重要阶段,本文中将其分别命名为“专家型经验”、“实践者认知”及“学习者发展”。在实践层面,口语测试评分标准大致可分为“本族语者”、“能做表述”及“典型特征”三种类型(Jin et al. 2012;Jin & Mak 2013),其代表分别为“ELTS 1986”(Davies 2008)、“IELTS 1989-2001”(Ingram & Wylie 1993)以及“IELTS 2001-”(IELTS Website 2010)/“TOEFL iBT2005-”(ETS 2005)。如图1所示,研究与实践之间关系密切、相互促进,但无论在研究层面还是实践层面,三个阶段并非是由一个阶段突然完全取代另一个阶段的断层式分布,而是呈现出逐步过渡状态。本文将从研究与实践层面,依次对口语测试评分标准的发展进行分析。


2

口语测试评分标准研究

20世纪80年代,评分标准的制定缺乏一定的科学实证依据。“专家型经验”常用作评分标准研制的主要参考(Fulcher 2003),即:语言专家以本族语者为标杆,将外语学习者的口语与本族语者进行对比,从而根据其相似程度来判断学习者的口语水平。早期的外事协会评分标准是诸多“专家型经验”评分标准的参考典范,其评分标准(Interview Assessment Scale 1996)中使用了“分数段”概念,将外语学习者的口头语言能力分为九个等级,其中第九等级的学习者达到“专家级口语者”水平。其他等级以此为标准,从最高等级的“专家级口语者”水平逐步降低到最低等级的“非母语口语者”水平。


进入90年代以后,“专家型经验”的评分标准在长期实践过程中逐渐暴露出等级划分标准含糊不清、缺乏理论实践基础等缺陷与不足(Bachman & Savignon 1986)。为进一步研制或修订口语测试评分标准,研究者们逐步开展了基于“实践者认知”的实证研究,例如Tonkyn(1992,转引自 Tonkyn & Wilson 2004)、Merrylees(1999)及 Brown(2000)。“实践者认知”关注评分员作为实践者如何看待和评价口语测试中的考生表现。这一阶段最为典型的代表性研究非“描述语量化研究”莫属。“分级标准描述语”(North & Schneider 1998)通过分析现有评分标准,结合教师对于标准描述语的解读,使用Rasch模型对学习者口语能力标准的描述语进行等级量化,保证了所用描述语的有效性、可理解性及相互独立性,为口语测试评分标准的研制与修订提供了实证依据。


进入21世纪,无论是研究者还是实践者都开始呼吁,评分标准应关注考生在口语测试中的表现(Van Lier 1989)。研究者们开始基于“实践者认知”,探究“学习者语言特征”,主要强调对学习者的口语能力在不同发展阶段的表现进行深入分析,从而建立口语表现与等级分数之间的联系。这一阶段最为典型的代表性研究为Brown(2006a,2006b)以及 Brown et al.(2005),但两者的研究略有不同。Brown(2006a,2006b)分别探究了雅思评分员的认知情况及考生的口语表现,两项研究各自独立进行,分别从“实践者描述”角度及“学习者语言特征”角度,验证了现行的雅思口语测试评分标准的效度问题。而Brown et al.(2005)则将“实践者描述”及“学习者语言特征”相结合,通过混合研究设计,先探索评分员在评价考生口语表现时究竟关注哪些重要特征,然后用这些特征去分析考生的口语表现,从而验证了托福口语测试评分标准的效度问题。


3

口语测试评分标准实践

20世纪80年代,在“专家型经验”的影响下,“本族语者”标准成为了该时期口语测试评分标准的主要类型。ELTS(Taylor 2007)在当时“本族语者”标准中具有典型代表性。ELTS的评分标准以本族语者为参考标准,将考生的口语水平划分为九个等级,分别为“专家级水平”、“优秀水平”、“良好水平”、“合格水平”、“适度表达”、“临界水平”、“能力极其有限”、“说话断断续续”、“无法表达”及“缺考”(Davies 2008)。由此可见,“专家型经验”在ELTS评分标准的研制中产生了重要影响。


进入20世纪90年代,“实践者认知”研究对评分标准实践产生了一定的影响。在ETLS(1986)评分标准的实践过程中,评分员在使用和解释评分标准时发现了其存在的缺陷和不足。因此,20世纪80年代末,ELTS对其评分标准进行了审查和修订(Taylor 2007)。在修订过程中,ELTS的评分标准对“专家型经验”的关注相对减少,注意力开始转向“实践者认知”,即探究评分员如何评价考生口语表现(Alderson 1991),进而研制并修订了评分标准。1989年,修订后的ELTS评分标准开始投入使用,并正式更名为“IELTS”(Taylor 2007)。


由此可见,20世纪90年代前,“专家型经验”是构建评分标准的主流方法,而90年代以后评分标准的制定发生了巨大变化。同过去依靠专家经验不同,口语测试的实践者——评分员,在评分标准的制定过程中开始扮演重要角色。这种转变主要体现为,评分标准开始关注评分员对考生的认知——即评分员认为考生究竟“能做什么”,进而采用了“能做表述”的方式呈现。这种基于“实践者认知”的“能做表述”在20世纪90年代口语测试评分标准的研制中产生了巨大影响,其代表为“IELTS 1989-2001”。这一版的评分标准具体关注考生在口语表现中究竟“能做什么”,例如在“等级4”的描述语中,要求“考生能够对熟悉的话题进行口头交流,能够掌握基本句型、语法和词汇等”(Ingram & Wylie 1993)。


然而,基于“实践者认知”的“能做表述”评分标准也逐渐暴露其不足:“能做表述”虽然是对考生口语交际能力的具体化描述,但在一定程度上还是较为模糊,并未真正对考生的口语表现进行细致分析及详实描述。


21世纪以来,对“学习者发展”的探究在很大程度上影响了口语测试评分标准的修订及实践。评分标准的制定进一步强调考生在完成口语任务时的语言特征,例如:在“IELTS 2001-”(IELTS Website 2010)标准中,“等级6”的考生在流利度及连贯性方面可表现出的特征为“偶尔重复、自我纠正或出现犹豫,能够使用丰富的连词”;“TOEFL iBT 2005⁃”(ETS 2005)标准中,“3分”的考生在表达方面可表现出的特征为“在发音时出现个别错误”。


与20世纪90年代的评分标准相比,21世纪以来的口语测试评分标准,在“能做表述”的基础上,加入了考生口语表现所体现出的“典型特征”,从而让评分标准向具体化、明确化的道路发展,更加便于评分员的实际操作。“实践者认知”将评分标准的研究引入到实证研究的轨道上,开始关注评分员对考生口语表现质量的态度及看法。在此基础上,“学习者发展”更为详细地分析考生口语表现所呈现出的具体“特征”。正是由于对这些“典型特征”的分析,针对考生口语表现的机器评分也逐步提上日程。


机器评分是二语习得、语言评估以及计算机语言学等领域的有效结合。由于自然语言处理技术不断完善,机器评分得到了快速发展(Xi 2010)。在此过程中,机器评分标准的研制成为了提高机器评分效度的关键。机器评分标准的研制主要基于口语表现特征进行,研制者将主要的、具有区别性的口语表现特征进一步量化和数字化,通过“机器”实现对考生口语表现的量化计算和自动评分,从而使机器评分成为人工评分的有效辅助和补充。


本文选自《现代外语》第39卷第6期(2016年12月)“口语测试评分标准研究与实践三十年”(853-862)。

【声明】感谢《现代外语》编辑部授权iResearch发布此文。本文版权归《现代外语》编辑部所有。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。(*封面图片来源于网络)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存