查看原文
其他

期刊好文 | 口语测试评分标准研究与实践三十年(下)(文 / 金檀 刘力 郭凯)

期刊好文 邀您共享

中山大学 金檀   中国人民大学 刘力  东北大学 郭凯

提要:本文旨在对20世纪80年代以来国际口语测试评分标准的发展进行综述。口语测试评分标准的发展主要包含研究及实践两个层面。在研究层面,口语测试评分标准主要历经了“专家型经验”、 “实践者认知”及“学习者发展”三个阶段;在实践层面,口语测试评分标准大致可分为“本族语者”、 “能做表述”及“典型特征”三种类型。基于对代表性研究论文及典型性实践案例的分析,本文旨在梳理国际口语测试评分标准的发展脉络,以期为我国口语测试评分标准的研究及实践提供参考。


关键词:口语测试、评分标准、研究与实践

本研究得到国家社科基金重点项目“基于语料库的大学英语语言能力标准特征参数研究”(13AYY005)资助。


4

讨论

4.1 研究层面转变

纵观三十年研究的发展,评分标准在研究范式上发生了两次重大转变。一次是从“专家型经验”转为“实践者认知”(North & Schneider 1998),另一次则是基于“实践者认知”,更加重视“学习者发展”(Brown et al. 2005;Brown 2006a, 2006b)。实质上,研究范式的转变并非偶然,而是由口语测试评分过程本身的特点所决定的。图2为口语测试评分简化模型(基于 Fulcher 2003)。从图2可以看出,口语测试评分在本质上,是由“专家”和“教师”所组成的“评分员”基于“评分标准”对“口试任务”所生成的“学习者表现”进行判定,从而得到“分数”的过程。在20世纪80年代,评分标准的研究主要通过“专家型经验”,尝试建立“专家”与“分数”之间的联系(见图2中所示虚线)。然而,“专家型经验”并非系统实证认知分析,而是经验及直观型的感受。因而,在20世纪90年代,研究者们开始寻找更为直接的实证基础,基于“实践者认知”,直接探究“评分员”与“分数”之间的联系(见图2中所示虚线)。进入21世纪以后,在“实践者认知”的基础上,研究者们进行了更进一步的探索,直接分析“学习者发展”,以期建立“学习者发展”与“分数”之间的联系(见图2中所示虚线)。与此同时,由于研究范式的不断转变,评分标准研究所采用的研究设计也发生了相应的变化,从起初缺乏实证的经验型研究,历经单一的认知研究,发展到现今结合认知与发展的混合式研究(Brown et al. 2005;Brown 2006a, 2006b)。研究的范式从经验向实证发展,从单一式向混合式发展。

4.2 实践层面变化

纵观三十年实践的发展,由于“专家型经验”、“实践者认知”及“学习者发展”研究范式的影响,评分标准在具体使用上也发生了两次重大变化。一次是从“本族语者”标准到“能做表述”标准的变化,另一次则是从“能做表述”标准更进一步细化为“典型特征”标准的变化(Taylor & Falvey 2007;Chapelle et al. 2008)。实质上,评分标准的这两次变化,也是语言测试实践者们对于口语能力构念本身的不同解读。“本族语者”标准所强调的是对本族语者语言模仿的相似程度,“能做表述”标准与“典型特征”标准所强调的则是学习者自身的交际能力。两者的不同之处在于,前者关注“能做什么”,而后者则关注在“能做什么”的过程中学习者所表现出的“具体特征”。由此可见,三十年的实践发展,从“本族语者”的笼统界定,历经“能做表述”的具体界定,发展到现今“典型特征”的详细描述,口语测试评分标准正从“笼统”走向“具体”,从“模糊”走向“精确”(Jin et al. 2012)。口语测试评分标准朝着具体化与精确化不断转变与发展,这将为评分员提供更为可靠的评分依据、为学习者提供更加有效的口试分数,从而进一步提高口语测试实践的效度与信度。

4.3 发展趋势及启示

21世纪以来,无论是研究者还是实践者,都更加倾向采用混合式研究范式(Creswell 2013)探究“典型特征”标准的研制(Brown et al. 2005)。可以预测,在未来评分标准的发展过程中,学习者具体语言使用及表现时所体现的“特征”将成为研究与实践的关注重点(参见English Profile项目,Hawkins & Filipović 2012),两大热门研究议题也应运而生。第一个议题关注“特征”的选择及使用。由于口语能力本身的复杂性,如何选择具有代表性及区别性的特征来构建评分标准(Jin & Mak 2013),是否应在评分标准每一等级中都使用相同的特征(Humphry & Heldsinger 2014),将成为未来研究的热点问题。第二个议题关注基于“特征”的机器评分。由于部分“特征”可以量化,因而选取较为重要的、简化后的“特征”进行量化,通过计算机进行机器评分,可协助人工评分,例如口语测试机器评分实例Versant(Bernstein et al. 2010)及SpeechRater(Xi et al. 2008)等。在未来,可以探究如何提高机器评分的准确度和可靠性,使机器评分能够更为有效地协助及配合人工评分的开展,从而进一步提高口语测试评分质量。但需要指出的是,无论是机器评分还是人工评分,都将在理论层面上面临更多挑战,例如交互能力的评价手段、话语共建的评价方式及综合测试任务的评分标准等。


国际口语测试评分标准的研制,给我国大规模口语测试的发展带来了启示。我国大规模口语测试的典型代表为大学英语四、六级口语考试。自1999年以来,大学英语四、六级口语考试历经20年的努力和尝试,目前已逐步建立起一套完善的口语考试体系(金艳 2000;金艳、郭杰克 2002)。2016年起,全国大学英语口语考试将分设四级和六级两个级别。四级由“自我介绍”、“短文朗读”、“简短回答”、“个人陈述”及“小组互动”组成。六级由“自我介绍和问答”、“发言和讨论”及“问答”组成。这两个口语考试可对学生的英语口头表达能力进行全面的考核与评估(全国大学英语四、六级考试 2016)。针对不同的口语测试任务,我国未来也可建设相应的考生口语样本库。基于口语样本库的语料分析,可探究影响中国大学生口语水平的重要“特征”,从而研制基于“学习者语言特征”的口语测试评分标准。更进一步,在发现“学习者语言特征”的基础上,将来可尝试使用机器对考生的口语表现进行量化,从而推动机器辅助人工评分的实施。在未来口语测试的评分结果报告中,除报告分数等级外,也可提供不同等级考生的相应“特征”描述,为考生口语能力的提高和改善提供建议。


5

结语

三十年来口语测试评分标准的发展,见证了“专家型经验”、“实践者认知”及“学习者发展”研究范式的转变,也促成了评分标准历经“本族语者”标准、“能做表述”标准,到“典型特征”标准的发展。这三十年间,研究者对语言能力认识的提高和对测试构念理解的深入,促进了口语测试评分标准在理论层面的发展;实践者对口语测试方法的丰富、话语分析手段的发展以及考生口语表现分析手段的改进,促进了口语测试评分标准在实践层面的发展。


应当指出,三个阶段的研究范式并不存在绝对的界限。“专家型经验”对于语言能力框架的描述和探讨,在一定程度上指引着“实践者认知”及“学习者发展”研究的进行。而“实践者认知”在很大程度上是“学习者发展”研究的先行研究和实证基础。在实践上亦是如此,尽管“本族语者”标准已逐步退离历史舞台,但其影响依然存在。目前,“能做表述”标准在世界范围内起着重要影响,且“典型特征”标准仅处于起步阶段,还需进一步研究探索及实践修订。


“专家型经验”、“实践者认知”及“学习者发展”研究范式的转变,也促使测试研究者批判性地运用语言学的相关研究成果,尤其是语言特征本身的标准问题和计量问题。在实施“学习者发展”这一研究范式后,测试研究者们更应关注二语学习者本身语言特征的研究,而不应将母语者口语特征作为成功范式,并将其与二语学习者口语特征进行比对来判断优劣(Cook 2016)。目前,对语言本身的计量研究已从表层的字词特征计算发展到深层的句法、语义计算(McNamara et al. 2014)。然而,母语或第一语言口语特征的量化计算和评估方法是否完全适用于二语学习者还需深入探究。


在我国,随着口语测试逐步被大规模外语考试所接纳,口语测试评分的研究与实践取得了一定成果。然而,对于评分标准研制的实证研究却较为罕见。我国口语测试评分标准的实践,采用的基本还是“能做表述”标准,也仅部分吸收了“典型特征”标准。在未来的研究与实践中,可通过探究我国学习者口语能力的维度组成,分析能够区分学习者水平的重要“特征”,进一步研制“典型特征”标准,从而完善我国口语测试评分标准。未来,我国也可考虑在大规模口语测试评分中,探索口语机器评分的研究与应用,将其作为人工评分的有效协助。


本文选自《现代外语》第39卷第6期(2016年12月)“口语测试评分标准研究与实践三十年”(853-862)。

【声明】感谢《现代外语》编辑部授权iResearch发布此文。本文版权归《现代外语》编辑部所有。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。(*封面图片来源于网络)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存