查看原文
其他

期刊好文 | 评分经验对CET-4作文评分人差异的影响研究

期刊好文
邀您共读
1. 引言
目前,我国各种大规模考试(如高考、CET)都设有写作任务,作文评分存在时间紧、任务重的特点。由于评分人经验往往参差不齐,因此不同经验评分人是否存在明显差异是影响考试信、效度的关键问题。
鉴于此,本研究以CET–4 模拟作文为语料,结合MFRM和评分人评分理由编码的混合多元方差分析(MANOVA),旨在对不同经验评分人的评分差异进行全面研究,试图回答以下两个问题:
1) 不同经验评分人所给分数在严厉度、内在一致性和随机效应上是否存在差异?2) 不同经验评分人对所给分数的解释理由是否存在差异?

2. 研究方法
2.1 作文
参加本研究的学生来自广州某大学2011 级非英语专业的1 个班和该校二级学院的3 个班,共计200 人。首先,学生就2012 年6 月CET–4作文题目On Excessive Packaging 写一篇随堂作文。然后,笔者对全部作文按照CET–4评分标准(满分15分)进行了初评,并根据初评分采用分层随机抽样的方法抽取了30 篇作文作为研究材料,这30篇作文涵盖了2 分档(5 篇)、5 分档(6 篇)、8 分档(11 篇)、11 分档(5 篇)和14 分档(3 篇)等5 个等距的分数档。
2.2 评分人
共有来自广东省9所高校的27 位评分人在2012年7月CET–4作文评分期间参与了本研究。他们背景类似,都讲授大学英语课程,拥有硕士学位,同时都通过了当次CET–4作文评分培训。在本研究中,评分经验的操作化定义是评分人以往参加CET–4作文评分的次数。鉴于徐鹰(2014)研究中的三位不同经验评分人的CET–4、作文评分次数分别为1、5、10,因此,我们将评分人按照以往参加CET–4作文评分次数平均分为三组,每组各9 人:新手(Novice,简写为N)评分次数在1—5 次之间;中手(Inhand,简写为I)在6—10 次之间;老手(Veteran,简写为V)在11—15 次之间。为方便标识,评分人代号按照“评分经验代号+评分人序号”方式编排。单因素方差(ANOVA)分析结果(F(2,24)= 64.508,p < .001)说明三组评分人的评分次数存在显著差异,Scheffe 事后检验发现三组评分人两两之间存在显著差异(p < .001)。
2.3 评分标准
CET–4作文评分采用总体评分法,从内容和语言两方面对作文进行综合评判,满分15分,包括5 个等级:2 分档(1—3 分)、5分档(4—6 分)、8 分档(7—9 分)、11 分档(10—12 分) 和14 分档(13—15 分),每个等级对作文的内容和语言提出了具体的要求,评分标准细则包括切题、表达思想清晰程度、连贯和语言错误等4种文本特征(杨惠中、 Weir 1998)。CET–4作文评分标准明确规定,评分人评分时应首先判断分数档,然后通过在每个档内加减一分的方法将5 个分数档扩展为15 个连续分数;此外,对于字数不足的作文,应酌情扣分。
2.4 研究过程
由于CET–4作文评分第一天主要安排评分人培训,30篇模拟作文复印后随机排序并在2012年7月评分开始后第二天结束时发给评分人,评分人利用当天晚上对这些作文按照他们在评CET–4正式作文时的标准评分,同时对每篇作文的分数按重要性顺序依次提供三条评分理由(最重要的是第一条评分理由,其次是第二条,最不重要的是第三条),材料在第三天评分工作开始前交回。采用三条评分理由是借鉴了Shi(2001)研究英语为母语和英语为非母语的EFL教师评估中国学生英语作文的做法。所有材料收回后,我们对材料进行了复查,从而确保了每位评分人的评分理由和具体分数的一致性。
2.5 数据分析
2.5.1 定量数据分析
反馈前、后评分人所评分数用FACETS 3.58(Linacre 2005)进行分析。多层面Rasch模型一共包括评分人、考生两个层面(评分经验作为虚拟层面),其数学模型如下:log(Pijk/Pijk-1)= Bi – Cj – FkPijk表示评分人j 给考生i 打k 分数的概率;Pijk-1表示评分人j 给考生i 打k-1分数的概率;Bi是考生i的能力;Cj是评分人j的严厉度;Fk 是k分数相对于k-1 分数的难度。
2.5.2 定性数据分析
27位评分人对30篇作文共提出了2,196条评分理由(有部分评分人没有给足3条评分理由)。在Shi(2001)评分理由编码基础上,笔者对评分理由进行了编码,并经过三轮次反复修改,最后确定了评分理由编码框架。为保证编码信度,一位语言测试方向的博士研究生对7 位评分人(占评分人总数的26%)的评分理由进行了编码,在所编码的606 条评分理由中,不同编码人之间的信度(inter-coder reliability) 达到了95.71%, 从而保证了编码框架的可靠性。编码完成后,对评分标准相关理由的编码频数占全部评分理由的百分比进行混合多元方差(MANOVA)分析,包括两个自变量(IV)和5个因变量(DV),第一个IV是评分经验(组间变量),第二个IV是评分理由重要性(组内变量);5个DV分别为切题、表达思想清楚程度、连贯、语言错误以及篇幅等编码频数占全部评分理由编码频数的百分比,前4个DV对应了CET–4作文评分标准规定的写作构念,最后一个DV(篇幅)和分数相关且评分标准有明确规定,因此也加以分析。这一做法的依据在于MANOVA功能强大,能同时处理多个相互之间有一定相关关系的DV,同时能有效控制犯第一类错误的概率。由于MANOVA要求DV是连续性变量(Tabachnick & Fidell 2013:12),因此可以适用于本研究中的评分理由编码百分比。在前人研究中,Cai(2012) 采用MANOVA对TEM–4口试评分人有声思维的编码主题百分比进行了分析。因此,本研究采用MANOVA分析评分理由编码百分比,而不采用卡方检验分析评分理由频数。

3. 结果
本文第3部分,即研究结果此处略,请点击阅读原文登录本刊网站免费阅读。本文发表于《中国外语教育》(季刊)2015年第3期。

4. 讨论
通过对不同经验评分人所给分数和评分理由进行对比分析,本研究主要有以下发现:
1)三组不同经验评分人在严厉度上没有明显差异,但是他们在内在一致性上存在一定差异,相对来说老手的内在一致性最好,新手次之,中手最差;此外,绝大多数评分人没有出现随机效应。首先,这一结果说明了评分培训的重要作用。由于本实验是在评分人通过严格的CET–4作文评分培训之后进行,因此评分培训能够有效降低不同经验评分人的评分差异。其次,这一结果反映了评分经验在评分实践中的关键作用。新手由于缺乏评分经验,只有尽可能地依赖评分标准,同时不拟合评分人数量最多,评分随意性较明显。中手虽然有一定的评分经验,但是其内化的评分标准还不成熟,还只能依赖评分标准,同时不拟合人数减少,但是过度拟合人数增加,给“保险分”趋势明显。而老手丰富的评分经验帮助他们构建了一套较成熟且有效的内化评分标准,能够关注更全面的文本特征,形成文本连贯、合理的解读,达到最好的内在一致性。
2)不同经验评分人基本上能按照评分标准规定给出评分理由,但也有一小部分评分理由和评分标准无关,这就意味着评分人的评分决策包含评分标准不相关(rubric-irrelevant)因素;同时,在评分标准相关的5个DV中,切题和语言错误的百分比最大,连贯和篇幅的百分比最小,其中连贯百分比最低的老手只有2.72%,最高的中手有5.50%,因此在分数效度上也存在评分标准表征不足的问题,直接影响分数的可解释性及基于分数所作的推理。同时,评分经验和评分理由重要性对评分标准相关理由百分比的混合多元方差分析发现,评分经验主效应、评分经验和评分理由重要性的交互效应都不显著,但是评分理由重要性在切题和语言错误上存在显著差异。
尽管评分标准被认为是保证评分质量的关键因素(Bacha 2001;Knoch 2011;McNamara 1996),但本研究发现不同经验评分人都没有严格按照评分标准进行评分,从而威胁了分数的可解释性(即分数的效度),其原因主要在于以下三点。
首先,CET–4作文评分标准属于一种基于直觉性的量表(Fulcher & Davidson 2007),是由相关专家基于直觉制定(李清华、孔文 2011),尽管和《大学英语课程教学要求》(教育部高等教育司 2007)相一致,但存在理论框架不明晰、经验证据不足等问题。因此,应当从评分人对考生作文的评价中归纳作为评判依据的语言行为特征,从而进行修改和完善。
其次,CET–4作文评分采用总体评分法,容易产生较高的评分信度,但也容易产生评分人过分关注文本表层特征(如拼写、长度、用词和书写)的问题,从而忽略评分标准中的深层次特征,比如说连贯。语言错误就是一种明显的表层特征,也是评分人所给理由频数最多的特征。有10位评分人的评分理由中语言错误的百分比超过60%(N4和I1甚至超过90%),其中老手2人,中手5人,新手3人。中手表现最为明显,不仅过度拟合人数比例最高,而且评分理由相对单一。但是表1 显示他们的严厉度、加权均方拟合度等都在正常范围内。这说明不少评分人存在评分还原主义倾向,即将多个评分标准简化成某个标准。总体评分法容易产生还原主义,因为评分人要对考生认知和语言维度的复杂性给出成一个分数,必然倾向于关注某个典型特征。
最后,二语学习者写作能力突出体现为语言准确性。由于实际评分时的工作量大,评分人对于水平参差不齐的考生,必须要给出一个比较恰当、精准的分数,同时评分人工作表现和报酬还取决于评分数量,因此评分人会形成某种更高效的评分策略:即在保证一定的评分准确度前提下最大化评分数量或用最小认知努力完成评分工作,此时从语言错误入手来判断考生能力无疑是一种比较高效且准确的方式。所以不同经验的评分人最终都选择在第一条评分理由上评判作文是否切题,在第二条和第三条评分理由上观察语言错误的方法。
综上所述,三组不同经验评分人整体严厉度没有显著差异,给出的大部分评分理由和评分标准相关。其中,老手的内在一致性最好,说明老手内化的评分标准最稳定。这一结论同Cumming(1990)、Huot(1993)、Huot & Pula(1993)的研究结果类似,有力地说明了评分经验对分数差异的重要影响。从解释学(Moss 1994;Petruzzi 2008)视角来看,评分是一种复杂的心理认知和决策过程,评分人在综合考虑文本印象、文本特征以及评分标准后最终给出一个总体分,并且会对所给分数提供一个连贯且整体的解释。因此,评分人的经验对分数解释产生重要影响。由于评分标准不可能覆盖所有的文本可能性,因此,评分人必须自己建构一套内化的评分标准和策略,从而形成了评分标准和主观印象之间的一种张力和不确定性。
5.结束语
本研究结果说明,经过培训后,不同经验评分人在整体上不存在严厉度区别,但在内在一致性上存在差异。虽然不同经验的评分人关注的文本特征不尽相同,但大部分的评分理由都和评分标准相关。上述结果说明培训可以帮助不同经验评分人形成一个评分共同体,减少评分人差异。
本研究有两点启示:第一,只要经过严格培训,不同经验的评分人都可以胜任评分工作,但在同等条件下应优先选择多次参加评分的评分人
第二,现行的CET–4作文评分培训主要是利用评分人分数和专家分数的相关系数来控制评分质量,对于评分人的评分理由监控力度不大,因此这种过分关注分数信度的培训方式可能导致通过培训的评分人相关系数较高,但却容易产生评分标准表征不足和评分标准不相关两种威胁分数效度的情况,需要进一步改进。
本研究局限性在于评分人的选取是一种便利抽样,因而外推力有限;其次,研究样本是模拟作文,且评分人在一天评分工作之余参与研究,疲劳因素也会影响结论的准确性。下一步研究应在克服上述缺点的同时,采用有声思维、访谈等质性研究方法多边验证上述结论。
作者简介

徐鹰,(1979-)华南理工大学外国语学院副教授。主要研究领域:语言测试。电子邮箱:

xuying@scut.edu.cn


本文节选自徐鹰,2015,评分经验对CET-4作文评分人差异的影响研究,《中国外语教育》(季刊),8(3),74-84.
《中国外语教育》(季刊)是教育部国家重点文科研究基地北京外国语大学中国外语教育研究中心创办的外语教育专业学术期刊,由外语教学与研究出版社协办。 
本刊主要栏目包括:“热点聚集”、“外语教学”(外语教学、外语教师、外语课程与教学资源、外语教育政策及理论等方面的研究)、“外语学习”(外语学习与外语学习者的研究)、“外语评测”、“书评”、“学术动态”等栏目。每年4期,16开。本刊以理论联系实际、学术性与应用性兼容、科学性与社会性并重为办刊宗旨,鼓励研究者以教师所关注的问题为研究重点,支持一线教师开展具有个性的研究,是我国外语教育研究者进行学术交流的专业平台。 

本刊已列入

中文社会科学引文索引(CSSCI)来源集刊目录《中国学术期刊网络出版总库》及CNKI系列数据库。 


投稿说明

本刊发表文章以实证性研究为主,同时也刊登部分外语教育理论和外语教育政策方面的文章。 

投稿方式在线投稿:http://submit.celea.org.cn/fleic

声明:本文版权归《中国外语教育》(季刊)编辑部所有,感谢《中国外语教育》(季刊)编辑部授权刊载。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存