查看原文
其他

托福考试是全球统一阅卷么? 电脑评分可靠吗?揭秘ETS阅卷的“幕后”~

2017-06-06 新东方留学考试学习平台


ETS是怎样对托福考试进行阅卷的?


评分人员都是ETS的官方人员么?


电脑评分真的可靠吗?



新东方教学管理团队曾深入ETS总部,从心理测评、测试规范、测试设计及计分的有效性评估、测试内容公平性、测试分数范围界定及等值化等诸多方面的内容进行了学习和讨论,深入细致地去洞察考试的动机,


当然最值得大家关注仍然是关于ETS如何进行算分的话题。对此从以下几个方面来为大家进行独家揭秘。



ETS是全球统一阅卷么?


ETS在整个试卷的制作过程中,非常关注Fairness这样一个核心要素。而公平原则其中非常重要的一个体现就是确保全球的做题结果都是由统一的阅卷人来进行批改。尤其是ETS将托福改革成iBT之后,更是加速了利用网络进行统一阅卷评分的进程。



阅卷评分人员都是ETS的官方人员么?


ETS管理着诸多考试项目,仅仅是托福项目在中国每年就有超过20万人报考,这也意味着仅是从阅卷评分这个层面就需要投入大量的人力。但是从ETS总部有限的办公区域来看,我们可以料想到它是不可能去配备那么多官方人员来阅卷的。


关于这个问题,评分员能力系统项目的负责人Jennifer Geoghan女士也给出了明确的回答。ETS的评分员并非仅限于ETS官方人员,而是面向美国本土的人员通过特定的流程进行招募的。只要是在美国本土工作的人员都可以申请成为评分员,他们不需要在ETS办公,甚至可以在家里阅卷,但是为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。


申请人通过资质审核后,会先进入到线上培训环节成为一名Train rater。当培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试,成为一名Certify rater。而在整个过程中,ETS的官方评分员充当的就是一个裁判和导师的角色,也正是利用这样的模式才确保了专业人员的高效利用,同时也确保了评分的科学性和准确性。


ETS仍然在使用电脑评分么?

其实电脑评分这个概念,很早就已经运用于写作考试中,这并非什么新兴产物。自从2010年1月开始,iBT的写作评分系统就进行了调整。由原来的2个评分员评分,取算术平均分作为raw score原始分,改为1个评分员和1个电脑评分系统(e-Rater)评分,取算术平均分作为原始分的方式。



尽管之后也有很多出题机构也学习了这种评分方式,但是最终都因为评分效果不理想而最终放弃,这也正是很多人猜测ETS现今的考试中是否还继续使用电脑评分的原因所在。可以说在本次ETS的培训中,几乎每一位ETS的官方人员都会不断地提及Human Scoring & Automated Scoring的概念。想必大家也能猜想到结果了,ETS对于利用电脑评分的操作是乐此不疲的,而且对于评分的结果是极度信任的。



电脑评分是否会计入真实成绩?


其实来到ETS之前,我对电脑评分这件事情也是心存顾虑的,总担心这样的评分方式不够智能,会过于机械化地得出结果。但是当我们来到ETS听完专家的讲解后,我明白了ETS利用电脑评分的意义所在:


49 31062 49 15232 0 0 3136 0 0:00:09 0:00:04 0:00:05 3136

一方面,我们之前对于电脑评分的认识并不够全面,总是觉得仅仅是利用一些具有纠错功能的软件来进行评分。而真正意义上的e-Rater更像是一个基于强大数据系统支持的一个运算系统,它能够将输入的文章内容和数据库里面的内容进行比照式批阅,这样就极大地增强了阅卷评分的灵活度和广泛度。而ETS作为全球最大的测试服务机构,他有着得天独厚的优势,那就是它每年都能够积累大量的文章数据,而且能够不断进行更新迭代,这能使得他的电脑评分系统的智能化不断地提升。相比而言,其他测试机构的电脑评分系统却虚有其表,没有大量数据内核作为支持,所以自然无法得到一个理想的评分效果。


另一方面,电脑评分有着它独特的优势,那就是具备足够的客观性。它不存在阅卷的疲惫度,永远能够关注每一个评分标准,考虑到文章中的每一个细节和每一个特征;它没有情绪,所以也就不存在主观映像,对于同一篇文章永远只会给出一个不变的分数;它能对于每一篇文章所给出的分数都能给出具体的解释,这是人为评分无法做到的。


对于托福考试而言,关于语言输出部分的口语和写作两个项目都会涉及到电脑评分,而且评分结果是计入到真实成绩的。只不过算分方法并不是机械地将评分员评分和电脑评分进行求平均计算。


我们其实可以更形象地把他们理解成为分工协作,联合判分。首先,E-Rater负责Linguistic的部分,关注的是文章的逻辑、语法、用法、架构、词汇等要素,而人工负责内容和含义的理解,他们在评分目标上各有分工。


根据托福写作考生的设定,e-rater主要考查考生作文五大方面,分别为:

Organization&Development 文章组织和发展

Grammar 语法

Usage 用词

Mechanics 格式

Style 语言风格



其次,阅卷人和电脑是独立判分,他们彼此看不到对方的分数。当两者的分差介于动态区间值时分数有效,判分结束;当两者的分差大于动态区间值时,人工评分和电脑评分均无效,将会引入新的判分组进行重新评分。如果仍然判分无效,将会指定给ETS官方阅卷人主管直接判分,但这种情况很少出现。


希望文中的内容能让大家对这个神秘的出题机构有进一步的了解。老师们还将从其他层面来为大家解读ETS的各项考试。


考试并非目的而是手段,希望各位考生能够在备考的过程中,真正体会考查意图,对照提升自己的各项能力,让高分成为一个顺理成章的结果。



内容来源自“新东方托福”

作者 王磊




推荐阅读:

托福听力素材那么多,到底要怎么用?

10本最适合学英语的外刊:从初级到高阶,你总能找到想读的一本!

教你一眼看出单词的意思:常见词根、前缀、后缀一览





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存