SAT深度技术贴:“Curve”的由来
SAT出分时,几家欢喜几家愁。
高分永远是少数。更多家长只能看着别人家孩子的1500+,责怪自家孩子不争气,埋怨CB不近人情。
2018年12月份考试以来,很多家长和考生都怀疑CB刻意压低亚太考生分数。他们之所以这样想,是因为过去错2道只扣20分,而那次扣了30分甚至更多。他们认为CB故意将评分标准掐紧,减少亚太考生高分段人数。
果真如此,家长们完全可以组织起来要求CB公平对待亚太考生。然而,CB并没有因为家长和学生的不满重新修改分数。
那么,SAT给出的分数究竟是否合理呢?
要回答这个问题,我们需要搞清楚以下两点:
1、为什么要进行分数调整?
2、SAT如何进行分数调整?
1、为什么要进行分数调整
SAT这样的选拔性考试,其目的大体有两个:第一,考察学生对要求知识点的掌握程度;第二,根据学生对知识点的掌握程度,通过分数将学生的差距体现出来。
如何达到这两个目的呢?对于第一个,主要体现在试题的设制上,即考点要体现知识点,并能使不同地区、种族的人无差异理解题目进而解题。第二个目的主要通过分数调整实现,这也是本文重点。
与国内高考不同,SAT一年多次考试,这也是有必要调整分数的最重要原因。
中国高考,一年一次,各高校录取以高考成绩为录取依据。比如北大今年计划通过高招在河南录取文科生40人,只需在所有报考北大的文科考生中,录取高考卷面得分排名前40的人即可。
SAT不同。SAT一年多次考试,同一所美国大学的申请者中,其SAT成绩是在不同年份的不同考试中取得的。不同考试,题目有异,难度不同。假如不调整分数,能力相同的两位申请者,可能因为参加考试不同,难度不同,SAT分数不同。这会给招生官造成困难,也对申请者不公平。所以,调整分数,尽量使不同考试的考生成绩都放在同一衡量标准下,是CB必须进行的工作。
2、CB怎样进行分数调整
其实,不仅仅是SAT,下面所说的分数调整手段,在很多国内大型考试中也都采用,比如四六级等。
在展示分数调整过程之前,需要先搞清楚一个重要的统计学概念:标准差。
这个概念很重要,也很简单。在我国普通中学数学教材中有详细介绍。用大白话说,标准差是用来衡量一堆数据中各个数据与平均值的总体差距的。计算方法为:先求出一堆数据的平均值,再求出各数据与平均值的差,将每个差值平方,求平方和,除以总数据数量减1,再开方。
明白这个概念之后,我们回到分数调整的过程上来。
我们虚拟了两组数据,以语法部分为例展示整个过程。注意:以下过程仅仅是为了让大家更清楚地理解其中的原理,CB的实际操作可能比这个更复杂,但内在逻辑一致。
第一步:原始分统计
语法部分共44题。答对计1分,答错或者不答不计分。统计正确题目数量即可得到原始分。以下为两次不同考试中全部考生语法部分的原始得分。
2018年12月 | 2019年3月 | ||
考生编号 | 语法部分原始分 | 考生编号 | 语法部分原始分 |
01 | 32 | 06 | 26 |
02 | 40 | 07 | 35 |
03 | 20 | 08 | 10 |
04 | 36 | 09 | 23 |
05 | 34 | 10 | 20 |
实际人数肯定很多,考生人数足够多的情况下,一般认为一定时间范围内,即使不同考试场次,考生整体水平也基本不变。因为每次考试都会有新考生,也都会有固定比例的老考生,高水平考生和低水平考生的比例在大样本条件下都基本稳定。
很容易看出,在考生整体水平不变的情况下,2019年3月份的考试难度高于2018年12月。那么问题产生了,如果考生拿着2019年3月的成绩申请大学,会非常吃亏。他们得分低并不是因为能力差,而是题目难度升高造成的。要解决这个问题,就需要进行等值处理。
第二步:等值处理
这是整个处理过程中最为复杂的一步,涉及复杂的数理运算。在这里只为大家讲解原理,不做数学推导和演示。
等值处理的方式有很多种。在这里为大家介绍最常见,也最容易理解的两种。
第一种是借助“铆题”。这个名词很陌生,但其实很多考生都接触过。很多考生在托福或者SAT考试中会碰到加试,这些就是“铆题”。
利用铆题进行分数调整的基本假设是:部分代表性题目的正确率和所有考试题目的正确率高度相关。可以通过某个考生部分代表性题目的正确率来推测该考生答题整体情况。
这个道理也很容易理解。我们大家都有考试的经验,比如作文得分高的同学,往往语文整体分数也会比较高(这是针对数量非常庞大的考生群体而言,肯定会有特例)。这就需要铆题具有比较高的命题水准,才能够作为分数调整的部分依据。
比如,在2018年12月份的考试中,一位铆题正确率为80%的同学,语法部分原始得分为32分。而在2019年3月份的考试中,一位铆题正确率为80%的同学只有26分。那么CB可能通过大量的分析对比,将26分的同学得分上调。这就实现了分数的“等值”,即两次不同难度的考试中,虽然同样能力的考生原始分不一样,但经过处理后,也能得到在同一标准下的分数。
另一种方式的运算过程叫线性等值,比较复杂。基本假设是:同样水平的两个考生A和B,在不同难度的考试中,其原始得分跟全体考生原始平均分的差距应该是一致的。这个差距,指的是某考生原始分与全体考生原始平均分相差了多少个单位的标准差。可以用数学公式表达为:
(A原始得分-A参加考试的平均分)/A参加考试整体标准差
=(B原始得分-B参加考试的平均分)/B参加考试整体标准差
利用这个等量关系,可以得出2019年3月份考试的分数转换公式。
不过,实际上CB并没有在实际操作中用两场考试来这样对比,因为在新SAT考试创立之初,CB已经通过大量的实验确定了等值公式。每次考试都是按照同样的公式进行等值处理的。
第三步:标准分转换
我们都有这样的经验,如果样本量足够大,会发现远高于或远低于样本总体平均值的总是少数人。比如一次考试中,大多数人都分数都会在平均分附近浮动,取得高分和低分的考生人数总是比较少的。
在统计学中,呈现这样趋势的分布被称为“正态分布”。标准分的转换正是基于这种数据的分布特点进行的。
CB会计算等值处理后所有考生分数的平均值、标准差,以及每个考生得分与平均分相差了多少个单位的标准差(记为s)。
分数转化公式为:语法报道分(即考生看到的分数)=500+100*s
其中,500分是人为设定的在大样本条件下正态分布的均值,100是标准差。
这个公式可以简单理解为将等值后的分数整体做了一个放大。目的在于,基本可以保证所有考生的语法得分都在200-800之间。这也是有统计学依据的,统计学相关原理可以证明,在符合正态分布的条件下,大多数考生得分与总体平均分的差距,都在上下3个标准差范围以内。
最后的话
如果您理解了上述过程,基本就可以理解,为什么错题数量一致,但是不同考试得分不一样。这些分数调整都是为了确保公平而进行的科学合理的转化手段。
如果您是家长,请不要把过多精力放在CB的分数标准上,因为您无法左右。您能左右的,只能是孩子的学习,以及可能在考试方面提供的一些便利条件。
如果您是老师,请多花一些时间了解考试。不仅包括考试内容本身,也包括如何看待和解读分数。提高自身测评素养,比眼泪和怒火更有价值。
备注:
“Curve”这个词,之所以打双引号,因为在使用上有歧义。Curve其实是对数据分布曲线的一种描述。比如文中提到的正态分布,它的curve就是标准的钟形曲线。但其实,当一场考试原始分数出来以后,所有考生成绩的分布曲线就已经确定了,等值处理和最后的标准分换算,都不会改变curve。
本文作者:佛脚哥
译者,国内知名外语出版集团测评研究人员。喜欢外语,更喜欢用理性、冷静的眼光分析语言。考霸一枚,乐于探索各类外语考试背后的测评原理。希望通过自己的努力,让更多人能够正确看待考试,提高测评素养。
坚持原创,砥砺前行。
我是Willey,我在书房等你。
小助手二维码
考团老师二维码
银河书店二维码
SAT春季&暑期课程列表
我们的师资
感兴趣的家长和学生,也可以关注我们的公号微店,银河书店,或在喜马拉雅搜索我们,将有更多惊喜。
回复“课程”,Willey老师 亲授SAT精品课程咨询;
回复“1580”,领取SAT 1580分 大神学习心得;
回复“词汇”,领取 SAT高频词汇2018年2.0版;
回复“历史音频”,领取《新SAT史论 1.0版》;
回复“女权”,领取《新SAT史论2.0版之女权主义》;
回复“黑人”,领取《新SAT史论2.0版之黑人权利》;
回复“阅读方法论”,领取《SAT核心阅读方法论 语音1.0版》
回复“OG1-OG5”,领取《OG1-5 阅读解析 录音1.0版》
回复“OG6-OG10”,领取《OG6-10 阅读解析 录音1.0版》
回复“2016”,领取《2016年6套SAT阅读解析录音1.0版》
回复“2017”,领取《2017年10套SAT阅读解析录音1.0版》
SAT考试备考“内幕”系列