SAT深度技术贴：“Curve”的由来

查看原文

其他

SAT深度技术贴：“Curve”的由来

Original Willey willey的书房 2021-07-23

SAT出分时，几家欢喜几家愁。

高分永远是少数。更多家长只能看着别人家孩子的1500+，责怪自家孩子不争气，埋怨CB不近人情。

2018年12月份考试以来，很多家长和考生都怀疑CB刻意压低亚太考生分数。他们之所以这样想，是因为过去错2道只扣20分，而那次扣了30分甚至更多。他们认为CB故意将评分标准掐紧，减少亚太考生高分段人数。

果真如此，家长们完全可以组织起来要求CB公平对待亚太考生。然而，CB并没有因为家长和学生的不满重新修改分数。

那么，SAT给出的分数究竟是否合理呢？

要回答这个问题，我们需要搞清楚以下两点：

1、为什么要进行分数调整？

2、SAT如何进行分数调整？

1、为什么要进行分数调整

SAT这样的选拔性考试，其目的大体有两个：第一，考察学生对要求知识点的掌握程度；第二，根据学生对知识点的掌握程度，通过分数将学生的差距体现出来。

如何达到这两个目的呢？对于第一个，主要体现在试题的设制上，即考点要体现知识点，并能使不同地区、种族的人无差异理解题目进而解题。第二个目的主要通过分数调整实现，这也是本文重点。

与国内高考不同，SAT一年多次考试，这也是有必要调整分数的最重要原因。

中国高考，一年一次，各高校录取以高考成绩为录取依据。比如北大今年计划通过高招在河南录取文科生40人，只需在所有报考北大的文科考生中，录取高考卷面得分排名前40的人即可。

SAT不同。SAT一年多次考试，同一所美国大学的申请者中，其SAT成绩是在不同年份的不同考试中取得的。不同考试，题目有异，难度不同。假如不调整分数，能力相同的两位申请者，可能因为参加考试不同，难度不同，SAT分数不同。这会给招生官造成困难，也对申请者不公平。所以，调整分数，尽量使不同考试的考生成绩都放在同一衡量标准下，是CB必须进行的工作。

2、CB怎样进行分数调整

其实，不仅仅是SAT，下面所说的分数调整手段，在很多国内大型考试中也都采用，比如四六级等。

在展示分数调整过程之前，需要先搞清楚一个重要的统计学概念：标准差。

这个概念很重要，也很简单。在我国普通中学数学教材中有详细介绍。用大白话说，标准差是用来衡量一堆数据中各个数据与平均值的总体差距的。计算方法为：先求出一堆数据的平均值，再求出各数据与平均值的差，将每个差值平方，求平方和，除以总数据数量减1，再开方。

明白这个概念之后，我们回到分数调整的过程上来。

我们虚拟了两组数据，以语法部分为例展示整个过程。注意：以下过程仅仅是为了让大家更清楚地理解其中的原理，CB的实际操作可能比这个更复杂，但内在逻辑一致。

第一步：原始分统计

语法部分共44题。答对计1分，答错或者不答不计分。统计正确题目数量即可得到原始分。以下为两次不同考试中全部考生语法部分的原始得分。

2018年12月	2019年3月
考生编号	语法部分原始分	考生编号	语法部分原始分
01	32	06	26
02	40	07	35
03	20	08	10
04	36	09	23
05	34	10	20

实际人数肯定很多，考生人数足够多的情况下，一般认为一定时间范围内，即使不同考试场次，考生整体水平也基本不变。因为每次考试都会有新考生，也都会有固定比例的老考生，高水平考生和低水平考生的比例在大样本条件下都基本稳定。

很容易看出，在考生整体水平不变的情况下，2019年3月份的考试难度高于2018年12月。那么问题产生了，如果考生拿着2019年3月的成绩申请大学，会非常吃亏。他们得分低并不是因为能力差，而是题目难度升高造成的。要解决这个问题，就需要进行等值处理。

第二步：等值处理

这是整个处理过程中最为复杂的一步，涉及复杂的数理运算。在这里只为大家讲解原理，不做数学推导和演示。

等值处理的方式有很多种。在这里为大家介绍最常见，也最容易理解的两种。

第一种是借助“铆题”。这个名词很陌生，但其实很多考生都接触过。很多考生在托福或者SAT考试中会碰到加试，这些就是“铆题”。

利用铆题进行分数调整的基本假设是：部分代表性题目的正确率和所有考试题目的正确率高度相关。可以通过某个考生部分代表性题目的正确率来推测该考生答题整体情况。

这个道理也很容易理解。我们大家都有考试的经验，比如作文得分高的同学，往往语文整体分数也会比较高（这是针对数量非常庞大的考生群体而言，肯定会有特例）。这就需要铆题具有比较高的命题水准，才能够作为分数调整的部分依据。

比如，在2018年12月份的考试中，一位铆题正确率为80%的同学，语法部分原始得分为32分。而在2019年3月份的考试中，一位铆题正确率为80%的同学只有26分。那么CB可能通过大量的分析对比，将26分的同学得分上调。这就实现了分数的“等值”，即两次不同难度的考试中，虽然同样能力的考生原始分不一样，但经过处理后，也能得到在同一标准下的分数。

另一种方式的运算过程叫线性等值，比较复杂。基本假设是：同样水平的两个考生A和B，在不同难度的考试中，其原始得分跟全体考生原始平均分的差距应该是一致的。这个差距，指的是某考生原始分与全体考生原始平均分相差了多少个单位的标准差。可以用数学公式表达为：

（A原始得分-A参加考试的平均分）/A参加考试整体标准差

=（B原始得分-B参加考试的平均分）/B参加考试整体标准差

利用这个等量关系，可以得出2019年3月份考试的分数转换公式。

不过，实际上CB并没有在实际操作中用两场考试来这样对比，因为在新SAT考试创立之初，CB已经通过大量的实验确定了等值公式。每次考试都是按照同样的公式进行等值处理的。

第三步：标准分转换

我们都有这样的经验，如果样本量足够大，会发现远高于或远低于样本总体平均值的总是少数人。比如一次考试中，大多数人都分数都会在平均分附近浮动，取得高分和低分的考生人数总是比较少的。

在统计学中，呈现这样趋势的分布被称为“正态分布”。标准分的转换正是基于这种数据的分布特点进行的。

CB会计算等值处理后所有考生分数的平均值、标准差，以及每个考生得分与平均分相差了多少个单位的标准差（记为s）。

分数转化公式为：语法报道分（即考生看到的分数）=500+100*s

其中，500分是人为设定的在大样本条件下正态分布的均值，100是标准差。

这个公式可以简单理解为将等值后的分数整体做了一个放大。目的在于，基本可以保证所有考生的语法得分都在200-800之间。这也是有统计学依据的，统计学相关原理可以证明，在符合正态分布的条件下，大多数考生得分与总体平均分的差距，都在上下3个标准差范围以内。