查看原文
其他

基本无害 | 因果识别的比照基准——理想实验(2)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第二章 理想的实验

第二节 使用随机分配解决选择性问题



正文共4189个字,预计阅读时间12分钟。感谢阅读!

原文:2.2节

前情提要:2.1 选择性问题

2.2 使用随机分配解决选择性问题

的随机分配解决了这个选择性问题,因为随机分配使独立于潜在结果。为了看清楚这一点,请看下式:


其中的独立性允许我们在第二行把换为。事实上,在随机分配的情况下,这可以进一步简化为:
随机分配住院治疗,使住院治疗这项处理对住过院的病人所产生的效应,与住院治疗对随机选中的病人所产生的效应相同。不过,最重要的还是,的随机分配消除了选择性偏差。这并不是说随机试验毫无问题,但基本上来说,它们解决了实证研究中出现的最重要的问题。
我们所讲的关于住院治疗的这个寓言故事有多切中肯綮呢?通常而言,实验所揭示的东西,都不是单纯的比较所能得到的。最近有一个来自医学方面的例子,是关于如何评估激素替代疗法(HRT)效果的。激素替代疗法是一项医学干预,用于推荐给中年妇女以减轻更年期症状。一份来自护士健康调查(一项对护士开展的大型且颇有影响的非实验性调查)的证据表明,激素替代疗法使用者的健康状况更好。相反,最近完成的一项随机试验的结果显示,该疗法几乎没有什么益处。更糟糕的是,随机试验还揭示了在非实验数据中不易知的严重副作用(例如可参阅:妇女健康倡议[WHI],Hsia等人,2006)。
在我们自己的劳动经济学领域,一个标志性的例子是对政府补贴培训项目的评估。这些项目将课堂教学和在职培训相结合,为长期失业者、吸毒者和前罪犯等弱势群体提供培训。这类项目的目的,是为了增加就业和收入。矛盾的是,基于参与者和非参与者的非实验性比较的研究常常表明,在培训之后,受训者的收入低于貌似合理的对照组(请参阅:Ashenfelter,1978;Ashenfelter和Card,1985;Lalonde,1995)。在这里,选择性偏差同样是一个自然出现的问题,因为受补贴的培训项目本就是为了服务于潜在收入较低的男性和女性的。因此,毫不奇怪,对项目参与者和非参与者的简单比较,往往会显示参与者的收入比非参与者更低。相反,培训方案的随机评估所给出的证据,则大多表明该项目具有积极的效果(例如请参阅:Lalonde,1986;Orr等人, 1996)。
随机试验在社会科学中还不像在医学中那样普遍,但它们正变得越来越风行。当前随机分配的重要性在迅速增长的一个领域是有关教育的研究(Angrist, 2004)。美国国会2002年通过的《教育科学改革法案》规定,所有由联邦资助的教育研究,都必须采用严格的实验或准实验研究设计。因此,可以预计,未来若干年我们将在教育研究中看到更多的随机试验。田纳西州的STAR实验,就是教育领域的一项开创性的随机实验研究,该实验旨在评估小学里小班教学的效果。
劳动经济学家和其他学者长期以来一直试图建立课堂环境特征与儿童学习成绩之间的因果关系,我们将这一研究领域称为“教育生产(education production)”。这个术语反映了这样一个事实:我们认为学校的环境特征是需要花钱的投入,而学校产生的产出是学生的学习成绩。教育生产研究的一个关键问题是,在成本既定的情况下,哪种投入带来的学习成绩是最高的。最昂贵的投入之一是班级规模,因为小班只能通过雇佣更多的教师来实现。因此,重要的是要知道,小班授课的代价是否能换来更高的学生成绩。STAR实验就是为了回答这个问题而设计的。
许多使用非实验数据的教育生产研究表明,班级规模与学生学习成绩之间很少或没有什么联系。因此,学校系统也许可以通过减少对教师的雇佣来节省资金,却不会导致学生成绩的降低。然而,我们所研究的班级规模和学生成绩之间的关系,不应该只从表面上去看,因为基础较差的学生经常被特意分到较小的班级里去。随机试验能够克服这个问题,它可以确保我们是在拿苹果和苹果进行比较,也就是说,分配到不同规模班级的学生在其他方面是可比的。田纳西州STAR实验的结果表明,较小规模的班级回报大且可持续(最初的研究可参见:Finn和Achilles,1990;此外还有Krueger(1999)对STAR数据所做的计量经济分析)。
STAR实验雄心勃勃,影响深远,因此值得详细描述。该计划于1985-86年在一群幼儿园儿童中实施,耗资约1200万美元。这项实验涉及约11600名儿童,持续了四年,直到最初的幼儿园学生群体进入到小学三年级就读。1985-86年,田纳西州普通班级的平均人数约为22.3人。该实验将学生分成三组:13-17名儿童的小班,22-25名儿童的普通班加一名兼职教师助理(这是常见的安排),以及有一名全职教师助理的普通班。选择参加实验的学校每个年级至少要有这样三类班。
关于随机实验的第一个问题是,随机化是否成功地平衡了不同处理组的受试者特征。为了评估这一点,比较各组间的处理前结果或其他协变量是很常见的做法。可惜的是,尽管可以查看诸如种族和年龄等关于儿童的特征,但STAR数据并没有包括任何处理前的考试分数。表2.2.1摘自Krueger(1999),比较了一些变量的平均值。表中的学生特征包括:是否享受免费午餐、学生种族和学生年龄。是否享受免费午餐这个变量,是衡量家庭收入的一个很好的指标,因为只有贫穷的孩子才有资格享受免费的学校午餐。这三种类型的班级在这些特征上的差异很小,从最后一列的值可以看出,没有一个显著异于零。这表明,随机分配的效果是符合预期的。
表2.2.1还提供了关于平均班级规模、学生流失率和考试分数的信息(百分制衡量)。在幼儿园的小型教室里,流失率(脱离随访的学生比例)较低。从原理上来说,这至少是一个潜在的问题。小型教室的班级规模明显较小,这意味着在创设所需的变量上,这项实验是成功的。如果许多被分配到普通班级的孩子的家长成功地游说老师和校长得以让他们的孩子被分配到小班,那么班级规模的差异将会小得多。
由于随机化消除了选择性偏差,不同处理组的结果差异就反映了班级规模(相对于有兼职助理的普通班、有一名全职教师助理的普通班)的平均因果效应。在实践中,处理组和对照组之间的均值之差,可以通过就考试成绩对每个处理组的虚拟变量进行回归而得到,我们将在下面详述这一点。表2.2.2报告了幼儿园儿童处理组与对照组之差的回归估计值(来自Krueger(1999)中表五),该表显示,小班效应大约是(高出)5个百分点(表中的其他行给出了在这些回归中控制变量的系数)。这一效应的大小约为 ,其中为幼儿园成绩(百分制计)的标准差。小班效应显著异于零,而普通班加助理的效应较小且不显著。
表2.2.1:田纳西州STAR实验处理组与对照组特征的比较
变量班级规模组间变量均值是否相等的p值

小班普通班(带兼职助理)普通班(带全职助理)
是否享受免费午餐.47.48.50.09
是否白人或亚裔.68.67.66.26
1985年时的年龄5.445.435.42.32
流失率.49.52.53.02
幼儿园中的班级规模(百分制计)15.1022.4022.80.00
幼儿园中的成绩(百分制计)54.7048.9050.00.00

注:改编自Krueger(1999)的表一。该表表明,在幼儿园进入STAR的学生样本中,按处理状态所给出的变量平均值。最后一列中的值是三组变量均值是否相等的检验给出的结果。是否享受免费午餐这个变量,使用享受免费午餐者占总人数的比例表示。成绩(百分制计)是三次斯坦福成绩测试的平均成绩。流失率是在完成三年级学业之前的随访脱离比例。

在社会科学的编年史中STAR研究是一个颇具典型性的随机试验,它也向我们突出地表明了随机试验在协调组织方面存在的困难,此外还包括持续时间长和潜在成本高等。在许多情况下,这种试验是不切实际的。[1]在其他一些情况下,我们还希望能尽早得到答案。我们所做的许多研究都自以为是地试图利用更便宜、更容易获得的数据来源。在控制其他因素保持稳定的情况下,我们希望通过改变感兴趣的变量来找到模拟随机试验的自然 或准实验。我们总能找到一个令人信服的自然实验吗?当然不是。但我们的立场是,一个概念上的随机试验,是我们的基准框架。当然并不是所有的研究人员都同意这一观点,但还是有很多人是认同我们的。我们第一次从我们的老师、也是论文指导老师的Orley Ashenfelter那里听到了这样的方法,他是社会科学中实验和准实验研究设计的先驱者之一。下面这段话,是Ashenfelter(1991)对那些将学校教育和收入联系起来的观测性研究可信性的评价:

把教育和收入联系起来的证据有多大说服力?我的回答是:相当有说服力。如果让我赌一个理想的实验会显示什么,那么,我打赌它会显示受过更好教育的工人赚得更多。

表2.2.2:班级规模对考试成绩影响的实验估计

解释变量(1)(2)(3)(4)
小班4.825.375.365.37

(2.19)(1.26)(1.21)(1.19)
普通班(带全职助理).12.29.53.31

(2.23)(1.13)(1.09)(1.07)
是否白人或亚裔8.358.44



(1.35)(1.36)
是否女孩4.484.39



(.63)(.63)
是否享受免费午餐-13.15-13.07



(.77)(.77)
是否白人教师-.57




(2.10)
教师经验.26




(.10)
教师是否具有硕士学位-0.51




(1.06)
学校固定效应NoYesYesYes
.01.25.31.31

注:改编自Krueger(1999)中的表5。因变量为斯坦福结业测试成绩(百分制)。括号中给出的是考虑了类内相关残差的稳健标准误。样本规模是5681。

Angrist和Lavy(1999)对班级规模的准实验研究阐明了通过一种实验精神来分析非实验数据的方式。Angrist和Lavy的研究基于这样一个事实:在以色列,班级人数上限为40人。因此一个有40名五年级学生的群体最终会被分到一个40人班级,而一个有41名五年学生的群体最终却被分到只有前者一半大的班级,因为这个群体被分割成了两部分。由于40人和41人群体的学生在能力和家庭背景等其他方面可能很相似,我们可以认为40人和41人群体的入学学生之间的差异“就像随机分配的一样好”。
Angrist和Lavy的这项研究比较了在官方限定下的班级规模以上和以下的各年级入学学生,以便在没有真正实验的情况下,对班级规模急剧变化的影响进行受良好控制的估计。在田纳西州STAR的研究中,Angrist和Lavy(1999)的研究结果表明班级规模和成绩之间有很强的联系。这与Angrist和Lavy(之前)也报告了的简单分析形成了鲜明的对比,这些简单分析只是基于对大班和小班学生做了一下简单的比较。这些比较表明,小班学生在标准化测试中的表现更差。因此,前文所讲到的那个选择性偏差的住院治疗寓言似乎也适用于班级规模的问题。[2]


注释

[1]

随机试验从来都不是完美的,STAR也不例外。在一年级留级的或跳过一年级的学生就退出了该实验。一年级之后才进入实验学校的学生则被加入到这个实验中来,并被随机分配到其中的一个班级。实验的一个令人感到遗憾的方面是,普通班(带兼职助理)、普通班(带全职助理)的学生在幼儿园学业结束后被重新分配了,这可能是由于孩子在普通班的家长的抗议所致。在幼儿园学业结束后,孩子们也有一些调换。但Krueger(1999)的分析表明,该实验的这些具体实施问题并不会影响研究的主要结论。 

[2]

Angrist-Lavy(1999)的结果在第6章会再次给出来,以作为准实验性的回归断点研究设计的说明。





本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。






星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


数据治理 | 老生常谈的Pandas绘图还能这么玩?

基本无害 | 因果识别的比照基准——理想实验(1)

基本无害 | 实证研究中必须要“自问自答”的四个问题

基本无害 | 前言:关于计量的基本观点与本书主要特点

基本无害 | 专栏发刊词






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》




    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存