基本无害 | 第二章（全）理想的实验

Original 基本无害的数据Seminar 2022-12-31

收录于合集 #基本无害 33个

基本无害的计量经济学

——实证研究者指南

（重译本）

李井奎译

第二章理想的实验

第二章理想的实验

正文共9148个字，预计阅读时间23分钟。感谢阅读！
原文：第二章

有个道理很重要也很普遍，那就是事情往往和表面上看起来的不一样。举例来说，在名叫地球的这颗行星上，人类总是认为他们比海豚聪明，因为人类的成就众多——轮子了，纽约了，战争了，等等等等——而海豚从头到尾却只在水里游来游去，享受美好时光。但是反过来，海豚也始终相信它们比人类要聪明得多——原因则完全相同。实际上，地球上只有一个物种比海豚更加聪明，他们把大量时间消耗在行为研究实验室里，在铁环里一圈圈跑，对人类施以精密但又微妙的试验。人类则再次彻底误读了人类与他们之间的关系，但这完全符合这些家伙的计划。
——道格拉斯·亚当斯，《银河系搭车客指南》

最可信、最有影响力的研究设计，是采用随机分配的研究设计。1962年设计的一场随机实验——佩里学前项目（Perry preschool project），就是一个恰当的例子。这个项目旨在评估一项早期干预方案的效果，参与这一方案的是密歇根州伊普斯兰蒂市的123名学龄前黑人儿童。佩里处理组被随机分配到一项强化干预，即需要接受学前教育和家访。佩里实验的规模虽小，但设计精巧，其影响极为深远。这项实验持续跟踪调查到1993年，这一年参与者们已经27岁。有数十个学术研究引用或使用了佩里项目的成果（例如可参看：Barnett，1992）。最重要的是，佩里项目为启动于1964年的大规模学前教育计划提供了智识上的基础，这项学前教育计划使数百万美国儿童受益（而且还将继续使更多的儿童受益）。^[1]

2.1 选择性问题

我们花点时间以更正式的方式讨论实验在揭示因果效应方面所起的作用。假设你对因果关系的“如果-那么”问题感兴趣，具体来说，我们来看这样一个简单的例子：医院让人们变得更健康吗？就我们的目的而言，这个例子有些寓言的性质，但它与卫生经济学家关心的那种因果关系问题惊人地接近。为使这个问题更符合实际，假设我们正在研究一个贫穷的老年人群，他们到医院急诊室接受基础的保健服务。其中有些病人被送进了医院接受住院治疗。住院所需的这类护理服务费用昂贵，还会挤占医院的医疗设施，而且可能不是非常有效（例如可参看：Grumbach、Keane和Bindman，1993）。事实上，那些本就身体欠佳的人与其他病人接触，对他们的健康产生的负面影响可能要更大。

由于住院患者得到了许多有价值的医疗服务，医院对病人健康是否有效这个问题的答案似乎仍然是肯定的。但数据会支持这一点吗？对于一个有一定生活经验的人来说，对去过医院的人和没有去过医院的人的健康状况进行比较，是一种很自然的处理。国家健康访谈调查（NHIS）就包含有进行这类比较所需的信息。具体来说，它包括这样一个问题：“在过去12个月里，受访者在医院入院住过夜吗？”这个问题我们可以用来识别最近住过院的人。NHIS还问过这样一个问题：“你认为你的健康状况总体是极好、很好、好、一般还是差呢？”

下表显示了住过院的患者和未住院的人的健康状况均值（健康状况差赋值1，健康状况极好赋值5，资料来自NHIS（2005））

组别	样本规模	健康状况均值	标准误
住过院	7,774	3.21	0.014
未住院	90,049	3.93	0.003

二者均值之差是0.72，说明差异很大，t统计量是58.9，说明这一对比非常显著，该表表明，未住院的人显然比住过院的人更加健康。

从表面上看，这一结果表明住过医院会使人病情加重。由于医院里满是可能感染我们的病人、可能会伤害我们的危险医疗器械和化学药剂，所以这个答案未必不是正确答案。但是，我们还是很容易就可以看出来，为什么这种表面的比较并不合适：那些去过医院的人可能一开始就不太健康。此外，那些寻求医疗而住院的患者平均来说也不如一开始就未住院的人健康，尽管他们比不住院之前的健康状况也许要更好。

为了更精确地描述这个问题，我们可以把是否曾住院治疗用一个二元随机变量来描述。健康状况的指标是我们感兴趣的结果，用表示。我们的问题是，是否受住院治疗的影响。为了回答这个问题，假设我们可以设想，一些住过院的患者如果没住院的话会发生什么；同样，我们还可以设想相反的情况。因此，对于任何个人来说，都有两个潜在的健康变量：

换言之，是一个人倘若没有住过院的健康状况，不管他实际上到底住没住过院，而是一个人倘若住过院的健康状况，也不管他实际上到底住没住过院。我们想知道和之间的差值是多少，这可以被说成是个体住院治疗的因果效应。如果我们能够回到过去，改变一个人的治疗状态，这就是我们要测量的因果效应。^[2]

我们所观察到的结果，按照潜在结果，可以写成下式：

这个表示法是很有用的，因为是一个人接受住院治疗的因果效应。一般情况下，总体中可能存在和的分布，因此处理效应（treatment effect）也许因人而异。但是，由于我们从没有看到过一个人的两种潜在结果，所以，我们必须通过比较住过院的患者和未住院的人的平均健康状况来了解住院治疗的效果。

一个住院情况均值的单纯比较，可以告诉我们一些潜在结果的内容，虽然这并不一定是我们想要知道的部分。以住院情况为条件的健康状况均值的比较，通过下面这个方程，形式上与平均因果效应联系了起来：

其中，下面这一项

是住院治疗对那些住过院的人的平均因果效应。这一项是住过院的人的健康水平（即）与倘若他们没有去住院而会呈现的健康水平（即）之间的平均值之差。不过，所观察到的健康状况之差却为这一因果效应多加上了一项，这就是选择性偏差（selection bias），即那些住过院的人和没有住过院的人之间平均的值的差。由于生病的人比健康的人更有可能寻求治疗，所以那些住过院的人其值要更低，这使得本例中的选择性偏差为负。选择性偏差可能非常大（以绝对值表示），以至会完全掩盖积极的治疗效果。大多数实证经济学研究的目标，就是克服选择性偏差，从而对像这样的变量的因果效应作出说明。^[3]

2.2 使用随机分配解决选择性问题

对的随机分配解决了这个选择性问题，因为随机分配使独立于潜在结果。为了看清楚这一点，请看下式：

其中和的独立性允许我们在第二行把换为。事实上，在随机分配的情况下，这可以进一步简化为：

随机分配住院治疗，使住院治疗这项处理对住过院的病人所产生的效应，与住院治疗对随机选中的病人所产生的效应相同。不过，最重要的还是，的随机分配消除了选择性偏差。这并不是说随机试验毫无问题，但基本上来说，它们解决了实证研究中出现的最重要的问题。

我们所讲的关于住院治疗的这个寓言故事有多切中肯綮呢？通常而言，实验所揭示的东西，都不是单纯的比较所能得到的。最近有一个来自医学方面的例子，是关于如何评估激素替代疗法（HRT）效果的。激素替代疗法是一项医学干预，用于推荐给中年妇女以减轻更年期症状。一份来自护士健康调查（一项对护士开展的大型且颇有影响的非实验性调查）的证据表明，激素替代疗法使用者的健康状况更好。相反，最近完成的一项随机试验的结果显示，该疗法几乎没有什么益处。更糟糕的是，随机试验还揭示了在非实验数据中不易知的严重副作用（例如可参阅：妇女健康倡议[WHI]，Hsia等人，2006）。

在我们自己的劳动经济学领域，一个标志性的例子是对政府补贴培训项目的评估。这些项目将课堂教学和在职培训相结合，为长期失业者、吸毒者和前罪犯等弱势群体提供培训。这类项目的目的，是为了增加就业和收入。矛盾的是，基于参与者和非参与者的非实验性比较的研究常常表明，在培训之后，受训者的收入低于貌似合理的对照组（请参阅：Ashenfelter，1978；Ashenfelter和Card，1985；Lalonde，1995）。在这里，选择性偏差同样是一个自然出现的问题，因为受补贴的培训项目本就是为了服务于潜在收入较低的男性和女性的。因此，毫不奇怪，对项目参与者和非参与者的简单比较，往往会显示参与者的收入比非参与者更低。相反，培训方案的随机评估所给出的证据，则大多表明该项目具有积极的效果（例如请参阅：Lalonde，1986；Orr等人，1996）。

随机试验在社会科学中还不像在医学中那样普遍，但它们正变得越来越风行。当前随机分配的重要性在迅速增长的一个领域是有关教育的研究（Angrist, 2004）。美国国会2002年通过的《教育科学改革法案》规定，所有由联邦资助的教育研究，都必须采用严格的实验或准实验研究设计。因此，可以预计，未来若干年我们将在教育研究中看到更多的随机试验。田纳西州的STAR实验，就是教育领域的一项开创性的随机实验研究，该实验旨在评估小学里小班教学的效果。

劳动经济学家和其他学者长期以来一直试图建立课堂环境特征与儿童学习成绩之间的因果关系，我们将这一研究领域称为“教育生产（education production）”。这个术语反映了这样一个事实：我们认为学校的环境特征是需要花钱的投入，而学校产生的产出是学生的学习成绩。教育生产研究的一个关键问题是，在成本既定的情况下，哪种投入带来的学习成绩是最高的。最昂贵的投入之一是班级规模，因为小班只能通过雇佣更多的教师来实现。因此，重要的是要知道，小班授课的代价是否能换来更高的学生成绩。STAR实验就是为了回答这个问题而设计的。

许多使用非实验数据的教育生产研究表明，班级规模与学生学习成绩之间很少或没有什么联系。因此，学校系统也许可以通过减少对教师的雇佣来节省资金，却不会导致学生成绩的降低。然而，我们所研究的班级规模和学生成绩之间的关系，不应该只从表面上去看，因为基础较差的学生经常被特意分到较小的班级里去。随机试验能够克服这个问题，它可以确保我们是在拿苹果和苹果进行比较，也就是说，分配到不同规模班级的学生在其他方面是可比的。田纳西州STAR实验的结果表明，较小规模的班级回报大且可持续（最初的研究可参见：Finn和Achilles，1990；此外还有Krueger（1999）对STAR数据所做的计量经济分析）。

STAR实验雄心勃勃，影响深远，因此值得详细描述。该计划于1985-86年在一群幼儿园儿童中实施，耗资约1200万美元。这项实验涉及约11600名儿童，持续了四年，直到最初的幼儿园学生群体进入到小学三年级就读。1985-86年，田纳西州普通班级的平均人数约为22.3人。该实验将学生分成三组：13-17名儿童的小班，22-25名儿童的普通班加一名兼职教师助理（这是常见的安排），以及有一名全职教师助理的普通班。选择参加实验的学校每个年级至少要有这样三类班。

关于随机实验的第一个问题是，随机化是否成功地平衡了不同处理组的受试者特征。为了评估这一点，比较各组间的处理前结果或其他协变量是很常见的作法。可惜的是，尽管可以查看诸如种族和年龄等关于儿童的特征，但STAR数据并没有包括任何处理前的考试分数。表2.2.1摘自Krueger(1999)，比较了一些变量的平均值。表中的学生特征包括：是否享受免费午餐、学生种族和学生年龄。是否享受免费午餐这个变量，是衡量家庭收入的一个很好的指标，因为只有贫穷的孩子才有资格享受免费的学校午餐。这三种类型的班级在这些特征上的差异很小，从最后一列的值可以看出，没有一个显著异于零。这表明，随机分配的效果是符合预期的。

表2.2.1还提供了关于平均班级规模、学生流失率和考试分数的信息（百分制衡量）。在幼儿园的小型教室里，流失率（脱离随访的学生比例）较低。从原理上来说，这至少是一个潜在的问题。小型教室的班级规模明显较小，这意味着在创设所需的变量上，这项实验是成功的。如果许多被分配到普通班级的孩子的家长成功地游说老师和校长得以让他们的孩子被分配到小班，那么班级规模的差异将会小得多。

由于随机化消除了选择性偏差，不同处理组的结果差异就反映了班级规模（相对于有兼职助理的普通班、有一名全职教师助理的普通班）的平均因果效应。在实践中，处理组和对照组之间的均值之差，可以通过就考试成绩对每个处理组的虚拟变量进行回归而得到，我们将在下面详述这一点。表2.2.2报告了幼儿园儿童处理组与对照组之差的回归估计值（来自Krueger（1999）中表五），该表显示，小班效应大约是（高出）5个百分点（表中的其他行给出了在这些回归中控制变量的系数）。这一效应的大小约为，其中为幼儿园成绩（百分制计）的标准差。小班效应显著异于零，而普通班加助理的效应较小且不显著。

表2.2.1：田纳西州STAR实验处理组与对照组特征的比较

变量	班级规模	组间变量均值是否相等的p值
	小班	普通班（带兼职助理）	普通班（带全职助理）
是否享受免费午餐	.47	.48	.50	.09
是否白人或亚裔	.68	.67	.66	.26
1985年时的年龄	5.44	5.43	5.42	.32
流失率	.49	.52	.53	.02
幼儿园中的班级规模（百分制计）	15.10	22.40	22.80	.00
幼儿园中的成绩（百分制计）	54.70	48.90	50.00	.00

注：改编自Krueger(1999)的表一。该表表明，在幼儿园进入STAR的学生样本中，按处理状态所给出的变量平均值。最后一列中的值是三组变量均值是否相等的检验给出的结果。是否享受免费午餐这个变量，使用享受免费午餐者占总人数的比例表示。成绩（百分制计）是三次斯坦福成绩测试的平均成绩。流失率是在完成三年级学业之前的随访脱离比例。

在社会科学的编年史中STAR研究是一个颇具典型性的随机试验，它也向我们突出地表明了随机试验在协调组织方面存在的困难，此外还包括持续时间长和潜在成本高等。在许多情况下，这种试验是不切实际的。^[4]在其他一些情况下，我们还希望能尽早得到答案。我们所做的许多研究都自以为是地试图利用更便宜、更容易获得的数据来源。在控制其他因素保持稳定的情况下，我们希望通过改变感兴趣的变量来找到模拟随机试验的自然或准实验。我们总能找到一个令人信服的自然实验吗？当然不是。但我们的立场是，一个概念上的随机试验，是我们的基准框架。当然并不是所有的研究人员都同意这一观点，但还是有很多人是认同我们的。我们第一次从我们的老师、也是论文指导老师的Orley Ashenfelter那里听到了这样的方法，他是社会科学中实验和准实验研究设计的先驱者之一。下面这段话，是Ashenfelter(1991)对那些将学校教育和收入联系起来的观测性研究可信性的评价：

把教育和收入联系起来的证据有多大说服力？我的回答是：相当有说服力。如果让我赌一个理想的实验会显示什么，那么，我打赌它会显示受过更好教育的工人赚得更多。

表2.2.2：班级规模对考试成绩影响的实验估计

解释变量	(1)	(2)	(3)	(4)
小班	4.82	5.37	5.36	5.37
	(2.19)	(1.26)	(1.21)	(1.19)
普通班（带全职助理）	.12	.29	.53	.31
	(2.23)	(1.13)	(1.09)	(1.07)
是否白人或亚裔	—	—	8.35	8.44
			(1.35)	(1.36)
是否女孩	—	—	4.48	4.39
			(.63)	(.63)
是否享受免费午餐	—	—	-13.15	-13.07
			(.77)	(.77)
是否白人教师	—	—	—	-.57
				(2.10)
教师经验	—	—	—	.26
				(.10)
教师是否具有硕士学位	—	—	—	-0.51
				(1.06)
学校固定效应	No	Yes	Yes	Yes
	.01	.25	.31	.31

注：改编自Krueger(1999)中的表5。因变量为斯坦福结业测试成绩（百分制）。括号中给出的是考虑了类内相关残差的稳健标准误。样本规模是5681。

Angrist和Lavy(1999)对班级规模的准实验研究阐明了通过一种实验精神来分析非实验数据的方式。Angrist和Lavy的研究基于这样一个事实：在以色列，班级人数上限为40人。因此一个有40名五年级学生的群体最终会被分到一个40人班级，而一个有41名五年学生的群体最终却被分到只有前者一半大的班级，因为这个群体被分割成了两部分。由于40人和41人群体的学生在能力和家庭背景等其他方面可能很相似，我们可以认为40人和41人群体的入学学生之间的差异“就像随机分配的一样好”。

Angrist和Lavy的这项研究比较了在官方限定下的班级规模以上和以下的各年级入学学生，以便在没有真正实验的情况下，对班级规模急剧变化的影响进行受良好控制的估计。在田纳西州STAR的研究中，Angrist和Lavy(1999)的研究结果表明班级规模和成绩之间有很强的联系。这与Angrist和Lavy（之前）也报告了的简单分析形成了鲜明的对比，这些简单分析只是基于对大班和小班学生做了一下简单的比较。这些比较表明，小班学生在标准化测试中的表现更差。因此，前文所讲到的那个选择性偏差的住院治疗寓言似乎也适用于班级规模的问题。^[5]

2.3 实验的回归分析

回归包括了对实验的数据分析，是一个研究因果关系问题的有用工具。暂且假定处理效应对于每一个人都是一样的，比如是一个常数。在处理效应为常数的条件下，我们可以把（2.1.1）重写成以下形式：

其中是的随机部分。在处理状态变换的情况下，我们可以计算这个方程的条件期望如下：

如此则有：

因此，选择性偏差相当于回归误差项和回归元之间的相关性。由于

所以，这种相关性反映了接受处理者和未接受处理者潜在结果的差异。正如在关于住院治疗的那个寓言中，那些接受住院治疗的人在没有住院治疗的状态下健康状况更差，以及在Angrist和Lavy(1999)的研究中，小班学生的考试分数倾向于本来就更低一些。

在STAR实验中，是随机分配的，选择性偏差项消失了，对的回归估计了我们所感兴趣的因果效应。表2.2.2给出了不同的回归方程设定，其中一些包括除随机分配指示变量之外的协变量。在实验数据的回归分析中，协变量有两个作用。首先，STAR实验设计采用条件随机分配。特别是，不同规模的班级不是在学校间而是在学校内部随机分配的。不同类型的学校（比如在城市和农村）的学生或多或少都有可能被分配到小班中去。表2.2.2第一列的比较没有对此作出调整，因此成绩差异可能会由于学校类型不同而受到影响。为了对此加以调整，Krueger的有些回归模型纳入了学校固定效应，即STAR数据中每个学校各自的截距。实际上，根据学校的固定效应进行调整的结果变化是相当小的，如果我们不去看一下根本不会察觉到这一点。关于固定效应回归模型，我们在第5章会给出更多的内容。

Krueger的表格中的其他控制变量描述了学生的特征，如种族、年龄和是否享受免费午餐等。我们之前看到，这些个体特征在不同班级类型之间是平衡的，也就是说，它们与按学生来配置的班级规模没有系统的联系。如果这些被称为的控制变量，与处理变量不相关，那么它们就不会影响的估计值。换句话说，在下面这个长回归中的估计值，

将接近于短回归(2.3.1)中的估计值。这一点我们将在第3章加以阐述。

这种情况下就不一定非要把变量纳入到回归当中，但把它们纳入到回归里可能产生我们所感兴趣的因果效应的更精确的估计值。请注意，第3列中估计的处理效应的标准误小于第2列中相应的标准误。虽然控制变量与不相关，但它们对具有较强的解释力。因此，把这些控制变量纳入回归方程可以减少残差方差，这反过来又可以降低回归估计值的标准误。同样地，的估计值的标准误通过纳入学校固定效应而减少，因为这些固定效应也解释了学生成绩中方差的一个重要部分。最后一列加上了教师特征。由于教师是随机分配到班级中的，数据显示教师特征对学生成绩影响甚微，小班化的估计结果及其标准误在加入有关教师的各个变量后都没有变化。

回归在实证经济研究中起着极其重要的作用。正如我们在本章中所看到的，回归非常适合于实验数据的分析。在某些情况下，我们无法进行随机分配时，仍可以用回归来近似实验。在我们讨论回归何时能有因果解释这个重要问题之前，回顾一些基本的回归事实和性质还是很有用的。不管运用回归的动机是什么，这些事实和性质对于任何回归来说都是可靠而正确的。

注释

[1]

佩里项目的数据持续受到关注，尤其是在政策兴趣重新回到早期教育的情况下，该数据更加受重视。迈克尔·安德森（Anderson，2008）最近重新开展的一项分析文章，证实了佩里项目许多最初的研究发现，虽然安德森也表明佩里项目的总体积极性完全是由对女孩的影响所导致的。佩里项目的干预方案，似乎对男孩没有什么帮助。

[2]

潜在结果思想是现代因果效应研究的基石。提出这一思想的重要参考文献是Rubin（1974，1977）和Holland（1986），后者把包含潜在结果的因果框架称为Rubin因果模型。

[3]

本节标志着我们第一次使用条件期望运算符（例如和）。我们用它来表示一个随机变量的总体（或无限大样本）平均值，而另一个随机变量的值保持不变。更为正式和详细的定义见本书第3章。

[4]

随机试验从来都不是完美的，STAR也不例外。在一年级留级的或跳过一年级的学生就退出了该实验。一年级之后才进入实验学校的学生则被加入到这个实验中来，并被随机分配到其中的一个班级。实验的一个令人感到遗憾的方面是，普通班（带兼职助理）、普通班（带全职助理）的学生在幼儿园学业结束后被重新分配了，这可能是由于孩子在普通班的家长的抗议所致。在幼儿园学业结束后，孩子们也有一些调换。但Krueger(1999)的分析表明，该实验的这些具体实施问题并不会影响研究的主要结论。

[5]

Angrist-Lavy(1999)的结果在第6章会再次给出来，以作为准实验性的回归断点研究设计的说明。

本专栏主理人简介

企研数据学术顾问 · 李井奎

李井奎，1978年1月生，浙江工商大学经济学院教授、博士生导师，哈佛大学访问学者，以教书育人和传播学问为己任，曾获浙江省“高校优秀教师”称号。除学术论文写作之外，还著有《大侦探经济学：现代经济学的因果推断革命》等科普著作。

星标⭐我们不迷路！想要文章及时到，文末“在看”少不了！

点击搜索你感兴趣的内容吧

往期推荐

基本无害 | 使回归有意义——基本原理（1）

基本无害 | 因果识别的比照基准——理想实验（3）

基本无害 | 因果识别的比照基准——理想实验（2）

基本无害 | 因果识别的比照基准——理想实验（1）

数据治理 | 数据量越来越大，Stata总奔溃？看来……

数据治理 | 超大.csv文件怎么处理？我们有独门武器！（免费赠送自制csv切分工具）

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

文 | 《基本无害的计量经济学——实证研究者指南（重译本）》

翻译 | 李井奎

校对 | 陈泽王锐

排版 | 彭绮荣

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

法官累积受贿929万：介绍案源、解冻账户、提取管理人报酬

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

一场内斗，两败俱伤！

基本无害 | 第二章（全）理想的实验

第二章理想的实验

2.1 选择性问题

2.2 使用随机分配解决选择性问题

2.3 实验的回归分析

注释

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

法官累积受贿929万：介绍案源、解冻账户、提取管理人报酬

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

一场内斗，两败俱伤！

生成图片，分享到微信朋友圈

基本无害 | 第二章（全）理想的实验

第二章 理想的实验

2.1 选择性问题

2.2 使用随机分配解决选择性问题

2.3 实验的回归分析

注释

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

第二章理想的实验