查看原文
其他

基本无害 | 使回归有意义——回归的细节(全)

基本无害 数据Seminar 2022-12-31
基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第四节 回归的细节



正文共11390个字,预计阅读时间29分钟。感谢阅读!

原文:3.4

温馨提示:左右滑动可查看完整公式!


3.4  回归的细节

3.4.1 加权回归

几乎没有什么比样本加权的作用更让应用研究人员感到困惑的了。即使是现在,我们已经博士毕业了20年之后,当我们读到Stata手册中关于加权的部分时,仍不免有些沮丧。权重的使用方式有很多种,如何使用权重对你的结果很重要。然而,令人遗憾的是,赞成或反对加权的理由往往不明确,应该如何编制加权的细节也是如此。关于加权问题权衡利弊的详细讨论超出了本书的范围。Pfefferman(1993)和Deaton(1997)提供了两个视角。在这一简短的小节中,我们为我们的加权方法提供了一些指导方针和基本原理。加权回归的一个简单经验法则是,当权重使你估计的回归更可能接近你试图估计的总体目标时,就使用权重。例如,如果目标(或被估量)是总体回归函数,而且用于估计的样本是非随机的,抽样权重 等于抽样观测值 的逆概率,则使用加权最小二乘法(通过 进行加权)是有意义的(为此,可以使用Stata中 pweights命令或SAS中的weight命令)。通过逆抽样概率进行加权,即使必须使用的样本不是简单的随机样本,也可以生成与总体回归函数一致的估计值。相关的加权方案涉及分组数据。假设你想在随机样本中对 进行回归,可能是因为你想了解总体回归向量 。但是,你没有随机抽样,而是将在 的水平上进行数据分组。也就是说,你对每一个 都有 的估计值,使用来自随机样本的数据进行估计。把这个平均值表示为 ,假设你还知道 ,其中 是基本随机样本中值 的相对频率。正如我们在第3.1.2节看到的,用 加权的 的回归与随机样本微观数据回归相同。因此,如果你的目标是回到微观数据回归,那么按组大小加权是有意义的。然而,我们注意到,习惯于使用公开的平均值数据(如人均收入)并忽略基础微观数据的宏观经济学家可能不同意,或者可能在原则上采取这一点,但仍然不愿意违背其学科中的传统,他们那样做是为了有利于对总体变量进行不加权的分析。另一方面,如果加权的唯一理由是异方差性,就像许多教科书中关于加权的讨论一样,我们对加权的同情甚至不如宏观经济学家。异方差下加权的理由大致如下:假设你对线性CEF( )感兴趣。误差项(定义为 )可能是异方差的。也就是说,条件方差函数 不必是常数。在这种情况下,虽然总体回归函数仍然等于 ,但样本模拟值是非有效的。线性CEF的一个更精确的估计量是WLS——也就是说,该估计量通过 的估计值,将加权的平方误差之和最小化。第3.1.3节所述,一种固有的异方差情景是LPM,其中 是一个虚拟变量。假设CEF实际上是线性的,如果该模型是饱和的,那么它就是线性的,则有,因此 ,这显然是 的函数。这是一个基于模型的异方差性的例子,其中条件方差函数的估计值很容易从基础回归函数的估计值中构造出来。LPM(广义最小二乘法(GLS)的特例)的有效WLS估计量是通过 来加权。由于CEF被假定为线性的,所以这些权重可以首先通过进行估计。在这种情况下,我们不喜欢加权有两个原因(尽管我们会使用异方差一致的标准误差)。首先,在实践中, 的估计值可能不是很好。如果条件方差模型只具有很差的近似性,或者如果它的估计值有很大的噪声,那么WLS估计值可能比未加权估计值具有更差的有限样本性质。因此,你基于渐近理论得出的推论可能会产生误导,人们所希望的有效性提升可能不会实现。[1]如果CEF不是线性的,WLS估计量在估计它时与未加权估计量相比也就差不多少。另一方面,未加权估计量仍然估计了一些易于解释的东西,即对总体CEF的MMSE线性近似。WLS估计量也提供某种近似,但这种近似的性质取决于权重。至少,这会让你更难将结果与其他研究人员报告的估计值进行比较,并在结果取决于权重时为模型设定搜索开辟了更多途径。最后,我想到了一个古老的警告:如果它没有坏,就不要修理它。总体回归向量的解释不受异方差性的影响,所以为什么要担心它呢?权重带来的任何有效性的提升都可能是适度的,不正确或估计不当的权重可能弊大于利。

3.4.2 有限因变量与边际效应

许多实证研究涉及的因变量取值是受限的。一个例子是Angrist和Evans(1998年)关于生育对女性劳动力供给影响的调查,这个例子也在工具变量一章中进行了讨论。这项研究关注的是生育对父母工作和收入的因果影响。由于生育可能与潜在收入相关,Angrist和Evans报告了基于兄弟姐妹性别构成和多胞胎的工具变量估计,以及OLS估计值。本研究中的几乎所有结果要么是二元的(例如,就业状况),要么是非负的(例如,工作小时数、工作周数和收入)。因变量取值受限这一事实会如何影响实证实践呢?许多计量经济学教科书认为,虽然OLS适用于连续因变量,但当感兴趣的结果是受限因变量(LDV)时,线性回归模型是不合适的,而probit和Tobit等非线性模型是首选。相比之下,我们视回归从CEF继承其合法性的观点,使得受限因变量性质不那么重要。和往常一样,随机实验是一个有用的基准,其中回归给出了一个简单的处理组和控制组的差异。例如,考虑对随机分配的回归元进行的各种结果变量的回归,某回归元表示兰德健康保险实验中处理组中的一个(HIE;Manning等人,1987年)。在这项可能是美国社会科学中最昂贵的雄心勃勃的实验中,兰德公司成立了一家小型健康保险公司,不收取保费。近6000名研究参与者被随机分配到具有不同特征的医疗保险计划中。任何保险计划最重要的特征之一,是被保险人预计要支付的医疗费用部分。HIE将个体随机分配到许多不同的保险计划中。其中一个保险计划提供完全免费的医疗服务,而其他保险计划则包括共同支付、支出上限和免赔额的各种组合,以便参保者需自费支付部分医疗费用。该实验的主要目的是了解医疗保健的使用对成本是否敏感,如果是,这是否会影响健康。HIE结果显示,那些被提供了免费或低成本医疗服务的人使用了更多的健康保险,但在大多数情况下,他们并没有因此变得更健康。这些发现有助于为对成本敏感的医疗保险计划和管理式医疗方案铺平道路。大多数HIE的结果是LDV的。这些数据包括了显示实验对象在某一年是否有医疗支出或住过院的虚拟变量,以及像面对面问诊的次数和年度医疗费用总额(无论由患者还是保险公司支付)这样的非负变量。大约20%的样本的医疗费用支出变量为零。表3.4.1再现了两个HIE处理组的结果,该结果来源于Manning等人(1987)的表2中报告的估计值。表3.4.1显示了全免费医疗和个人免赔组的平均结果。后者面临每人每年150美元的免赔额或每个家庭每年450美元的门诊护理免赔额,之后的所有费用都需自理(住院护理不收费)。这两组的总样本量略高于3000。为了简化对LDV的讨论,假设对全免费医疗和免赔额保险计划之间的比较是我们唯一感兴趣的比较,而处理是由简单的随机分配决定的。[2] 表示对免赔组的分配。通过随机分配, 的均值之差即为无条件平均处理效应。正如我们之前对实验的讨论(第2章):
因为 与潜在结果无关。同样,和以前一样, 回归的斜率系数。表3.4.1  两个HIE处理组的平均结果(左右滑动查看完整表格)
保险计划面对面问诊门诊支出(1984$)受理(%)药物治疗概率(%)住院治疗概率(%)总支出(1984$)
免费组4.5534012.886.810.3749
(.17)(10.9)(.7)(.8)(.5)(39)
免赔组3.0223511.572.39.6608
(.17)(11.9)(.8)(1.5)(.6)(46)
免赔组减去免费组-1.53-105-1.3-14.5-0.7-141
(.24)(16.1)(1.0)(1.7)(.7)(60)

注:改编自Manning等人(1987)中的表2。所有的标准误差(显示在括号中)都经过了跨期和组内相关性的校正。表中的金额以1984年6月美元计算。问诊服务是与保健提供者进行面对面接触;问诊服务仅为放射科、麻醉科,而病理学的问诊被排除在外。问诊相关支出不包括牙科护理和门诊心理治疗。

由式(3.4.1)可知,无论是二元、非负还是连续分布,实验中因果效应的估计都没有遇到特别的挑战。尽管对右手式子的解释会因不同种类的因变量而改变,但你不需要做任何特殊的事情就可得到平均因果效应。例如,HIE的一个结果是表示任何医疗支出的虚拟变量。既然这个结果是伯努利试验,我们有:
这可能会影响我们用来描述结果的语言,但不会影响基础的计算。例如,在HIE中,实验组之间的比较,如式(3.4.1)的左手边,显示被分配到免费医疗组的87%的人在给定的年份至少使用了一些护理,而被分配到免赔计划组的只有72%的人。因此,相对适度的150美元免赔额对护理的使用却产生了显著的影响。这两组比率之差为-0.15是 的估计值,其中 是一个表示任一医疗费用的虚拟变量。因为这里的回归结果是一个虚拟变量,平均因果效应也是对使用率或概率的因果效应。我们看到,医疗使用结果变量是一个概率,假设你在本例中使用probit来拟合CEF。试试也无妨!使用probit模型的切入点通常是假设参与该实验是由一个潜在变量 决定的,它满足下式:
其中 服从 分布。注意,这个潜在变量不可能是实际的医疗支出,因为支出是非负的,因此是非正态的,而正态分布的随机变量在实数轴上连续分布,因此可以是负的。基于潜在指数模型,
所以 的CEF可以写成
其中 为正态的CDF。因此
这是一个回归变量 的线性函数,所以在线性回归中, 的斜率系数就是probit拟合值的差值 。但是probit系数 并不能告诉我们 对是否参与该项目的影响的大小,直到我们将它们代入回正态的CDF(尽管它们确实有正确的符号)。相反,回归给出了我们需要的东西,不管有没有probit分布假设。在HIE中最重要的结果之一是医疗支出总额,换句话说,就是医疗保健成本。按照成本来衡量,那些面临免赔额的受试者是否使用了较少的医疗健康服务呢?在HIE中,免赔组和免费组的平均支出差异是-141美元,大约是免费组支出水平的19%。这一计算表明,让患者支付一部分费用可以大大降低支出,尽管这一估计值并不十分精确。

因为支出结果是非负随机变量,有时等于零,它们的期望可以写为:

处理组之间的支出结果差异是:
因此,平均支出的总体差异可以分成两部分:支出概率之差为正(的部分)(通常称为参与效应)和以参与为条件的均值差异(部分),即正数(conditional-on-positive,COP)效应。同样,这对因果效应的估计也没有特别的影响;等式(3.4.1)仍然成立: 的回归给出了支出无条件平均处理效应。

好的COP,坏的COP:正数效应

因为对非负随机变量(如支出)的因果效应有两部分,一些应用研究人员认为他们应该分别研究这两部分。事实上,许多人使用两部分模型,其中第一部分是对参与效应的评估,第二部分是对COP效应的评估(例如,参见Duan等人(1983,1984)应用于HIE的这类模型)。(3.4.4)的第一部分没有提出特别的问题,因为,如上所述, 是一个虚拟变量的事实只意味着平均处理效应也是概率的差值。两部分模型的问题在于,即使在随机试验中,COP效应也没有因果解释。这种复杂性可以理解为与第3.2.3节中关于不良控制描述的选择问题相同。

为了进一步分析COP效应,我们写出下式:

其中第二行使用 的随机分配。这种分解表明,COP 效应由两项组成:对使用免赔额医疗服务的子群体的因果效应,以及必须支付部分费用获得医疗服务和免费享受医疗服务的人群之间 的差值。第二个项是选择性偏差的一种形式,尽管它比第2章中的选择偏差更微妙。这里出现选择性偏差是因为实验改变了支出为正的那一组的构成。 总体可能包括一些低成本用户,如果他们不得不支付免赔额,他们将选择退出医疗。换句话说,这个组比 组更大,平均成本可能更低。因此,选择性偏差项是正的,结果是COP效应比假定的负因果效应 更接近于零。这是第3.2.3节中不良控制问题的一个版本:在因果效应设置中, 是一个结果变量,因此不适合作为条件,除非处理对 为正的可能性没有影响。COP效应无因果关系的一个解决方案依赖于截尾回归模型(censored regression models),如Tobit模型。这些模型假设非参与者有潜在支出结果(例如可参见:Hay和Olsen, 1984)。对于支出问题,传统的Tobit公式规定,所观 察到的 由下式给出:
其中 为正态分布的潜在支出变量,可以为负值。因为 不是LDV,所以Tobit的支持者觉得可以使用传统的线性模型(比如方程(3.4.3))将其与 联系起来。在这种情况下, 对潜在支出 的因果效应。这个方程对每个人都有解释,不管 是正的还是负的。如果我们满意于研究对 的效应,那么就不存在COP式的选择问题了。但我们对 的效应并不满意。第一个问题是“潜在医疗保健支出”是一个令人困惑的概念。对一些人来说,医疗保健支出真的是零;这不是统计上的假象,也不是由于某种截尾所致。所以“潜在”和“潜在为负的 ”的概念很难理解。没有(潜在为负)的 的数据,永远也不会有。第二个问题是,潜在模型中的参数与观测结果的因果关系 之间的联系,得自关于潜在变量的分布假设。为了建立这一联系,我们来评估给定 的期望:
(例如,可参看:McDonald和Moffitt,1980)。这个表达式是利用 的正态性和同方差性,以及 可以表示为 的假设推导出来的。

Tobit CEF为我们提供了观察支出的平均处理效应的表达式。具体地说,

这是一个相当令人生畏的公式。但是由于唯一的回归变量是一个虚拟变量 ,所以这些对于估计 都是不必要的。无论是否采用Tobit模型来解释内在结构, 在OLS回归上得到的斜率系数都可以等于(3.4.7)左侧的CEF差异。[3]COP效应有时是由研究人员的一种意识所激发的,即当结果分布有一个聚集点时——也就是说,当它累积到一个特定的值(例如0)时——或者有一个偏度较高的分布,或者两者兼之,那么对平均值的影响的分析就遗漏了一些东西。对平均值影响的分析确实遗漏了一些东西,比如特定值概率的变化,或分位数相距中位数的偏移。但为什么不直接看看这些分布效应呢?分配结果包括年度医疗支出超过0、100美元、200美元等的可能性。换句话说,把 作为c的不同选择放在所感兴趣的回归的左边。计量经济学上,这些结果都属于(3.4.2)范畴。Angrist(2001)在一篇关于生育对工作时间影响的分析中阐述了直接使用线性概率模型观察分布效应的思想。或者,如果分位数提供了一个聚点(focus point),我们可以使用分位数回归对它们进行建模。第7章对此进行了详细的论述。Tobit型潜在变量模型有意义吗?有意义,如果你使用的数据确实经过截尾了的话。真正的截尾意味着潜在变量有一个经验对应,它是所感兴趣的主要结果。劳动经济学的一个典型例子是CPS的收入数据,它对非常高的收入值进行编码(截尾),以保护受访者的机密性。通常,我们感兴趣的是受教育年限对收入的因果效应,因为它出现在受访者的纳税申报单上,而不是他们的CPS编码收入。Chamberlain(1994)表明,在某些年份,CPS截尾大大降低了所测量的教育回报,并基于分位数回归的Tobit式适应性,提出了截尾的调整。第7章还讨论了分位数回归对模型截尾数据的应用。[4]

协变量导致非线性

与CPS编码一样的真正截尾是很罕见的,这一事实使得Tobit型模型在实际工作中的建设性应用范围有限。然而,在这一点上,我们不得不有所限制。实验讨论部分的简洁性来自于 必然是 的线性函数这一事实,因此回归和CEF是同一的。事实上,对于 的任何函数,包括分布指标 , CEF都是线性的。当然,在实践中,我们感兴趣的解释变量并不总是一个虚拟变量,在CEF中通常还有其他的协变量,在这种情况下,LDV的 几乎肯定是非线性的。直观地说,随着所预测的均值越来越接近因变量的边界,LDV的CEF的导数会变小(例如,想一想正态的CDF在极值时是如何变平的)。结果表明,在有协变量的LDV模型中,回归不一定能完美地拟合CEF。然而,如果CIA成立,潜在的CEF仍然有一个因果解释的情况成立。如果CEF有因果解释,那么似乎回归也有因果解释,因为它仍然提供了CEF的MMSE近似值。此外,如果协变量模型是饱和的,那么回归还估计了类似于(3.3.1)和(3.3.3)的加权平均处理效应。同样,如果我们感兴趣的回归变量是多值的或连续的,那么我们可以得到一个加权平均导数,第3.3.1节尾的公式所描述的那样。只是,我们可能没有足够的数据使饱和协变量回归设定非常有吸引力。因此,回归将失去CEF的一些特征。一方面,它可以生成LDV边界以外的拟合值。这一事实让一些研究人员感到困扰,并对线性概率模型产生了许多负面影响。像probit和Tobit这样的非线性模型的一个吸引人的特点是,它们产生了满足LDV边界的CEF。特别地,probit拟合值总是在0到1之间,而Tobit拟合值是正的(从式(3.4.6)中看这不是很明显)。因此,在简单的曲线拟合领域,我们可能更喜欢非线性模型。我们并不讳言更喜欢非线性模型。然而,重要的是要强调,非线性模型的结果必须转换为边际效应才有用。边际效应是由非线性模型隐含的CEF的(平均)变化。没有边际效应,就很难谈论对所观察到的因变量的影响。如果我们继续假设所感兴趣的回归变量是虚拟变量 ,那么边际效应也可以通过下面的差分来构建:

或者,通过微分 来完成。大多数人在处理连续或多值回归时就会使用导数。

OLS回归估计与非线性模型如probit或Tobit所引起的边际效应有多接近呢?我们首先导出边际效应,然后以实证例子来说明。有协变量的probit模型其CEF为:
因此,有限差的平均值为:

在实践中,这可以用平均导数来近似,

(Stata以两种方式计算边际效应,但默认为(3.4.8)的虚拟回归)。

同样,将方程(3.4.6)推广为有协变量的模型,对于一个非负的LDV,我们有:

Tobit边际效应几乎总是以平均导数来表示,这可以被证明是一个令人惊讶的简单的表达式:
(例如,请参阅:Wooldridge, 2006)。(3.4.9)的一个直接含义是Tobit系数 相对于 的影响总是太大。直观上,这是因为,考虑到潜在的线性模型,当 发生变化时,潜在结果总是变化的。但真实的 不需要改变:对很多人来说,无论如何它都是零。 表3.4.2比较了OLS估计值与女性就业率和工作时间对生育率的回归的非线性边际效应,两个都是LDV的。这些估计值是利用Angrist和Evans(1998) 1980年使用的一个人口普查样本构建的。这个样本包括年龄在21-35岁且至少有两个孩子的已婚女性。生育变量包括一个表示有两个以上孩子的妇女的虚拟变量或生育总数。协变量包括母亲年龄、初生年龄、种族虚拟变量(黑人和西班牙裔)和母亲受教育程度(虚拟变量包括高中毕业生、接受过大学教育(未毕业)和大学毕业生)的线性项。协变量模型不饱和;进一步的情况是,存在可加项,没有交互项,尽管在这个例子中潜在的CEF肯定是非线性的。

表明两个以上儿童的虚拟变量的影响的Probit边际效应与相同关系的OLS估计值是不可区分的。这可以在表3.4.2的第2、3和4列中看到,该表的第一行比较了1980年整个样本的不同方法的估计值。OLS对第三个孩子的影响的估计值是-0.162,而对应的probit边际效应为-0.163和-0.162。这些是在第一种情况下OLS估计使用(3.4.8)得到的估计值以及在第二种情况下(因此也就是对处理组的边际效应)得到的估计值:

生育率和工作时间之间关系的边际效应与相应的OLS估计值非常接近,尽管并不是无法区分的。这可以在第5列和第6列中看到。例如,比较第2列中的Tobit估计值-6.56和-5.87与OLS估计值-5.92。虽然Tobit估计绝对值要大10%,但这似乎不太可能有实质性的重要性。该表的其余列比较OLS估计与一个有序生育变量替代了虚拟变量的边际效应,而不是一个虚拟变量。这些计算都使用导数来导出边际效应(标记为MFX)。在这里,OLS和非线性边际效应估计值对于probit和Tobit也是相似的。

表3.4.2 生育对LDVs影响的不同估计的比较

注:该表报告了生育对母亲劳动供给的影响的OLS估计值、平均处理效应和边际效应(MFX)。A部分的样本包括254,654项观测值,与Angrist和Evans(1998)使用的1980年已婚妇女人口普查样本相同。协变量包括年龄、第一胎年龄、第一胎和第二胎男孩与否的虚拟变量。B部分的样本包括746名非白人女性,她们至少上过大学,年龄在30岁以上,第一次生育年龄在20岁之前。标准离差报告在第1行的括号内。标准误差显示在其他列的括号中。用于估计第4、6和10列处理组的平均效应的样本包括有两个以上孩子的妇女。

有时人们说,当预测概率接近于0.5时,probit模型可以期望产生接近OLS的边际效应,因为潜在的非线性CEF在中间处大致是线性的。然而,随着预测值接近零或一,我们可能会预期一个较大的差距。因此,我们在一个平均就业率相对较高的子样本中再次进行OLS和边际效应的比较,该子样本包括30岁以上上大学、第一次生育年龄在20岁之前的非白人女性。虽然这一群体的平均就业率为83%,但OLS的估计值和边际效应还是相似的。讨论的结果是,虽然非线性模型可能比线性模型更接近于LDV的CEF,但当涉及到边际效应时,这可能无关紧要。这个乐观的结论不是一个定理,但是,就像这里的经验例子一样,它似乎是相当正确的。那么,为什么我们要为非线性模型和边际效应而烦恼呢?一个答案是边际效应很容易计算,因为它们在像Stata这样的软件包中是自动给出的。但是在这个过程中有许多决策要做(例如:加权方案、导数还是有限差分),而OLS是标准化的。当我们处理工具变量和面板数据时,非线性的情况也变得相当复杂。最后,由于我们需要边际效应的标准误差,因此推论步骤也变得额外复杂。奥卡姆剃刀原则建议:“如无必要,勿增实体。”本着这种精神,我们引用我们以前的老师Angus Deaton(1997)对Tobit型模型产生的非线性回归函数的思考:如果没有 [误差分布]的知识,这个回归函数甚至不能识别 [Tobit系数]——参见Powell(1989)——但更根本的是,我们应该问这样一个问题:它是如何产生的?我们必须处理这样一个棘手的、困难的、非稳健的对象么?

3.4.3为什么回归被称为回归,回归之于均值意味着什么?

“回归(regression)”一词源于弗朗西斯·高尔顿(1886)对身高的研究。在该书第26页,高尔顿在拜访他的裁缝时获得启发,他处理的是关于父母和孩子身高的大致呈正态分布的数据样本。他指出,孩子身高的CEF取决于父母的身高,它是线性的,参数由二元回归的斜率和截距给出。由于身高是平稳的(其分布随时间变化不大),所以二元回归斜率也是相关系数,即这个值处于0到1之间。高尔顿框架中的一元回归变量 是父母的平均身高,因变量 是成年子女的身高。回归斜率系数一如既往为 ,截距为 。但由于身高不会随着世代而变化, 的均值和方差是相同的。因此,
式中 为身高代际相关系数, 为人口平均身高。从这里我们得到了线性CEF:

因此,给定父母的身高,孩子的身高是父母身高和人口平均身高的加权平均值。因此,高个子父母的孩子一般不会像他们那么高。同样,对于矮个子父母来说他们的孩子也一般不会像他们那样矮。具体来说,身高6英尺3英寸的Pischke可以预期他的孩子们个子会比较高,尽管没有他那么高。不过,值得庆幸的是,身高5英尺6英寸的Angrist可以指望他的孩子比他高。高尔顿称这种特性为“遗传身长向平均水平的回归”。今天我们称之为均值回归。

高尔顿是查尔斯·达尔文的堂兄,以创立了优生学会而闻名,致力于培养更优秀的人种。事实上,他对回归的兴趣很大程度上来自于这种探索。由此我们得出结论,科学思想的价值不应以作者的政治立场来评判。高尔顿似乎对我们本章主要关注的多元回归不太感兴趣。高尔顿著作中的回归是平稳随机变量分布的机械性特征;它们只是适用于父母身高对孩子身高的回归,但肯定不是因果关系。高尔顿自己也会这么说,因为他反对拉马克的观点(这种观点后来在斯大林统治下的俄罗斯得到了推广),即后天习得的特质可以遗传。回归可以用于统计控制以令人满意地追求因果关系的想法,起源于乔治·乌德尼·尤尔(George Udny Yule)(1899)对贫困率决定因素的调查。尤尔是一名统计学家,也是卡尔·皮尔森(Karl Pearson)(卡尔·皮尔森是高尔顿的门人)的学生,他意识到高尔顿的回归系数可以通过求解勒让德和高斯很久以前推导出来的最小二乘法方程(the least squares normal equations)扩展到多个变量。尤尔(1899年)的论文似乎是第一篇包含多元回归估计值的文献。他的模型将一个地区贫困率的变化与当地《英国济贫法》的管理变化联系起来,同时控制了该地区的人口增长和年龄分布。他特别感兴趣的是:救济,即为穷人提供收入支持而不要求他们搬到救济院的做法,本身是否会导致更高的贫困率。这是一个定义明确的因果关系问题,至今仍在困扰着我们。[5]最后,值得一提的是,史蒂文·斯蒂格勒(Steven Stigler, 1986)的书中对回归的历史进行了详细的描述。斯蒂格勒是芝加哥大学(University of Chicago)著名的统计学家,但不如他的父亲、经济学家、诺贝尔奖得主乔治•斯蒂格勒(George Stigler)出名。

注释

[1]Altonji和Segal(1996)在广义矩方法的背景下讨论了这一点。

[2] HIE比这里描述的要复杂得多。有14种不同的处理,包括分配给一个预付费的类似于HMO的服务。实验设计不是使用简单的随机分配,而是更复杂的分层分配方案,旨在确保组间协变量平衡。

[3] Tobit的一般化模型是样本选择模型,其中决定参与的潜在变量与决定支出的潜在变量不同。例如,可参看:Maddala,1983。与Tobit一样,在样本选择模型中也出现了与潜在变量效应的解释相关的概念问题。

[4]我们应该注意到,我们最喜欢的回归例子(即工资对数对学校教育的回归)也可能存在COP问题,因为对数工资的样本自然地忽略了那些零收入的人。如果教育程度影响到工作的可能性,就会导致COP式的选择性偏差。因此,在实践中,我们关注的是成人男性的样本,他们的参与率很高,在受教育群体中也相当稳定(例如,图3.1.1中40-49岁的白人男性)。

[5]尤尔的第一篇关于济贫法的应用论文于1895年发表在《经济杂志》(Economic Journal)上,Pischke很自豪自己是该杂志的联合编辑。与此相适应的多元回归理论,出现在尤尔(1897)上。




本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


数据治理 | 用文本相似度筛选重复样本

企业数据库匹配系列(一)| 工企库与工商库匹配报告

数据治理 | 一文看懂GIT的基本原理!

数据治理 | 随心所欲切换文档版本!误删什么的再也不怕啦~

数据治理 | 还在手动保存副本?那你一定还不知道这个小工具!





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 彭绮荣


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存