基本无害 | 使回归有意义——回归的细节（2）

Original 基本无害的数据Seminar 2022-12-31

收录于合集 #基本无害 33个

基本无害的计量经济学

——实证研究者指南

（重译本）

李井奎译

第三章使回归有意义第四节回归的细节

正文共8101个字，预计阅读时间21分钟。感谢阅读！
原文：3.4.2
温馨提示：左右滑动可查看完整公式！

3.4.1 加权回归

3.4.2 有限因变量与边际效应

许多实证研究涉及的因变量取值是受限的。一个例子是Angrist和Evans（1998年）关于生育对女性劳动力供给影响的调查，这个例子也在工具变量一章中进行了讨论。这项研究关注的是生育对父母工作和收入的因果影响。由于生育可能与潜在收入相关，Angrist和Evans报告了基于兄弟姐妹性别构成和多胞胎的工具变量估计，以及OLS估计值。本研究中的几乎所有结果要么是二元的（例如，就业状况），要么是非负的（例如，工作小时数、工作周数和收入）。因变量取值受限这一事实会如何影响实证实践呢？许多计量经济学教科书认为，虽然OLS适用于连续因变量，但当感兴趣的结果是受限因变量（LDV）时，线性回归模型是不合适的，而probit和Tobit等非线性模型是首选。相比之下，我们视回归从CEF继承其合法性的观点，使得受限因变量性质不那么重要。

和往常一样，随机实验是一个有用的基准，其中回归给出了一个简单的处理组和控制组的差异。例如，考虑对随机分配的回归元进行的各种结果变量的回归，某回归元表示兰德健康保险实验中处理组中的一个（HIE；Manning等人，1987年）。在这项可能是美国社会科学中最昂贵的雄心勃勃的实验中，兰德公司成立了一家小型健康保险公司，不收取保费。近6000名研究参与者被随机分配到具有不同特征的医疗保险计划中。

任何保险计划最重要的特征之一，是被保险人预计要支付的医疗费用部分。HIE将个体随机分配到许多不同的保险计划中。其中一个保险计划提供完全免费的医疗服务，而其他保险计划则包括共同支付、支出上限和免赔额的各种组合，以便参保者需自费支付部分医疗费用。该实验的主要目的是了解医疗保健的使用对成本是否敏感，如果是，这是否会影响健康。HIE结果显示，那些被提供了免费或低成本医疗服务的人使用了更多的健康保险，但在大多数情况下，他们并没有因此变得更健康。这些发现有助于为对成本敏感的医疗保险计划和管理式医疗方案铺平道路。

大多数HIE的结果是LDV的。这些数据包括了显示实验对象在某一年是否有医疗支出或住过院的虚拟变量，以及像面对面问诊的次数和年度医疗费用总额（无论由患者还是保险公司支付）这样的非负变量。大约20%的样本的医疗费用支出变量为零。表3.4.1再现了两个HIE处理组的结果，该结果来源于Manning等人(1987)的表2中报告的估计值。表3.4.1显示了全免费医疗和个人免赔组的平均结果。后者面临每人每年150美元的免赔额或每个家庭每年450美元的门诊护理免赔额，之后的所有费用都需自理(住院护理不收费)。这两组的总样本量略高于3000。

为了简化LDV的讨论，假设对全免费医疗和免赔额保险计划之间的比较是我们唯一感兴趣的比较，而处理是由简单的随机分配决定的。[1]令表示对免赔组的分配。通过随机分配，与的均值之差即为无条件平均处理效应。正如我们之前对实验的讨论(第2章)：

因为与潜在结果无关。同样，和以前一样，是对回归的斜率系数。

表3.4.1 两个HIE处理组的平均结果

注:改编自Manning等人(1987)中的表2。所有的标准误差(显示在括号中)都经过了跨期和组内相关性的校正。表中的金额以1984年6月美元计算。问诊服务是与保健提供者进行面对面接触；问诊服务仅为放射科、麻醉科，而病理学的问诊被排除在外。问诊相关支出不包括牙科护理和门诊心理治疗。

由式(3.4.1)可知，无论是二元、非负还是连续分布，实验中因果效应的估计都没有特别的挑战。尽管对右手式的解释会因不同种类的因变量而改变，但你不需要做任何特殊的事情来得到平均因果效应。例如，HIE的一个结果是表示任何医疗支出的虚拟变量。既然这个结果是伯努利试验，我们有：

这可能会影响我们用来描述结果的语言，但不会影响基础的计算。例如，在HIE中，实验组之间的比较，如式(3.4.1)的左手边，显示被分配到免费医疗组的87%的人在给定的年份至少使用了一些护理，而被分配到免赔计划组的只有72%的人。因此，相对适中的150美元免赔额对护理的使用产生了显著的影响。这两组比率之差为-0.15是的估计值，其中是一个表示任一医疗费用的虚拟变量。因为这里的回归结果是一个虚拟变量，平均因果效应也是对使用率或概率的因果效应。

我们看到，医疗使用结果变量是一个概率，假设你在本例中使用probit来拟合CEF。试试也无妨！使用probit模型的切入点通常是假设参与该实验是由一个潜在变量决定的，它满足下式：

其中服从分布。注意，这个潜在变量不可能是实际的医疗支出，因为支出是非负的，因此是非正态的，而正态分布的随机变量在实数轴上连续分布，因此可以是负的。基于潜在指数模型，

所以的CEF可以写成

其中为正常的CDF。因此

这是一个回归变量的线性函数，所以在线性回归中，对的斜率系数就是probit拟合值的差值。但是probit系数和并不能告诉我们对是否参与该项目的影响的大小，直到我们将它们代入回正态的CDF（尽管它们确实有正确的符号）。相反，回归给出了我们需要的东西，不管有没有probit分布假设。

在HIE中最重要的结果之一是医疗支出总额，换句话说，就是医疗保健成本。按照成本来衡量，那些面临免赔额的受试者是否使用了较少的医疗健康服务呢？在HIE中，免赔组和免费组的平均支出差异是-141美元，大约是免费组支出水平的19%。这一计算表明，让患者支付一部分费用可以大大降低支出，尽管这一估计值并不十分精确。

因为支出结果是非负随机变量，有时等于零，它们的期望可以写为：

处理组之间的支出结果差异是：

因此，平均支出的总体差异可以分成两部分：支出概率之差为正（的部分）（通常称为参与效应）和以参与为条件的均值差异（部分），即正数(conditional-on-positive，COP)效应。同样，这对因果效应的估计也没有特别的影响；等式(3.4.1)仍然成立：对的回归给出了支出无条件平均处理效应。

好的COP，坏的COP：正数效应

因为对非负随机变量（如支出）的因果效应有两部分，一些应用研究人员认为他们应该分别研究这两部分。事实上，许多人使用两部分模型，其中第一部分是对参与效果的评估，第二部分是对COP效果的评估（例如，参见Duan等人(1983，1984)应用于HIE的这类模型）。(3.4.4)的第一部分没有提出特别的问题，因为，如上所述，是一个虚拟变量的事实只意味着平均处理效应也是概率的差值。两部分模型的问题在于，即使在随机试验中，COP效应也没有因果解释。这种复杂性可以理解为与第3.2.3节中关于不良控制描述的选择问题相同。

为了进一步分析COP效应，我们写出下式：

其中第二行使用的随机分配。这种分解表明，COP 效应由两项组成：对使用免赔额医疗服务的子群体的因果效应，以及必须支付部分费用获得医疗服务和免费享受医疗服务时使用医疗服务的人之间的差值。第二个项是选择性偏差的一种形式，尽管它比第2章中的选择偏差更微妙。

这里出现选择性偏差是因为实验改变了支出为正的那一组的构成。总体可能包括一些低支出用户，如果他们不得不支付免赔额，他们将选择退出医疗。换句话说，这个组比组更大，平均成本可能更低。因此，选择性偏差项是正的，结果是COP效应比假定的负因果效应更接近于零。这是第3.2.3节中不良控制问题的一个版本：在因果效应设置中，是一个结果变量，因此不适合作为条件，除非处理对为正的可能性没有影响。

COP效应无因果关系的一个解决方案依赖于截尾回归模型(censored regression models)，如Tobit模型。这些模型假设非参与者的潜在支出结果(例如可参见：Hay和Olsen, 1984)。对于支出问题，传统的Tobit公式规定，所观察到的由下式给出：

其中为正态分布的潜在支出变量，可以为负值。因为不是LDV，所以Tobit的支持者觉得可以使用传统的线性模型（比如方程(3.4.3)）将其与联系起来。在这种情况下，是对潜在支出的因果效应。这个方程对每个人都有定义，不管是正的还是负的。如果我们满意于研究对的效应，那么就不存在COP式的选择问题了。

但我们对的效应并不满意。第一个问题是“潜在医疗保健支出”是一个令人困惑的概念。对一些人来说，医疗保健支出真的是零；这不是统计上的假象，也不是由于某种截尾所致。所以“潜在”和“潜在为负的”的概念很难理解。没有（潜在为负）的的数据，永远。第二个问题是，潜在模型中的参数与观测结果的因果关系之间的联系，得自关于潜在变量的分布假设。为了建立这一联系，我们来评估给定时的期望：

(例如，可参看：McDonald和Moffitt，1980)。这个表达式是利用的正态性和同方差性，以及可以表示为的假设推导出来的。

Tobit CEF为我们提供了观察支出的平均处理效应的表达式。具体地说，

这是一个相当令人生畏的公式。但是由于唯一的回归变量是一个虚拟变量，所以这些对于估计都是不必要的。无论是否采用Tobit模型来解释内在结构，在OLS回归上得到的斜率系数都可以抵消(3.4.7)左侧的CEF差异。^[2]

COP效应有时是由研究人员的一种意识所激发的，即当结果分布有一个聚集点时——也就是说，当它累积到一个特定的值（例如0）时——或者有一个偏度较高的分布，或者两者兼之，那么对平均值的影响的分析就遗漏了一些东西。对平均值影响的分析确实遗漏了一些东西，比如特定值概率的变化，或分位数相距中位数的偏移。但为什么不直接看看这些分布效应呢？分配结果包括年度医疗支出超过0、100美元、200美元等的可能性。换句话说，把作为c的不同选择放在所感兴趣的回归的左边。计量经济学上，这些结果都属于(3.4.2)范畴。Angrist(2001)在一篇关于生育对工作时间影响的分析中阐述了直接使用线性概率模型观察分布效应的思想。或者，如果分位数提供了一个聚点（focus point），我们可以使用分位数回归对它们进行建模。第7章对此进行了详细的论述。

Tobit型潜在变量模型有意义吗？有意义，如果你使用的数据确实经过截尾了的话。真正的截尾意味着潜在变量有一个经验对应，它是所感兴趣的主要结果。劳动经济学的一个典型例子是CPS的收入数据，它对非常高的收入值进行编码（截尾），以保护受访者的机密性。通常，我们感兴趣的是受教育年限对收入的因果效应，因为它出现在受访者的纳税申报单上，而不是他们的CPS编码收入。Chamberlain(1994)表明，在某些年份，CPS截尾大大降低了所测量的教育回报，并基于分位数回归的Tobit式适应性，提出了截尾的调整。第7章还讨论了分位数回归对模型截尾数据的应用。^[3]

协变量导致非线性

与CPS编码一样的真正截尾是很罕见的，这一事实使得Tobit型模型在实际工作中的建设性应用范围有限。然而，在这一点上，我们不得不有所限制。实验讨论部分的简洁性来自于必然是的线性函数这一事实，因此回归和CEF是同一的。事实上，对于的任何函数，包括分布指标， CEF都是线性的。当然，在实践中，我们感兴趣的解释变量并不总是一个虚拟变量，在CEF中通常还有其他的协变量，在这种情况下，LDV的几乎肯定是非线性的。直观地说，随着所预测的均值越来越接近因变量的边界，LDV的CEF的导数会变小（例如，想一想正态的CDF在极值时是如何变平的）。

结果表明，在有协变量的LDV模型中，回归不一定能完美地拟合CEF。然而，如果CIA成立，潜在的CEF仍然有一个因果解释的情况成立。如果CEF有因果解释，那么似乎回归也有因果解释，因为它仍然提供了CEF的MMSE近似值。此外，如果协变量模型是饱和的，那么回归还估计了类似于(3.3.1)和(3.3.3)的加权平均处理效应。同样，如果我们感兴趣的回归变量是多值的或连续的，那么我们可以得到一个加权平均导数，如第3.3.1节末尾的公式所描述的那样。

只是，我们可能没有足够的数据使饱和协变量回归设定非常有吸引力。因此，回归将错过CEF的一些特征。一方面，它可以生成LDV边界以外的拟合值。这一事实让一些研究人员感到困扰，并对线性概率模型产生了许多负面影响。像probit和Tobit这样的非线性模型的一个吸引人的特点是，它们产生了考虑LDV边界的CEF。特别地，probit拟合值总是在0到1之间，而Tobit拟合值是正的（从式(3.4.6)中看这不是很明显）。因此，在简单的曲线拟领域，我们可能更喜欢非线性模型。

我们并不讳言更喜欢非线性模型。然而，重要的是要强调，非线性模型的结果必须转换为边际效应才有用。边际效应是由非线性模型隐含的CEF的（平均）变化。没有边际效应，就很难谈论对所观察到的因变量的影响。如果我们继续假设所感兴趣的回归变量是虚拟变量，那么边际效应也可以通过下面的差分来构建：

或者，通过微分来完成。大多数人在处理连续或多值回归时就会使用导数。

OLS回归估计与非线性模型如probit或Tobit所引起的边际效应有多接近呢？我们首先推导边际效应，然后以实证例子来说明。有协变量的probit模型其 CEF为：

因此，有限差的平均值为：

在实践中，这可以用平均导数来近似，

（Stata以两种方式计算边际效应，但默认为(3.4.8)的虚拟回归）。

同样，将方程(3.4.6)推广为有协变量的模型，对于一个非负的LDV，我们有：

Tobit边际效应几乎总是以平均导数来表示，这可以被证明是一个令人惊讶的简单的表达式：

（例如，请参阅：Wooldridge, 2006）。(3.4.9)的一个直接含义是Tobit系数相对于对的影响总是太大。直观上，这是因为，考虑到潜在的线性模型，当发生变化时，潜在结果总是变化的。但真实的不需要改变：对很多人来说，无论如何它都是零。

表3.4.2 比较了OLS估计值与女性就业率和工作时间对生育率的回归的非线性边际效应，两个都是LDV的。这些估计值是利用Angrist和Evans(1998) 1980年使用的一个人口普查样本构建的。这个样本包括年龄在21-35岁且至少有两个孩子的已婚女性。生育变量包括一个表示有两个以上孩子的妇女的虚拟变量或生育总数。协变量包括母亲年龄、初生年龄、种族虚拟变量(黑人和西班牙裔)和母亲受教育程度（虚拟变量包括高中毕业生、接受过大学教育（未毕业）和大学毕业生）的线性项。协变量模型不饱和；进一步的情况是，存在可加项，没有交互项，尽管在这个例子中潜在的CEF肯定是非线性的。

表明两个以上儿童的虚拟变量的影响的Probit边际效应与相同关系的OLS估计值是不可区分的。这可以在表3.4.2的第2、3和4列中看到，该表的第一行比较了1980年整个样本的不同方法的估计值。OLS对第三个孩子的影响的估计值是-0.162，而对应的probit边际效应为-0.163和-0.162。这些是在第一种情况下使用(3.4.8)得到的估计值以及在第二种情况下（因此也就是对处理组的边际效应）得到的估计值：

生育率和工作时间之间关系的边际效应与相应的OLS估计值非常接近，尽管并不是无法区分的。这可以在第5列和第6列中看到。例如，比较第2列中的Tobit估计值-6.56和-5.87与OLS估计值-5.92。虽然Tobit估计绝对值要大10%，但这似乎不太可能有实质性的重要性。该表的其余列比较OLS估计与一个有序生育变量的边际效应，而不是一个虚拟变量。这些计算都使用导数来计算边际效应（标记为MFX）。在这里，OLS和非线性边际效应估计值对于probit和Tobit也是相似的。

表3.4.2 生育对LDVs影响的不同估计的比较

注：该表报告了生育对母亲劳动供给的影响的OLS估计值、平均治疗效应和边际效应(MFX)。A部分的样本包括254,654项观测值，与Angrist和Evans(1998)使用的1980年已婚妇女人口普查样本相同。协变量包括年龄、第一胎年龄、第一胎和第二胎男孩的虚拟变量。B部分的样本包括746名非白人女性，她们至少上过大学，年龄在30岁以上，第一次生育年龄在20岁之前。标准离差报告在第1行的括号内。标准误差显示在其他列的括号中。用于估计第4、6和10列处理组的平均效应的样本包括有两个以上孩子的妇女。

有时人们说，当预测概率接近于0.5时，probit模型可以期望产生接近OLS的边际效应，因为潜在的非线性CEF在中间大致是线性的。然而，随着预测值接近零或一，我们可能会预期一个较大的差距。因此，我们在一个平均就业率相对较高的子样本中再次进行OLS和边际效应的比较，该子样本包括30岁以上上大学、第一次生育年龄在20岁之前的非白人女性。虽然这一群体的平均就业率为83%，但OLS的估计值和边际效应还是相似的。

讨论的结果是，虽然非线性模型可能比线性模型更接近于LDV的CEF，但当涉及到边际效应时，这可能无关紧要。这个乐观的结论不是一个定理，但是，就像这里的经验例子一样，它似乎是相当正确的。

那么，为什么我们要为非线性模型和边际效应而烦恼呢？一个答案是边际效应很容易计算，因为它们在像Stata这样的软件包中是自动给出的。但是在这个过程中有许多决策要做（例如：加权方案、导数与有限差分），而OLS是标准化的。当我们处理工具变量和面板数据时，非线性的情况也变得相当复杂。最后，由于我们需要边际效应的标准误差，因此推论步骤也需要额外的复杂性。奥卡姆剃刀原则建议:“如无必要，勿增实体。”本着这种精神，我们引用我们以前的老师Angus Deaton(1997)对Tobit型模型产生的非线性回归函数的思考：

如果没有[误差分布]的知识，这个回归函数甚至不能识别[Tobit系数]——参见Powell(1989)——但更根本的是，我们应该问这样一个问题：它是如何产生的？我们非得去处理这样一个棘手的、困难的、非稳健的对象么？

注释：

[1]HIE比这里描述的要复杂得多。有14种不同的处理，包括分配给一个预付费的类似于HMO的服务。实验设计不是使用简单的随机分配，而是更复杂的分层分配方案，旨在确保组间协变量平衡。

[2] Tobit的一般化模型是样本选择模型，其中决定参与的潜在变量与决定支出的潜在变量不同。例如，可参看：Maddala，1983。与Tobit一样，在样本选择模型中也出现了与潜在变量效应的解释相关的概念问题。

[3] 我们应该注意到，我们最喜欢的回归例子（即工资对数对学校教育的回归）也可能存在COP问题，因为对数工资的样本自然地忽略了那些零收入的人。如果教育程度影响到工作的可能性，就会导致COP式的选择性偏差。因此，在实践中，我们关注的是成人男性的样本，他们的参与率很高，在受教育群体中也相当稳定（例如，图3.1.1中40-49岁的白人男性）。

本专栏主理人简介

企研数据学术顾问 · 李井奎

李井奎，1978年1月生，浙江工商大学经济学院教授、博士生导师，哈佛大学访问学者，以教书育人和传播学问为己任，曾获浙江省“高校优秀教师”称号。除学术论文写作之外，还著有《大侦探经济学：现代经济学的因果推断革命》等科普著作。

星标⭐我们不迷路！想要文章及时到，文末“在看”少不了！

往期推荐

数据治理 | 一文看懂GIT的基本原理！

数据治理 | 随心所欲切换文档版本！误删什么的再也不怕啦~

数据治理 | 还在手动保存副本？那你一定还不知道这个小工具！

数据治理 | 不丢数据的秘籍：了解Python的内存管理机制

基本无害 | 使回归有意义——回归的细节（1）

基本无害 | 使回归有意义——异质性和非线性（1）

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

文 | 《基本无害的计量经济学——实证研究者指南（重译本）》

翻译 | 李井奎

校对 | 陈泽王锐

排版 | 李木子

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

基本无害 | 使回归有意义——回归的细节（2）

3.4.1 加权回归

3.4.2 有限因变量与边际效应

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

生成图片，分享到微信朋友圈

基本无害 | 使回归有意义——回归的细节（2）

3.4.1 加权回归

3.4.2 有限因变量与边际效应

您可能也对以下帖子感兴趣