查看原文
其他

一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法

计量经济圈 计量经济圈 2022-08-29

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

今天,给大家推荐一本最新的因果推断书籍《Causal Analysis: Impact evaluation and causal machine learning with applications in R》。这本书不仅囊括了传统的政策评估方法,还对其最新进展做了很多扩展和讨论(比如多期DID,聚束方法、拐点回归设计等),更重要的是还用专门章节讨论了”机器学习因果推断方法“。当然,真本书提供了R软件的开源数据和代码,可以就每种方法进行练习。

写本书的起源

从我们作为人类的生命开始到结束,我们永远面临着关于因果的问题,即做一件事与做另一件事的后果。我应该吃羊角面包或什锦麦片(瑞士版的麦片)作为早餐来享受它吗?我应该去滑雪还是滑冰,以从当前的雪况中获得最大的好处?我是应该为下周的统计考试而学习呢,还是无论如何我都能通过?这也适用于政治、商业、工作、生活、健康和社会等更广泛的,可能在社会上更相关的问题,例如:更多的教育会增加我或其他人的工资吗?产品或服务的折扣会增加销售吗?吸烟和饮酒会致人死亡吗?更严厉的惩罚会减少犯罪吗?当育儿免费时,妈妈们是否工作得更多?贸易和全球化是增加还是减少财富和/或收入平等?在机会方面,免费教育是否促进了一个更平等的社会?
简而言之,对特定选择或行为的影响进行推理是我们人类生活的一个组成部分。为了推测这样的因果关系,无论是基于个人经验,媒体信息,还是其他人的观点,我们经常对过去的观察进行思考。取决于我们的信息来自何处以及我们如何处理这些信息,我们对因果关系的判断可能或多或少偏向于一个或另一个方向,但毫无疑问,从经验观察中学习是人类最宝贵的品质之一。这种说法也适用于社会科学和统计,在这方面,大量的研究人员和分析人员搜集实证数据,即系统地记录观察结果,以基于定量方法对大量人类行为和政策的影响进行因果评估。
在过去的几十年里,基于数据的因果分析在方法论上取得了重要的进展,其中包括将其与人工智能(特别是所谓的机器和深度学习)相结合。此外,这些方法已越来越成为评价公共行政部门(如社会政策)、国际机构(如发展援助)、公司(如价格政策或营销战略)或保健提供者(如医疗)的行动或政策的影响的标准,举几个例子。如培训对于求职者来说,一个新的手术,或一个广告活动, 分别对就业、健康、或销售的因果效应。
这本教科书介绍了基于实证数据的因果分析。它提出了评估因果影响的最重要的定量方法,以及它们所依赖的统计假设,这些假设最终是关于人类行为的假设。因此,这本书非常注重传达各种方法的想法和直觉,以及它们的异同,例如通过例子和图形插图。同时,它还正式地讨论了使用统计符号的关键概念(尽管并不总那么详细)。具有基本的统计学知识(如本科水平)的读者,了解概率论、均值、协方差、假设检验和线性回归等主题,应该能够顺利地完成所有或大部分的正式讨论。根据之前的知识和重点,有些讨论甚至可以跳过,例如,在因果分析的背景下,对线性回归及其性质的理解。因此,这本书整体上更适合博士和硕士课程,以及对统计和因果分析感兴趣的读者。
值得一提的是,这本书涵盖了其他教科书中还没有考虑到的几种方法论发展,比如将因果分析与机器学习相结合的方法,因此在影响评价方法方面比较全面。与此同时,这本教科书的目标是“干净和简洁”:在公平对待所涵盖的主题的同时,避免对极细微的细节过度讲解,因此有时可能显得不像其他教科书那样丰富。此外,它有时强调概念上的类比或不同方法之间的重叠,以避免冗余和繁重的统计符号。所有这些都是为了在广度和深度上做出平衡,让读者以一种简洁的方式熟悉最重要的因果分析概念,这是受到爱因斯坦的名言启发:“一切都必须尽可能简单。“还需要说明的是,本书还提供了使用开源软件对实证数据的各种方法的一系列应用。这对于希望能够立即应用这种因果分析方法的学生、研究人员和分析人员非常有用。这些应用程序基于用户友好的命令,只包含几行代码,了解这些入门知识就足够了。

下面简要介绍一下各个章节的内容

这本教科书首先在第 2 章中介绍了因果关系的概念,特别是区分因果关系和相关关系。例如,我们可能会观察到,受过高等教育的人的平均收入高于受教育程度较低的人。然而,目前尚不清楚收入与教育之间的这种正相关是否确实仅由教育引起,还是因为受过高等教育和受教育程度较低的个人在其他可能与收入相关的背景特征方面也存在差异,例如, 智力、动机或其他个性特征。
第3章介绍了可能是最直观的因果分析方法,即社会实验。后者通过抛硬币的方式,随机分配治疗组(例如疫苗和安慰剂治疗)。在成功的随机化中,例如,没有人可以操纵抛硬币的结果,实验可以(至少在足够多的研究参与者的情况下)产生背景特征相似的治疗组和控制组。在这种情况下,治疗组和控制组之间平均结果(例如健康)的差异可以可信地归因于治疗效应,因为两组在其他方面是可比性的。基于实验估计平均结果差异的讨论是基于线性回归,这是目前最流行的统计方法之一并且还涵盖了任何基于数据的方法都应该具有的理想属性。
例如,当应用于来自同一人口(例如客户总数)的许多不同数据集(例如客户调查)时,我们通常希望用因果方法得到正确的因果效果,这一特性被称为无偏性。我们还希望有一种方法,当我们增加数据的大小(即观察的数量)时,更有可能接近真实的效果,这是一种被称为一致性的属性。此外,还会研究假设检验(以及所谓的统计推断)的概念,我们通常使用这些概念来判断在数据中发现的效应是巧合(或虚假)的可能性。在社会实验的背景下,讨论提供了大量的关于这些概念和属性的技术细节(例如定义和无偏性证明)。后者也适用于本书中考虑的其他非实验方法,然而,我们忽略了这些细节,而是专注于每个方法的关键假设和潜在直觉 保持讨论可跟踪的方法。
虽然实验常常被认为是评价因果效果的金标准,但非实验方法是因果推理的一个非常重要的基石,并经常应用于实践。一个原因是,许多有趣的研究问题不能通过实验的方式进行调查,例如由于财务约束或道德原因。例如,考虑教育对收入的影响,很难想象随机录取学生到不同的教育水平。最流行的非实验策略之一是基于这样的假设,即研究人员或分析师可以测量并因此观察所有特征,这些特征同时影响政策变量X(例如折扣)和结果变量Y(例如购买行为)。这些特征,也称为协变量,可能包括年龄、收入、性别等。
第4章提出了一系列不同的方法,在这样一个“基于可观测假设的选择”下的因果分析,包括所谓的回归,匹配,加权,和双重稳健估计。这些方法的基本思想是只比较接受处理和不接受处理的受试者的结果在协变量方面是相似的。这将保证在评估因果效应时进行“苹果与苹果”的比较,以避免处理效果与特征差异的任何影响混淆在一起。因此,目的是在观察信息的帮助下模拟实验环境:在发现有和没有处理的组在观察特征上相似后,结果的差异被假定完全是由政策的差异造成的。因此,“基于可观察假设的选择”意味着,在具有相同特征的受试者中,该政策相当于随机分配。
第五章将前几章的概念与人工智能的一个分支领域,即机器学习相结合,也叫因果机器学习方法。
值得注意的是,这些因果分析方法都不同于传统的预测机器学习算法(它们本身不适合进行因果分析)。例子包括所谓的决策树、随机森林、套索/岭回归、增强、支持向量机、神经网络和许多其他方法。第5章很快地提供了一些预测机器学习者的基本直觉(例如,基于将它们与线性回归进行对比),但为了进行更全面的讨论,我们鼓励感兴趣的读者使用许多关于预测机器学习的教科书或免费在线课程之一。
第六章介绍了基于所谓的“工具变量”的因果推理的进一步方法,但对里面的前沿方法和工具变量本身的内容做了进一步的扩展。
第7章考虑了所谓的“双重差分法”和相关的方法,这些方法要求在一段时间内观察感兴趣的结果,即在引入某些政策之前和之后,并且该政策只针对一组而不是另一组。双重差分法基于这样一个假设:在不进行政策处理的情况下,处理组和控制组的结果会随着时间的推移经历相同的变化,即遵循一个共同的趋势。比如,将劳动市场待遇改革作为政策,增加60岁以上求职者的失业救济金,但不增加年轻群体的失业救济金。简单地比较一下就业结果改革后的老年群体和青年群体并没有产生改革的因果效应,因为就业的差异可能是由处理或年龄相关因素造成的。同样的,只是比较大于60岁的求职者在改革前后的工作情况也不可取,因为工作的差异可能是是由处理效果和一般的就业时间趋势(如由于经济条件的变化)引起的。
但是,如果假设这种就业时间趋势在不同年龄组中是相同的,则可以通过未受改革影响的年轻人在政策处理前后的结果差异来衡量。在这种情况下,从 60 岁以上人口(包括政策效应加上时间趋势)的就业前后差异中减去 60 岁以下人口之间的前后差异(仅包括时间趋势)得出政策处理效果。也就是说,采用组间(前后)差异的差异可以评估改革的政策效应。本章还讨论了几个扩展,例如a.当观察到协变量,b.在不同组的不同时期引入政策时。最后,我们将熟悉一种方法,该方法用另一种限制某人在没有接受政策处理的情况下,其结果等级(rank)随时间变化的稳定性(例如在引入政策之前和之后某人的工资分配中的等级处于稳定状态)来替代通常的共同趋势假设,这就是”change in change方法“。
第8章介绍了“合成控制法”,让我们以柏林墙倒塌后德国统一对西德经济增长的影响为例,西德是当时唯一一个经历这种“统一待遇”的欧洲国家。合成控制法的目的是产生与统一前西德经济状况非常接近的其他欧洲国家(如奥地利和荷兰)的加权平均,为了评估统一是否导致西德与未受待遇国家的加权平均之间的经济增长存在差异,这被称为合成控制。我们还将讨论几个扩展,包括机器学习方法和多个处理单元的清醒。
第9章讨论了所谓的“断点回归设计”,其目的是在某些指标或决定处理的running variable的特定阈值上模拟随机分配的局部处理实验。为了修正这种观点,让我们假设一些大学只录取在入学考试中达到最低分数的申请人。如果申请人和考官都不操纵考试分数,那么通过获得最低分数的学生在智力和其他方面与那些因为分数稍低而失败的学生(即比要求的最低分数少一分)可以说是非常相似的。局部阈值的测试成绩,我们可以比较上大学与没上大学对个人收入影响的因果效应。
这对应于所谓的“sharp RDD”,即假设所有高于阈值的人都接受处理,而低于阈值的人都不接受处理。此外,非常符合上述工具变量方法的精神。该框架也可以适用于broken experiment的环境,意味着不是每个被大学录取的人最终都可能决定参加它,这对应着所谓的“Fuzzy RDD”。它假设阈值改变了一些受试者的政策参与,但不一定改变了所有受试者的政策参与。
一种相关但又不同的方法是用于评估政策处理的“拐点回归设计”。其中,处理变量是连续的(例如,可以取许多不同的值,而不仅仅是1或0),并在running variable的特定阈值处改变它们与running variable的关联。例如,我们可能对评估失业福利(政策)对失业持续时间(结果)的因果影响感兴趣。最后,我们将看看所谓的“聚束设计,
第10章关注的问题是,当特定的假设,如前面提到的基于可观测的选择或工具变量框架不满足时,因果效应是如何稳定或稳健的。它表明,当我们放弃一些或放弃所有这样的假设时,我们得到的是一个范围或一组可能的因果效应,而不是一个单一的数字。然而,这种所谓的“部分认同”方法可能很有趣。第二种方法是通过所谓的“敏感性分析”来评估因果影响的稳健性,使其与有问题的假设有较小或更大的偏差,而这些偏差是默认的。我们将考虑几个不同的因果问题,其中部分识别和敏感性分析可以有效地应用,然而,没有全面覆盖所有可能的方法。
第11章讨论了一个重要的问题,在一个社会互动和干扰的世界里,一个感兴趣的结果可能不仅受到某人自己受政策处理的影响,而且也受到其他人接受政策处理的影响,例如家庭成员,朋友,甚至整个社会。例如,给学生提供一本关于因果分析的教科书,可能不仅会影响自己学生的学习过程,而且还会“溢出”到其他学生(如果这本书是在一个小组里分享)。同样,向贫困家庭支付福利金可能不仅会影响家庭本身的收入,而且还会通过增加接受福利金家庭在商品或服务上的支出而影响其他家庭的收入。因此,我们将考虑几种不同的方法,将个人处理的直接效应与来自他人处理的溢出效应或社会互动区分开来。
最后12章总结并简要展望了因果分析领域的潜在未来趋势,特别是因果发现,其目的是用数据驱动的方式学习可能的许多变量之间的因果关系。所以最好的因果分析可能还在后面!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存