查看原文
其他

5种必备的计量经济学因果推论方法

来源:学术无界,资料来源于MarTechCareer


不管建立什么模型时我们最常见的两个字母恐怕就是X和Y了,而X和Y又存在着某种联系,所以我们才可以根据自己的研究内容建立不同的模型。

如果想知道输入X对结果Y的因果影响,但是可能存在一些既影响X又影响Y的干扰变量C,使得我们判断X和Y的因果关系时出现误差。而这种误差在统计学中被称为变量遗漏误差(Omitted Variable Bias)。下面介绍五种可以帮助我们绕过干扰变量并准确估计因果关系的计量经济学方法。

1






控制回归法(Controlled Regression)


控制回归背后的思想是,我们可以直接控制Y对X的回归中的干扰变量C。控制回归的统计要求是,给定干扰变量C,潜在结果Y的分布应该有条件地独立于自变量X。
假设我们想要了解一个现有产品特性的影响,例如在线聊天使用对产品销量的影响。首先我们要搞清楚了解这个影响的目的:如果在线聊天的影响大到足以抵消成本,我们可能会扩展在线聊天功能来提高利润;反之,我们就不太会扩展功能,甚至可能为了节省成本而舍弃它。
我们很容易发现聊天使用量与用户级销量间存在正相关关系(也就是原始相关性),于此同时,我们也感觉到可能会有一些干扰变量。比如说,年轻人会更多地使用在线聊天且愿意为聊天付费,因为他们比其他人更适应这种聊天技术。
由于年轻人与在线聊天使用量和销售量都呈现正相关关系,所以直接对聊天使用量和销售量进行回归会夸大它们之间的因果关系。因此,我们可以通过控制年龄,再对聊天使用量和销售量进行回归以获得更加准确的因果关系估计。
用到的R代码:

2





断点回归设计法(Regression Discontinuity Design,RDD)


断点回归设计法(RDD)是一种利用随机性进行因果推论的统计方法,在狭义上也可以看作是一个局部随机实验。断点回归设计(regression discontinuity design,RDD)之所以能做因果推断是因为控制了非观测因素。在断点回归设计法中,我们主要关注的是一个截断点。
假设我们想估计通过一门技术课程对收入的影响。由于存在一些非观测因素与通过课程和收入都相关(例如先天能力和内在动机),因此使用控制回归法是不够准确的。
在这种情况下,我们可以设置一个及格“门槛”来给用户0分类:系统判定成绩在70分或以上的用户为通过,而成绩在70分以下的用户则为不通过。假设在截断点70分附近有一个极度狭窄的区间,并且假设分数是连续的,那么分数落在这个区间内的学生其实是非常相似的(例如69分没通过和70分通过的学生),也就是说,其他的非观测因素已经被控制住了。所以,既然没有干扰因素的影响,如果我们有足够的用户在70分附近的这个狭窄的范围内,我们可以使用这个截断点来估计通过课程对收入的因果影响。
用到的R代码:
    RDD可以图形显示如下:

3






倍差法(Difference-in-Difference,DID)


倍差法也可以理解为差异中的差异法,最简单的方式是比较实验组和对照组之间在实验前后结果的差异。该方法的基本思路是将测试样本分为两组,一组是实验对象即“实验组”,一组是非实验对象即“对照组”。根据实验组和对照组在实验实施前后的相关信息,可以计算实验组在实验实施前后某个指标(如收入)的变化量(收入增长量),同时计算对照组在实验实施前后同一指标的变化量。然后计算上述两个变化量的差值(即所谓的“倍差值”)。
以定价示例。假设我们想知道应该提高价格还是降低价格来增加收入。如果价格弹性大于1,降低价格会增加购买量,从而增加收入;如果弹性小于1,提高价格将增加收入。那么 我们如何知道我们的价格弹性呢?
最直接的方法是对价格进行A/B测试。但我们是否愿意进行定价A/B测试,则取决于我们平台的性质、开发阶段以及用户的敏感性。如果价格变化对我们的用户来说很容易察觉,例如他们会在网站上或在现实生活中相互交流,那么价格测试很可能会给我们带来风险。因为定价上的差异会降低用户的信任度,在某些情况下甚至会导致负面的公关风暴。
这时候,A/B测试的一个不错的替代方法是将准实验设计与因果推理方法相结合,我们选择使用倍差法。
我们选择更改某些地理区域(例如州或国家/地区)的价格,而不更改其他地理区域的价格。这些价格没有变化的地理区域为实验提供了自然的“控制”。通过比较“控制”地区和非“控制”地区更改价格前后的收入变化,我们可以较为准确地估计出价格变化对收入的因果影响。

4






固定效应回归法(Fixed Effects Regression)


固定效应回归法是控制回归法的一种特殊类型,通过在模型中纳入个体效应固定项以及时间效应固定项控制非观测因素。要怎么理解呢?假设我们要研究基本药物政策对基本药物供应保障的影响。回归模型可以这样设计:Y为“药品在不同医疗机构的配送率”,X为因变量“是否为基本药物”。当然,我们知道,其他因素例如药品本身属性(是否容易保存、生产规模等)以及医疗机构本身属性(机构级别、地理位置等)都会对药品的配送率Y产生影响,但是在面板数据(Panel Data)中,我们可以把这些因素“打包”全部放在个体固定效应项中,这些因素只随个体改变而不随时间改变。
同理,宏观政策环境也会对药品配送产生影响,而这类因素只随时间改变而不随个体改变,所以也可以“打包”放进时间固定效应项中。在固定效应模型的估计中,这些固定因素都是可以抵消的(原理类似于一阶差分),所以因变量X“是否为基本药物”系数的参数估计就是政策的直接效果,也就是因果效应了。

5






工具变量法(Instrumental Variable,IV)


工具变量(IV)方法可能是我们最喜欢的因果推断方法。还记得我们一开始的问题吗?我们想估计X对Y的因果影响,但存在既与X又与Y相关的干扰变量C,使得我们判断X和Y的因果关系时出现误差。要想解决这个问题,我们想做的就是找一个过滤器,把X中和C相关的部分过滤掉,只剩下正交的部分。工具变量法就是实现这样一个过滤作用的方法。
引入一个新的工具变量Z,它具有以下性质:
(1)强第一阶段:Z的变化与 X的变化相关
(2)排除限制的第二阶段:除了Z会间接的通过影响 X来影响 Y之外,Z的变化不会导致 Y的变化
关系如下图所示:

用到的R代码:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存