其他
5种必备的计量经济学因果推论方法
来源:学术无界,资料来源于MarTechCareer
不管建立什么模型时我们最常见的两个字母恐怕就是X和Y了,而X和Y又存在着某种联系,所以我们才可以根据自己的研究内容建立不同的模型。
如果想知道输入X对结果Y的因果影响,但是可能存在一些既影响X又影响Y的干扰变量C,使得我们判断X和Y的因果关系时出现误差。而这种误差在统计学中被称为变量遗漏误差(Omitted Variable Bias)。下面介绍五种可以帮助我们绕过干扰变量并准确估计因果关系的计量经济学方法。
1
控制回归法(Controlled Regression)
假设我们想要了解一个现有产品特性的影响,例如在线聊天使用对产品销量的影响。首先我们要搞清楚了解这个影响的目的:如果在线聊天的影响大到足以抵消成本,我们可能会扩展在线聊天功能来提高利润;反之,我们就不太会扩展功能,甚至可能为了节省成本而舍弃它。
我们很容易发现聊天使用量与用户级销量间存在正相关关系(也就是原始相关性),于此同时,我们也感觉到可能会有一些干扰变量。比如说,年轻人会更多地使用在线聊天且愿意为聊天付费,因为他们比其他人更适应这种聊天技术。
由于年轻人与在线聊天使用量和销售量都呈现正相关关系,所以直接对聊天使用量和销售量进行回归会夸大它们之间的因果关系。因此,我们可以通过控制年龄,再对聊天使用量和销售量进行回归以获得更加准确的因果关系估计。
用到的R代码:
2
断点回归设计法(Regression Discontinuity Design,RDD)
假设我们想估计通过一门技术课程对收入的影响。由于存在一些非观测因素与通过课程和收入都相关(例如先天能力和内在动机),因此使用控制回归法是不够准确的。
在这种情况下,我们可以设置一个及格“门槛”来给用户0分类:系统判定成绩在70分或以上的用户为通过,而成绩在70分以下的用户则为不通过。假设在截断点70分附近有一个极度狭窄的区间,并且假设分数是连续的,那么分数落在这个区间内的学生其实是非常相似的(例如69分没通过和70分通过的学生),也就是说,其他的非观测因素已经被控制住了。所以,既然没有干扰因素的影响,如果我们有足够的用户在70分附近的这个狭窄的范围内,我们可以使用这个截断点来估计通过课程对收入的因果影响。
用到的R代码:
3
倍差法(Difference-in-Difference,DID)
以定价示例。假设我们想知道应该提高价格还是降低价格来增加收入。如果价格弹性大于1,降低价格会增加购买量,从而增加收入;如果弹性小于1,提高价格将增加收入。那么 我们如何知道我们的价格弹性呢?
最直接的方法是对价格进行A/B测试。但我们是否愿意进行定价A/B测试,则取决于我们平台的性质、开发阶段以及用户的敏感性。如果价格变化对我们的用户来说很容易察觉,例如他们会在网站上或在现实生活中相互交流,那么价格测试很可能会给我们带来风险。因为定价上的差异会降低用户的信任度,在某些情况下甚至会导致负面的公关风暴。
这时候,A/B测试的一个不错的替代方法是将准实验设计与因果推理方法相结合,我们选择使用倍差法。
我们选择更改某些地理区域(例如州或国家/地区)的价格,而不更改其他地理区域的价格。这些价格没有变化的地理区域为实验提供了自然的“控制”。通过比较“控制”地区和非“控制”地区更改价格前后的收入变化,我们可以较为准确地估计出价格变化对收入的因果影响。
4
固定效应回归法(Fixed Effects Regression)
同理,宏观政策环境也会对药品配送产生影响,而这类因素只随时间改变而不随个体改变,所以也可以“打包”放进时间固定效应项中。在固定效应模型的估计中,这些固定因素都是可以抵消的(原理类似于一阶差分),所以因变量X“是否为基本药物”系数的参数估计就是政策的直接效果,也就是因果效应了。
5
工具变量法(Instrumental Variable,IV)
引入一个新的工具变量Z,它具有以下性质:
(1)强第一阶段:Z的变化与 X的变化相关
(2)排除限制的第二阶段:除了Z会间接的通过影响 X来影响 Y之外,Z的变化不会导致 Y的变化
关系如下图所示:
用到的R代码: