学术前沿丨当计量经济学遭遇机器学习(二):因果推断与预测
The following article is from 计量经济学及Stata应用 Author 陈强
接上期——
计量经济学 vs. 机器学习
计量经济学家对于 Machine Learning 的学习框架似乎并不陌生。纵观计量经济学在过去大几十年的发展史,我们不是也念兹在兹地想估计这么一个函数
主要原因就在于二者的目标不同。计量经济学的主要目标在于 “因果推断”(causal inferences),即推断
为了识别并便于解释此因果关系,经济学家通常需要对
总之,经济学家关注的重点就是
另一方面,机器学习的主要目标在于 “预测”(prediction),即根据
对于机器学习而言,即使有
计量经济学错过了大数据与ML革命?
在Quora上曾有个帖子,题为 “Why is the study of econometrics isolated from the big data/machine learning revolution”?似乎计量经济学已经错过了大数据与机器学习的革命。
这或许有些言过其实或耸人听闻。但时至今日,大多数计量经济学家与实证研究者对于机器学习依然兴趣不大,或许却是不争的事实。为什么会这样呢?
因果推断与预测
—— 二者关系之紧密超出你的想象
根本原因仍然在于计量经济学的研究目的与机器学习不同。简而言之,计量经济学的主要目的为 “因果推断”(causal inferences);而机器学习的主要目的为 “预测”(prediction),比如 “监督学习”(supervised learning)。
众所周知,做预测其实仅需要变量之间的相关关系即可,并不一定需要因果关系。比如,你看到街上有些人带伞,就可以预测可能下雨;但人们带伞显然并不导致下雨。
因此, 虽然机器学习的预测方法具有很高的商业价值,应用广泛;但经济学家可能认为,“预测得再好,与我有什么关系呢,我只关注因果关系啊?” 尽管因果关系不见得带来商机,但它有学术价值与社会意义,比如研究扶贫政策的效应。即使不赚钱,也有高尚的动机啊……
然而,认为因果推断不需要预测,这其实是一个常见的误解。事实上,因果推断的本质恰恰是在做预测。比如,一个地区 A 实施了扶贫政策,你想评估此政策的效应。此时,A 地区扶贫之后的状态可以度量,但最关键的信息却不可观测,即 A 地区如果没有实施扶贫会怎么样?对于这种反事实的结果(counterfactual outcome),就只能进行估计或预测。这也正是 “鲁宾因果模型”(Rubin's Causal Model)的核心思想。
具体来说,一种可能的方法是找到一个没有实施扶贫的地区 B,它与实施扶贫的地区 A 在各个方面都十分接近,但却由于某种偶然原因而未得到扶贫。此时,就可以使用未扶贫地区 B 的结果来预测扶贫地区 A 如果未扶贫的反事实结果。这就是 “匹配估计量”(Matching Estimator)的基本思想。
不难看出,既然机器学习特别擅长预测,那么计量经济学中的预测问题,在不久的将来会越来越多地使用机器学习的方法,尤其是在 “处理效应”(treatment effects)的领域。
比如,在使用 “倾向得分匹配”时(Propensity Score Matching),其第一阶段为计算倾向得分(即个体得到处理或实施政策的概率),其本质就是一个预测问题,并不涉及因果关系。因此,只要预测精确度高,就可以使用各种 ML 的方法,为何非要使用 Logit 呢?
又比如,在进行二阶段最小二乘法回归时(2SLS),其第一阶段回归在本质上也是一个预测问题,即找到与内生变量最为相关的工具变量组合。因此,也可以在第一阶段回归使用 ML 的方法,尤其当工具变量很多时(参见 MIT 教授 Victor Chernozhukov 等的最新研究)。
有些重要预测也离不开因果推断
看来,机器学习会在未来一定程度上 “入侵” 计量经济学。反之,计量经济学是否也可以对机器学习有所贡献呢?当然可以!
当 Susan Athey 刚到微软当首席经济学家时,微软的机器学习大咖们也并不把她当回事。他们以为,纵然你是著名经济学家,但机器学习的大数据预测,也用不上你的经济理论啊。不久他们就发现错了……有些重要的预测问题还真离不开 Susan 所带来的因果推断方法。
Susan Athey 年初在 MIT 演讲
例如,你想知道某个公司政策的效应,比如将排名第一的搜索结果放到排名第三,预测将会对其点击量有多少影响?此预测其实是在估计该公司政策的因果效应,故单纯基于相关关系的机器学习方法可能无济于事。
又比如,你想预测宾馆房价对入住率的影响。假设从 hotels.com 收集了关于宾馆入住率与房价的大量数据。如果直接根据二者的相关关系进行预测,会发现宾馆入住率与房价显著正相关。但这显然不是因果关系,因为在旅游旺季,宾馆爆满而房价也高;反之,在旅游淡季,宾馆空房而房价也低。显然,若根据机器学习的预测结果,天真地建议宾馆为了增加入住率而提高房价,无疑将南辕北辙。
由此可知,考察公司政策效应的这一类重要预测问题,其本质上是在做因果推断,故必须使用反事实的分析框架(counterfactual framework)才能得到可信的结果。
为此,Susan Athey 将因果推断的方法引入机器学习的决策树(decision tree),建立 “因果树”(causal tree)模型(Athey and Imbens, 2016, PNAS),在学界与业界均引起很大反响。据 Sudan 介绍,美国的那些电商巨头 tech firms 也开始关注因果推断了(中国电商也赶快行动吧)……
高维回归
除了因果推断与处理效应,机器学习将对计量经济学产生重大影响的另一方法为 “高维回归”(high dimension regression),比如 LASSO 系列的惩罚回归方法。这类方法有望在不久的将来渗透到计量经济学的很多领域,将在下期推文中继续介绍。
(未完待续,更多精彩,敬请关注)
►往期推荐
回复【Python】👉 简单有用易上手
回复【学术前沿】👉机器学习丨大数据
回复【数据资源】👉公开数据
回复【可视化】👉 你心心念念的数据呈现
回复【老姚专栏】👉老姚趣谈值得一看
►一周热文
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注