查看原文
其他

机器学习丨Why Machine Learning: 我应该学机器学习吗?

数据Seminar 2021-06-04

The following article is from 计量经济学及Stata应用 Author 陈强


“机器学习”(Machine Learning)无疑越来越多地出现于媒体与我们身边。机器学习究竟是什么?对于经管或社科类的学者或学生,一个重要的问题是,“我应该学机器学习吗”?换言之,不掌握机器学习的机会成本是什么?本文就以问答的形式来回答这些问题。


Q

什么是机器学习?

简单说,机器学习就是让机器(计算机)具备从数据中自主学习的能力。它的反面就是“硬编码”(hard coding)。假设你想写一个程序,让计算机识别正常邮件与垃圾邮件。硬编码的方法就是,由人类写下判别垃圾邮件的规则,再告诉计算机。此时,计算机并不学习,只是严格执行人类的死板分类规则。可以想象,硬编码的效果不会太好,因为人类虽可直观判定垃圾邮件,但并不知道自己是怎么做到的。
反之,机器学习的方法则给予计算机大量的邮件,经过人类事先标注为垃圾邮件或正常邮件,然后让计算机找出这两类邮件的差异规律(比如不同词的词频差异),并用学到的规律(其实就是一个函数映射,即从词频到邮件类别的映射)对新邮件进行分类。



Q

机器学习与统计学或计量经济学的主要区别是什么?

机器学习、统计学或计量经济学都想估计出一个从 (向量) 到  的函数映射,即  。主要区别在于,统计学与计量经济学一般更关注参数估计量  ,因为它通常可用来解释  对  的影响(比如,对于线性回归模型, 就是边际效应)。另一方面,机器学习主要关注 ,其成功标准一般用预测的准确率来衡量。比如,在使用计算机识别手写体数字时,一般只关心算法的准确率,并不在乎究竟是哪些像素导致了计算机将图像归类为“5”而不是“6”。 



Q

为什么机器学习这么“火”?

A由于机器学习专注于预测,故在业界有很多应用。特别是最近二、三十年来,机器学习(包括深度学习)发展很快,预测错误率不断下降(特别在图像识别,自然语言处理领域)。对于很多问题,机器学习的预测错误率可能比传统的统计或计量方法低一个数量级,比如前者的错误率为1%,而后者的错误率为10%。原因之一是,传统的统计或计量经济学十分强调模型的可解释性(interpretability),故大量使用线性模型,而现实世界一般为非线性。



Q

既然机器学习的优势在于预测,而我作为经管或社科类的学者,只关心因果推断,有必要学机器学习吗?

事实上,因果推断的本质也是预测问题。根据鲁宾的因果模型(Rubin's Causal Model),因果效应通过“潜在结果”(potential outcome)来定义,即政策实施后的“观测结果”(observed outcome)与政策如果未实施的“反事实结果”(counterfactual outcome)之差。显然,反事实结果不可观测,故只能在一定假设之下进行估计与预测。



Q

目前机器学习在计量经济学中有哪些应用?未来的发展趋势如何?

迄今为止(尤其是最近十年),机器学习已经在计量经济学中掀起了两波应用的浪潮。第一波浪潮为MIT的Chernozhukov教授等将Lasso系列的惩罚回归(penalized regression)方法引入计量经济学,提出了post double selection lasso,IV lasso,double machine learning等适用于因果推断的机器学习方法。
第二波浪潮为Stanford的Susan Athey教授等将基于决策树(tree-based)的机器学习方法引入计量经济学,提出了causal tree,causal forest,local linear forest与generalized random forest等方法(不少论文刚发表或仍为工作论文)。
在可预见的将来,机器学习方法将加速融入计量经济学,成为计量经济学的重要组成部分,尤其在非参数与半参数估计领域。这是因为,传统统计与计量的非参方法主要为基于核(kernel)的局部回归(local regression),很难推广到高维(因为存在维度灾难,curse of dimensionality),而机器学习方法(比如基于决策树的随机森林、梯度提升法等)在高维空间依然适用,而且预测准确率更高。


Q

作为经管或社科类的学者或学生,我应该学机器学习吗?

在几年前,如果你知道Lasso,说明你是先进的;但现在已经很难这么说了。再过几年,如果你还不知道Lasso,则可能说明你是落后的,因为关于Lasso的知识正在加速普及。
类似地,如果你现在就知道随机森林(random forest),说明你是先进的;……。在科研的道路上,抢占先机无疑十分重要。你的选择决定了你究竟是先知先觉,还是后知后觉……这就是不掌握机器学习的机会成本。



Q

我是文科生,能学会机器学习吗?

如果你学过统计学或计量经济学,应该很容易上手机器学习。在某种意义上,机器学习比计量经济学更简单。机器学习主要关心“算法”(algorithm),所用数学基本上就是最优化(optimization),并不使用统计学或计量经济学那些复杂的渐近理论(asymptotics)。而且有些传统的统计与计量方法,本身也是机器学习的常用方法,比如OLS、Logit、多项Logit等,这些你本来就会啊。





结语这是一个令人激动的时代。人工智能与机器学习正在深刻地改变着几乎每个行业与学科(包括计量经济学),而机器学习无疑正是未来世界的一块重要柱石。

___________________________________

参考文献

陈强,《计量经济学及Stata应用》,高等教育出版社,2015年

陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年

陈强,《机器学习及R应用》,高等教育出版社,2020年(即将出版)












►一周热文

数据呈现丨R画树状图:一种轻量级方法

因果推断丨中国学者用双重差分做了哪些工作?

数据呈现丨R语言相关关系可视化函数梳理

数据呈现丨R语言可视化学习笔记之gganimate包

统计计量丨工具变量法(四):GMM

软件应用丨经济学专业学习Python之数据存储篇

软件应用丨38个常用Python库:数值计算、可视化、机器学习等8大领域都有了













数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱











    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存