经典重温 | 学好大数据时代的计量经济学,劝你学学机器学习!
点击蓝字 关注我们
Hal Varian是何许人也?他是加州大学伯克利分校的教授,著名经济学家。而更为惊艳的是,他曾是Google的首席经济学家、Google Adsence的设计者。如果你没听说过Google Adsence,那么你听说过“羊毛处在猪身上、狗来买单”这个有趣的理论吗?你了解“注意力经济”吗?你读过《信息规则》吗?你知道免费的互联网产品怎么挣钱吗?没错,Hal Varian就是Google按点击付费广告模式的设计者、是后来所有消费互联网商业模式的开创人。他被称为Google的“摇钱树”,他设计的商业模式被称为“史上最成功的商业理念”。
听到这里,如果你把Hal Varian和现在的“网红经济学”“鸡汤经济学”相提并论,那可就大错特错了。Varian在经济学领域是一位建树颇丰的著名学者,今天要向大家介绍的,是他在2014年发表的一篇经典文章“Big Data: New Tricks for Econometrics”(The Journal of Economic Perspectives (28:2), pp. 3-27.)。
首先声明,不是标题党,题目是Hal Varian在文章开篇提出的观点↓
当前,计算机参与了许多经济交易,能够捕获与这些交易相关的数据,并对这些数据进行操作。通常,诸如此类分析是利用常规的统计和计量经济学方法,如回归分析,这些方法具有一定的普适性,但对于一些大数据特有的问题,可能需要不同的工具进行处理。首先,数据规模的扩大需要引入更强大的数据操作工具;其次,大数据让我们面临着更多的潜在预测因子,因此我们需要进行某种类型的变量选择;第三,大型数据集可能存在超越线性模型的复杂关系,而机器学习技术,如决策树、支持向量机、神经网络、深度学习等,能够更有效地针对复杂关系建模。
计量经济学与机器学习
计量和统计学主要关注四个方面:预测、总结、估计和假设检验,数据科学侧重预测和总结,也涉及数据处理、可视化等,计量经济学关注因果关系,会遇到内生性等问题。而机器学习主要关注预测,尽管会遇到“过度拟合”(overfitting)的困扰,但可以关注到计量和统计中样本以外的数据。
计量经济学家、统计学家和数据挖掘专家通常都在寻找可以从数据中提取的见解。机器学习专家通常主要关注开发高性能的计算机系统,这些系统可以在具有挑战性的计算约束条件下提供有用的预测。数据科学是一个比较新的术语,它既涉及预测和总结,也涉及数据操作、可视化和其他类似的任务。值得注意的是,这些领域的术语不是标准化的,所以这些描述反映的是一般用法,而不是严格的定义。其他用于描述计算机辅助数据分析的术语包括知识提取、信息发现、信息收获、数据挖掘、数据模式处理和探索性数据分析。
线性关系与非线性关系
计量经济学家关注于检测和总结数据中的关系,最常用的总结工具是(线性)回归分析。而机器学习提供了一套工具,可以有效地总结数据中的各种非线性关系。
在统计预测问题最一般的公式中,我们感兴趣的是在给定一些其他变量x = (x1,……,xp )。如果我们想要一个点的预测,我们可以使用条件分布的平均值或中值。
在机器学习中,x变量通常被称为“预测器”或“特征”。机器学习的重点是找到一些函数,能够很好地预测y作为x的函数。历史上,机器学习的大多数工作都涉及到横截面数据,这很自然地认为数据是独立和相同分布(IID)或至少是独立分布的。数据可能是“胖”的,这意味着相对于观测的数量有很多预测,或者是“高”的,这意味着相对于观测的数量有很多观测。
我们通常有一些关于y和x的观测数据,并且我们希望在给定x的新值的情况下计算出对y的“良好”预测。通常,“好”意味着使某些损失函数最小化,如残差平方和、残差绝对值的均值等。当然,相关的损失是与x的新样本外观测有关,而不是用于拟合模型的观测。
当遇到这类预测问题时,经济学家会立即想到线性或逻辑回归。但是,可能有更好的选择,特别是在有大量数据可用的情况下。这些方法包括非线性方法,如分类和回归树(CART)、随机森林、惩罚回归(如LASSO、LARS)和弹性网。其他的技术,比如神经网络、深度学习和支持向量机,这篇综述中没有涉及。
过度拟合问题
我们预测的目标通常是获得好的样本外预测。根据经验,我们大多数人都知道,构建一个样本内运行良好、样本外却失败得一塌糊涂的预测器太容易了。举一个简单的例子,n个线性独立回归函数将完美地符合n个观察值,但通常会有较差的样本外性能。机器学习专家将这种现象称为“过拟合问题”,并提出了几种解决方法。
首先,由于更简单的模型往往更适合样本外预测,机器学习专家提出了各种方法来惩罚过于复杂的模型。在机器学习领域,这被称为“正则化”,下文将描述一些例子。出于同样的原因,经济学家往往倾向于更简单的模型,但他们对量化复杂性成本没有那么明确。
其次,为了训练、测试和验证的目的,通常将数据分成单独的集。使用训练数据估计模型,使用验证数据选择模型,使用测试数据评估所选模型的性能(验证集和测试集通常是结合在一起的)。
第三,如果我们有一个明确的模型复杂性的数值度量,我们可以把它看作一个参数,它可以被“调优”以产生最好的样本外预测。为这样的调优参数选择一个好的值的标准方法是使用k倍交叉验证。
1.将数据分成k个大致相等的子集(折叠),用s = 1,…,k标记它们。从子集s = 1开始。
2.为调优参数选择一个值。
3.使用子集s以外的k−1子集来适合您的模型。
4.预测子集并测量相关的损失。
5.如果s = k则停止,否则s增加1 = >步骤2。
k的常见选项是10、5,样本容量减1(不包括1)。在交叉验证之后,最终得到了调优参数的k个值和相关损失,然后可以检查这些值,为调优参数选择一个合适的值。即使没有调优参数,也要谨慎地使用交叉验证来报告拟合优度度量,因为它度量的是样本外的性能,通常比样本内的性能更有意义。
测试训练周期和交叉验证在机器学习中非常常用,特别是在处理大型数据集时。多年来,经济学家一直以我们的数据集很小为借口,报告样本内的拟合良好度。但是现在更大的数据集已经可用,没有理由不使用单独的训练集和测试集。交叉验证也是一种非常有用的技术,特别是在处理相当大的数据时,它也是一种比经济学中常用的指标更现实的预测绩效指标。
机器学习的优势:以泰坦尼克号幸存者预测为例
什么样的人更有可能在泰坦尼克号沉船事件中幸存?当我们分析一件事情是否发生以及发生概率的时候,机器学习的方法是采用分类和决策树分析(Classification and regression trees,简称CART),而计量上通常用logit或probit回归。现在我们以幸存者预测为例,看一下两种方法的差别。
把船上的乘客按照舱位等级和年龄进行分类(舱位分一、二、三等,一等最好,三等最差),得到决策树(Tree model):
最上面一层把乘客按照舱位分开,左边是三等舱,右边是一等和二等。三等舱(很有可能穷人居多)死亡概率较高,501个人中有370个遇难。接下来把右边一等和二等的乘客按照年龄分类,左边是大于等于16岁的,右边是小于16岁的儿童。先看儿童,这类人群的幸存概率很高,36个人中有34个都活下来了。左边把年龄16岁及以上的人又分为两类,左边的二等舱和右边的一等舱,二等舱233人中有145人遇难,一等舱276个成年人中174人幸存下来。估算可得,四类人从左到右的幸存概率分别是26%、37%、63%和94%。所以在泰坦尼克沉船时,儿童和一等舱的人容易活下来。
接下来分析一下乘客的年龄分布,下图是各年龄段的幸存概率以及置信区间:
从图中可以看出,10岁左右的儿童和60岁左右的人幸存概率更高。
如果用传统的计量方法分析,会得到什么结果呢?作者用 logit 模型回归了一下,解释变量是年龄,被解释变量是幸存(1),结果如下:
年龄(age)与幸存为显著的负相关,即年龄越小越可能在沉船时活下来,但是系数太小,影响很弱。总结这两种方法,是否幸存并不取决于年龄,而是乘客是否是儿童或者60岁左右的人,这一点在回归分析中无法反映出来。
上面这个例子比较简单,但比较清楚地解释了机器学习和计量的差别:机器学习更加关注相关性和预测,所以得出的结论是某个年龄段的人群幸存率更高。而计量更加关注因果关系,根据上面的 logit 模型,很难说是年龄导致了幸存,很明显还有很多其他变量没有被考虑进去,比如个人体质等,或许年龄根本就不是计量经济学家在这里主要考察的变量,而且如果加入交叉项也许会有新的结论,所以简单地说就是模型设定的问题。具体哪种方法更好,还要看具体研究的问题是什么。
总结
由于现在许多经济交易都涉及计算机,大数据只会越来越大,为小型数据集开发的数据处理工具和技术将越来越不足以处理新问题。机器学习的研究人员已经开发出了处理大型数据集的方法,对处理这些数据感兴趣的人可以多多学习这些相关技术。
至于具体的建议,Hal Varian提到的Hastie、Tibshirani和Friedman(2009)详细描述了这里讨论的所有方法,但只是在相对高级的水平上。James, Witten, Hastie和Tibshirani(2013)在本科水平描述了许多相同的主题,以及R代码和许多例子(书中有几个经济学例子,预测模型和因果推断之间的矛盾显而易见)。Murphy(2012)从贝叶斯的角度研究了机器学习。Venables和Ripley(2002)对这些主题进行了很好的讨论,并着重于应用实例。Leek(2013)展示了一些YouTube视频,并介绍了一些数据分析工具。Howe(2013)提供了一些更高级的数据科学介绍,还包括SQL和NoSQL数据库的讨论。Wu和Kumar(2009)对数据挖掘中的主要算法进行了详细的描述和示例,Williams(2011)提供了一个统一的工具包。Domingos(2012)总结了一些重要的教训,包括“要避免的陷阱,要关注的重要问题和常见问题的答案”。
上述建议中提及的书籍和文章,图小灵已经为大家整理成了学习大礼包,对计量经济学和机器学习感兴趣的小伙伴们,可以点击下方进行下载!整理不易,感谢大家支持!