查看原文
其他

学术前沿丨当计量经济学遭遇机器学习(三):高维回归之岭回归

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

——接上期


高维回归的源起

除了因果推断与处理效应,机器学习中将对计量经济学产生重大影响的另一方法为 “高维回归”(high dimension regression),比如 LASSO 系列的惩罚回归方法。这类方法有望在不久的将来渗透到计量经济学的众多领域。
大数据的一种表现形式为 “高维数据”(high dimensional data),即变量个数(p)大于样本容量(n)。这种情形有时也称为 “data-rich environment”。高维数据大约最早出现于 “生物统计”(biostatistics)领域。
比如,某项研究收集了 100 位病人的信息,其中每位病人均有 5 万条基因的数据。受成本限制,样本容量 n=100 很难再扩大,而变量个数 p 则远远大于样本容量。如此之多的变量自然提供了更多的信息,但同时也为回归估计带来了新的挑战。


经济学有高维数据吗?

在介绍高维回归之前,首先要回答的问题是,经济学有高维数据吗?如果没有或很少见,或许就没必要太关心。事实上,经济学不仅有高维数据,而且越来越多。
大致来说,经济学中出现高维数据主要有以下两种情形。👇

情形一:数据本身可能就是高维的。比如,人口普查、工业调查或家庭调查数据,通常包括每位个体的数百个变量。而交易层面的数据(包括网购与零售扫描数据)、社交媒体的数据、以及文本挖掘的数据,其变量则一般成千上万,甚至更多。

情形二:尽管原始变量(raw variables)不多,但我们通常不知道这些变量应以怎样的函数形式(functional form)进入回归方程。为了解决潜在非线性,研究者可能加入原始变量的平方项、交互项(interaction terms)、甚至更高次项,以及其他变换(比如取对数),使得最终变量的个数大大增加。

其实,情形二在计量经济学中一直存在,但在高维回归发明之前,并没有很好的解决方法,故一般限制回归方程为线性模型,仅偶尔从经济理论或 “直觉” 出发,加入个别变量的平方项或交互项。使用高维回归的工具,则不仅可以加入足够多的高次项,还可以系统地甄别哪些高次项真正起作用,而不仅仅依赖于研究者的 “直觉”。


高维回归的挑战

高维回归的最大挑战是很容易出现“过拟合”(overfit)。这是因为,对于p>n的高维数据,可以用来解释 yx 很多,如使用传统的 OLS 回归,虽可得到完美的样本内拟合(in-sample fit),但外推预测的效果可能很差。
作为一个启发性例子,不妨假设 n=p=100。此时,即使这100个解释变量 x 与被解释变量 y 毫无关系(比如,相互独立),但将 yx 作 OLS 回归,也能得到拟合优度  的完美拟合。这是因为,根据线性代数的知识,一个100维的向量组,其最大可能的秩为100。换言之,如果所有100个 x 向量均线性无关,则第101个向量(即 y)一定可以由这100个 x 向量所线性表出。
另一方面,如果这些 x 均与 y 相互独立,则由此样本估计的回归函数,将毫无外推预测的价值,尽管其样本内的拟合达到了完美的程度。这种拟合显然过度了(故名 “过拟合”),因为它不仅拟合了数据中的信号(signal),而且拟合了数据中的噪音(noise)。在此极端例子中,由于数据全是噪音并无信号,故 OLS 完美地拟合了数据中的噪音,自然毫无意义。


严格多重共线性是家常便饭

p<n 的传统计量经济学中,严格多重共线性(strict multicollinearity)较为少见;而即使出现,也不是大问题,只要将多余的变量去掉就行(具体去掉哪个变量并不重要)。
然而,在 p>n 的高维数据中,严格多重共线性却成为家常便饭。比如,任意 n+1个变量之间,一般就存在严格多重共线性,以此类推。此时,简单地去掉导致严格多重共线性的变量将无济于事,因为可能需要扔掉很多变量(想想100个病人,5万个基因变量的例子),难免将婴儿与洗澡水一起倒掉。
事实上,对于 p>n 的高维数据,OLS 一般没有唯一解,因为任意线性无关的 个变量 x,均可完美地解释 y此时,可将 OLS 估计量的方差视为无穷大,因为 OLS 估计量的方差表达式为  (其中,nx的数据矩阵,其每列均为解释变量),而在严格多重共线性的情况下,并不存在。



岭回归

作为高维回归的方法之一,岭回归(ridge regression)最早由 Hoerl and Kennard (1970) 提出,其主要出发点正是为了解决多重共线性。
在传统的低维回归(low dimension regression),虽然严格多重共线性很少见,但不完全的多重共线性却不时出现,即解释变量 x 之间虽然不完全相关,但相关性却很高。此时,矩阵  变得几乎不可逆,导致 OLS 估计量的方差  变得很大。
岭回归的解决方法为,在矩阵  的主对角线上都加上常数 ,使所得矩阵  变得 “正常”(其中, 为单位矩阵)。
具体来说,相对于 OLS 估计量 ,岭回归估计量为
由此可知,岭回归只是在 OLS 表达式中加入了 “山岭” ,故名 “岭回归”。
由于 OLS 估计量是无偏(unbiased),故凭空加上此 “山岭” 之后,所得的岭回归估计量其实是有偏的(biased)。但在多重共线性的情况下,OLS 估计量的方差太大,而岭回归则可减小方差,使得岭回归估计量的均方误差(MSE)可能更小(因为均方误差等于方差加上偏差平方)。
岭回归究竟有什么理论依据呢?其实,可将岭回归估计量看成以下最小化问题的最优解,其目标函数为残差平方和(SSR),再加上一个惩罚项(惩罚太大的参数向量):
其中, 为 “微调参数”(tuning parameter),控制惩罚(penalty)的力度,通常使用 “交叉验证”(cross validation)来确定(即选择  使得模型的预测误差最小)。 为参数向量  的2-范数(L2 norm),即该向量的长度求解此最小化问题,从其一阶条件,不难得到上述岭回归估计量的表达式。


岭回归的几何解释

一般来说,与OLS估计量相比,岭回归估计量更为向原点收缩,是一种 “收缩估计量”(shrinkage estimator)。这可以从几何上得到解释。首先,岭回归的目标函数可以等价地写为一个有约束的极值问题:
其中, 为某常数。对于此约束极值问题,可引入拉格朗日乘子函数,并以  作为其乘子,即可得到前述的岭回归目标函数。由于约束集  为 p 维参数空间中的圆球,故可将此约束极值问题图示如下(假设 p=2)。
在上图中, 为 OLS 估计量,围绕  的椭圆为残差平方和(SSR)的 “等高线”,而灰色的圆球则为约束集(可行的参数取值范围)。岭回归估计量即为椭圆等高线与圆球约束集相切的位置。
从上图可直观地看出,岭回归为收缩估计量,一般比 OLS 估计量更向原点收缩,故是有偏估计(因为 OLS 是无偏估计)。正因为如此,虽然岭回归早在1970年就出现,但在低维回归的时代一直未引起重视,其原因或许在于多数人还是更喜欢无偏的 OLS 估计量(Who wants to be biased?)。
然而,在高维回归的情况下,严格多重共线性成为常态,OLS 不再有唯一解,而岭回归不仅总能得到唯一解,还可降低方差、缓解过拟合,其重要性才日益凸显。


岭回归的局限性

然而,岭回归也有局限性。从上图还可看出,由于约束集为圆球,故等高线与约束集相切的位置一般不会碰巧在坐标轴上,故通常只是将所有的回归系数都按某种比例收缩,而不会让某些回归系数严格等于 0。
在这种情况下,由于高维回归的变量很多,如果所有变量的系数都非零,将使得模型的解释变得很困难(如何同时考察 5 万个回归系数?)。我们通常期望从 5 万个基因中,能够找到真正影响疾病为数不多的基因。换言之,我们一般期待真实模型是稀疏的(sparse model)。因此,希望找到一个估计量,能挑选出那些真正有影响的基因,而让其他无影响或影响微弱基因的回归系数严格为 0。
为此,套索估计量(LASSO)应运而生,自 Tibshirani (1996) 提出 Lasso之后,很快成为大数据时代炙手可热的新宠,将在下期推文中继续介绍。
(未完待续,更多精彩,敬请关注)



►往期推荐

回复【Python】👉 简单有用易上手


回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉 你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一


►一周热文

工具&方法 | 6张卡片,2分钟,轻松掌握R命令大集合(推荐收藏备用)

特别推荐丨老姚专栏:理解工具变量的工具——需求定律

工具&方法丨经生小白会敲代码,还会写爬虫防坑指南




数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱




    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存