学术前沿丨当计量经济学遭遇机器学习（三）：高维回归之岭回归

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

——接上期

高维回归的源起

除了因果推断与处理效应，机器学习中将对计量经济学产生重大影响的另一方法为 “高维回归”（high dimension regression），比如 LASSO 系列的惩罚回归方法。这类方法有望在不久的将来渗透到计量经济学的众多领域。

大数据的一种表现形式为 “高维数据”（high dimensional data），即变量个数（p）大于样本容量（n）。这种情形有时也称为 “data-rich environment”。高维数据大约最早出现于 “生物统计”（biostatistics）领域。

比如，某项研究收集了 100 位病人的信息，其中每位病人均有 5 万条基因的数据。受成本限制，样本容量 n=100 很难再扩大，而变量个数 p 则远远大于样本容量。如此之多的变量自然提供了更多的信息，但同时也为回归估计带来了新的挑战。

经济学有高维数据吗？

在介绍高维回归之前，首先要回答的问题是，经济学有高维数据吗？如果没有或很少见，或许就没必要太关心。事实上，经济学不仅有高维数据，而且越来越多。

大致来说，经济学中出现高维数据主要有以下两种情形。👇

情形一：数据本身可能就是高维的。比如，人口普查、工业调查或家庭调查数据，通常包括每位个体的数百个变量。而交易层面的数据（包括网购与零售扫描数据）、社交媒体的数据、以及文本挖掘的数据，其变量则一般成千上万，甚至更多。

情形二：尽管原始变量（raw variables）不多，但我们通常不知道这些变量应以怎样的函数形式（functional form）进入回归方程。为了解决潜在非线性，研究者可能加入原始变量的平方项、交互项（interaction terms）、甚至更高次项，以及其他变换（比如取对数），使得最终变量的个数大大增加。

其实，情形二在计量经济学中一直存在，但在高维回归发明之前，并没有很好的解决方法，故一般限制回归方程为线性模型，仅偶尔从经济理论或 “直觉” 出发，加入个别变量的平方项或交互项。使用高维回归的工具，则不仅可以加入足够多的高次项，还可以系统地甄别哪些高次项真正起作用，而不仅仅依赖于研究者的 “直觉”。

高维回归的挑战

高维回归的最大挑战是很容易出现“过拟合”（overfit）。这是因为，对于p>n的高维数据，可以用来解释 y 的 x 很多，如使用传统的 OLS 回归，虽可得到完美的样本内拟合（in-sample fit），但外推预测的效果可能很差。

作为一个启发性例子，不妨假设 n=p=100。此时，即使这100个解释变量 x 与被解释变量 y 毫无关系（比如，相互独立），但将 y 对 x 作 OLS 回归，也能得到拟合优度

的完美拟合。这是因为，根据线性代数的知识，一个100维的向量组，其最大可能的秩为100。换言之，如果所有100个 x 向量均线性无关，则第101个向量（即 y）一定可以由这100个 x 向量所线性表出。

另一方面，如果这些 x 均与 y 相互独立，则由此样本估计的回归函数，将毫无外推预测的价值，尽管其样本内的拟合达到了完美的程度。这种拟合显然过度了（故名 “过拟合”），因为它不仅拟合了数据中的信号（signal），而且拟合了数据中的噪音（noise）。在此极端例子中，由于数据全是噪音并无信号，故 OLS 完美地拟合了数据中的噪音，自然毫无意义。

严格多重共线性是家常便饭

在 p<n 的传统计量经济学中，严格多重共线性（strict multicollinearity）较为少见；而即使出现，也不是大问题，只要将多余的变量去掉就行（具体去掉哪个变量并不重要）。

然而，在 p>n 的高维数据中，严格多重共线性却成为家常便饭。比如，任意 n+1个变量之间，一般就存在严格多重共线性，以此类推。此时，简单地去掉导致严格多重共线性的变量将无济于事，因为可能需要扔掉很多变量（想想100个病人，5万个基因变量的例子），难免将婴儿与洗澡水一起倒掉。

事实上，对于 p>n 的高维数据，OLS 一般没有唯一解，因为任意线性无关的 n 个变量 x，均可完美地解释 y。此时，可将 OLS 估计量的方差视为无穷大，因为 OLS 估计量的方差表达式为

（其中，

为 nxp 的数据矩阵，其每列均为解释变量），而在严格多重共线性的情况下，

并不存在。

岭回归

作为高维回归的方法之一，岭回归（ridge regression）最早由 Hoerl and Kennard (1970) 提出，其主要出发点正是为了解决多重共线性。

在传统的低维回归（low dimension regression），虽然严格多重共线性很少见，但不完全的多重共线性却不时出现，即解释变量 x 之间虽然不完全相关，但相关性却很高。此时，矩阵

变得几乎不可逆，导致 OLS 估计量的方差

变得很大。

岭回归的解决方法为，在矩阵

的主对角线上都加上常数

，使所得矩阵

变得 “正常”（其中，

为单位矩阵）。

具体来说，相对于 OLS 估计量

，岭回归估计量为

由此可知，岭回归只是在 OLS 表达式中加入了 “山岭”

，故名 “岭回归”。

由于 OLS 估计量是无偏（unbiased），故凭空加上此 “山岭” 之后，所得的岭回归估计量其实是有偏的（biased）。但在多重共线性的情况下，OLS 估计量的方差太大，而岭回归则可减小方差，使得岭回归估计量的均方误差（MSE）可能更小（因为均方误差等于方差加上偏差平方）。

岭回归究竟有什么理论依据呢？其实，可将岭回归估计量看成以下最小化问题的最优解，其目标函数为残差平方和（SSR），再加上一个惩罚项（惩罚太大的参数向量）：

其中，

为 “微调参数”（tuning parameter），控制惩罚（penalty）的力度，通常使用 “交叉验证”（cross validation）来确定（即选择

使得模型的预测误差最小）。

为参数向量

的2-范数（L2 norm），即该向量的长度

。求解此最小化问题，从其一阶条件，不难得到上述岭回归估计量的表达式。

岭回归的几何解释

一般来说，与OLS估计量相比，岭回归估计量更为向原点收缩，是一种 “收缩估计量”（shrinkage estimator）。这可以从几何上得到解释。首先，岭回归的目标函数可以等价地写为一个有约束的极值问题：

其中，

为某常数。对于此约束极值问题，可引入拉格朗日乘子函数，并以

作为其乘子，即可得到前述的岭回归目标函数。由于约束集

为 p 维参数空间中的圆球，故可将此约束极值问题图示如下（假设 p=2）。

在上图中，

为 OLS 估计量，围绕

的椭圆为残差平方和（SSR）的 “等高线”，而灰色的圆球则为约束集（可行的参数取值范围）。岭回归估计量即为椭圆等高线与圆球约束集相切的位置。

从上图可直观地看出，岭回归为收缩估计量，一般比 OLS 估计量更向原点收缩，故是有偏估计（因为 OLS 是无偏估计）。正因为如此，虽然岭回归早在1970年就出现，但在低维回归的时代一直未引起重视，其原因或许在于多数人还是更喜欢无偏的 OLS 估计量（Who wants to be biased?）。

然而，在高维回归的情况下，严格多重共线性成为常态，OLS 不再有唯一解，而岭回归不仅总能得到唯一解，还可降低方差、缓解过拟合，其重要性才日益凸显。

岭回归的局限性

然而，岭回归也有局限性。从上图还可看出，由于约束集为圆球，故等高线与约束集相切的位置一般不会碰巧在坐标轴上，故通常只是将所有的回归系数都按某种比例收缩，而不会让某些回归系数严格等于 0。

在这种情况下，由于高维回归的变量很多，如果所有变量的系数都非零，将使得模型的解释变得很困难（如何同时考察 5 万个回归系数？）。我们通常期望从 5 万个基因中，能够找到真正影响疾病为数不多的基因。换言之，我们一般期待真实模型是稀疏的（sparse model）。因此，希望找到一个估计量，能挑选出那些真正有影响的基因，而让其他无影响或影响微弱基因的回归系数严格为 0。

为此，套索估计量（LASSO）应运而生，自 Tibshirani (1996) 提出 Lasso之后，很快成为大数据时代炙手可热的新宠，将在下期推文中继续介绍。

（未完待续，更多精彩，敬请关注）

►往期推荐

回复【Python】👉 简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉 你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看

►一周热文

工具&方法 | 6张卡片，2分钟，轻松掌握R命令大集合（推荐收藏备用）

特别推荐丨老姚专栏：理解工具变量的工具——需求定律

工具＆方法丨经生小白会敲代码，还会写爬虫防坑指南

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

作者：陈强出处：计量经济学及Stata应用推荐：杨奇明编辑：青酱

欢迎扫描👇二维码添加关注

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价