查看原文
其他

统计计量丨Back to Basics: OLS与内生性

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

计量经济学是什么?它与统计学有何区别?简单地说,统计学使用多种方法分析数据,而计量经济学则专精于回归分析(regression analysis),以揭示变量间的因果关系。普通最小二乘法(Ordinary Least Squares,简记 OLS)则是最基本、最常用的回归方法。何时可用 OLS?在实践中,一般只要满足两个条件即可,即线性模型、无内生性。



线性模型(Linear Model)

假设(解释)变量 x 对(被解释)变量 y 的作用为线性函数,可得一元回归方程: 

其中,α β 为待估计的未知参数,下标 i 表示个体 i(比如,第 i 个企业),ε 为随机扰动项(stochastic disturbance,包含除 x 外影响 y 的所有其他因素),而 n 为样本容量。如果担心 xy 的作用为非线性,可考虑加入 x 的平方项: 

只要将 x2 也视为一个变量,则上式依然为线性模型。事实上,线性模型的本质定义为,回归方程是参数 (α, β, γ) 的线性函数(linear in parameters)。当然,也可以加入更多的解释变量(即多元回归方程):




OLS估计量

OLS的思想很简单。对于一元回归,可根据数据 (x, y) 画形如以下的散点图:


OLS的思想就是要找到一条直线,离所有的点(观测值)最近。更一般地,对于多元回归,任给一个参数估计量:

 

可得对被解释变量 y 的预测值(fitted or predicted value): 

记此预测的误差为 “残差”(residual): 

我们希望所有的残差越小越好。但如果对残差求和则会出现正负抵消的情形;而如果考虑残差绝对值之和又不易求导数(绝对值函数有一处不可导)。为此,OLS通过选择最优的 ,以最小化残差平方和(Sum of Squared Residuals,简记 SSR):

由此所得的估计量,即为 “OLS估计量”(OLS estimator)。在几何上,可参见下图:
 




OLS的Stata操作

在 Stata 中,很容易进行 OLS 估计。比如,将 y x1, x2 与 x3 进行 OLS 回归,其 Stata 命令为:

regress xxx3, robust noconstant

其中,“regress” 的下划线表示可将 “regress” 简写为 “reg”,以此类推。选择项 “robust”表示使用(异方差)稳健标准误(建议总是使用此选择项),而 “noconstant” 表示省略常数项(很少使用此选择项)。
作为实例,使用Stata自带的系统数据集auto.dta,估计一个关于汽车的特征价格模型(hedonic pricing model),即假设汽车价格由其各项特征所决定(比如,每加仑英里数 mile per gallon、车重、车长等)。

. sysuse auto

(1978 Automobile Data)

. reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign, r
上表的估计结果汇报了OLS系数估计值、稳健标准误、t 统计量、F 统计量、p 值、置信区间、拟合优度 R2 等。



无内生性(No Endogeneity)

何时可用OLS?OLS之所以如此流行,重要原因就是它所要求的条件非常少。对于线性模型,在实践中,一般仅要求无内生性即可。计量经济学的内生性定义很简单,即解释变量 x 与扰动项 ε 相关(相关系数或协方差不为0)。以一元回归为例: 

内生性意味着: 

如果存在内生性,则称解释变量 x 为 “内生变量”(endogenous variable);反之,称 x 为“外生变量”(exogenous variable)。一般来说,如果 x 外生,则 OLS为一致估计量(consistent estimator),即当样本容量 n 趋向无穷大时,OLS 估计量依概率收敛(converge in probability)至真实的参数值,参见下图:

一致估计量示意图(真实参数 = 4)

内生性的主要后果是使得 OLS 变得不一致(inconsistent),即无论样本容量多大,其偏差(bias)也不会消失。直观上,可通过以下一元回归的示意图来理解。

不失一般性,假设解释变量 x 与扰动项 ε 正相关。故当 x 较小时,ε 也倾向于较小,使得观测值更多地集中于真实回归线的下方(上图左边);而当 x 较大时,ε 也倾向于较大,使得观测值更多地集中于真实回归线的上方(上图右边)。因此,样本回归线( )比真实(总体)回归线( )更为陡峭,使得 高估 。即使增大样本容量(比如,使用人口普查的海量数据),也无法消去偏差,因为新增的样本观测值也存在同样的问题,故 OLS 估计量不一致。




内生性的来源

在哪些情况下,会导致解释变量与扰动项相关?常见的内生性来源主要包括:


(1)遗漏变量

假设真实模型为: 

但在实际估计时,由于某种原因遗漏了解释变量 z,则 z 被纳入扰动项。如果 zx 相关,就会导致 OLS 不一致,其偏差称为 “遗漏变量偏差”(omitted variable bias)。需要注意的是,虽然遗漏变量(omitted variables)普遍存在(受限于数据可得性),但并不一定就意味着遗漏变量偏差。只有遗漏变量与解释变量相关,才会导致遗漏变量偏差。

(2)双向因果

如果 x 影响y,而 y 也影响 x,则存在 “逆向因果”(reverse causality),也称 “双向因果” 或 “互为因果”。此时,可写下如下的联立方程组(simultaneous equations): 

此时,如果扰动项 ε 增大,则根据第一个方程,y 也会增大。而根据第二个方程,y 又会影响 x,从而导致扰动项 ε 与解释变量 x 相关,使得 OLS 不一致。由于双向因果总能写为以上联立方程组的形式,故称此偏差为 “联立方程偏差”(simultaneity bias)。

(3)变量测量误差

另一常见的内生性来源为解释变量的测量误差(measurement errors 或 errors in variables)。如果解释变量测量得不准确,则其测量误差也被纳入到扰动项中。可以证明,纳入扰动项中的测量误差一定会与解释变量相关,导致 OLS 不一致,称为 “测量误差偏差”(measurement error bias),参见陈强(2014,2015)。

(4)选择偏差

在评估某些政策或项目的效应时,由于个体是否参加项目存在自我选择(self selection),故参加项目者(treated group)与未参加项目者(control group)可能存在系统差异,导致OLS估计不一致,其偏差称为 “选择偏差”(selection bias)。


____________________________________
参考文献
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。
陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。











►一周热文

数据呈现丨R语言学习笔记之热图绘制

统计计量丨再论OLS:核心变量与控制变量的区别

统计计量 | 用R做多元线性回归分析(文末有福利)

统计计量丨倾向得分匹配:psmatch2 还是 teffects psmatch

机器学习丨Why Machine Learning: 我应该学机器学习吗?

数据呈现 | 气泡图:绘制带权重的散点图

统计计量丨工具变量法(五): 为何第一阶段回归应包括所有外生解释变量














数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:简华(何年华)编辑:青酱











    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存