初学者难免困惑于计量经济学中诸多的 “条件” 与 “无条件”,比如条件概率与无条件概率,条件分布与无条件分布,条件期望与无条件期望,条件方差与无条件方差,条件中位数与无条件中位数,条件分位数与无条件分位数。这些 “条件” 与 “无条件” 的概念,究竟有什么区别与联系,在实践中又该如何应用呢?本文将为你逐一辨析。 什么是概率?简单说,概率(probability)就是在大量重复试验下,随机事件发生的频率趋向的某个稳定值。比如,记随机事件 “下雨” 为 ,则其发生的概率一般记为 。“无条件概率”(unconditional probability)其实就是我们一般所说的概率,只是为了与 “条件概率” 相区别,有时才强调它是 “无条件的”。事实上,计量经济学更关心条件概率。比如,记事件 “出太阳” 为 ,则在出太阳的前提条件下降雨的 “条件概率” (conditional probability) 可定义为:其中, 为与同时发生的概率,参见下面的维恩图(Venn diagram)。
在此图中,矩形的方框表示整个世界(包括所有可能的随机试验结果,即样本空间),不妨将其面积标准化为 1。圆形 的面积即为事件 发生的(无条件)概率,而圆形 的面积则为事件 发生的(无条件)概率。考虑在给定 发生情况下, 发生的条件概率 。此时,世界所处的状态只能是,而 之外的状态均为不可能。进一步,在 发生的情况下,如果 也发生,则表明 与 同时发生,故为集合 与集合 的交集,即 。因此,将此交集的概率 除以 “全集” 的发生概率 ,即为在给定 发生情况下, 发生的条件概率。在实践中,究竟应该使用(无条件)概率还是条件概率呢?看一个简单例子就能明白——
“ 假设股市崩盘的(无条件)概率为万分之一;而在经济陷入严重萧条的情况下,股市崩盘的条件概率为百分之一。此时,如果已知经济已陷入严重萧条,你会使用哪种概率来预测股市崩盘的可能性呢?如果仍使用万分之一的无条件概率,就显得过于僵化,因为既然经济已经严重萧条,自然应将此条件考虑在内,而使用百分之一的条件概率。
”由此可知,无条件概率是仅在你对世界的状态一无所知时,才使用的一种粗糙度量。而如果已知世界处于某种状态(比如,事件 已经发生),则条件概率 提供了对于随机事件 发生可能性的更为细致而精确的度量。事实上,无条件概率可看成是条件概率的加权平均,而权重就是每种 “条件” 发生的概率,这便是概率统计中的 “全概公式”(law of total probability): 其中, 为完备事件组,即这些随机事件互相排斥,但必然有某个发生。
通常使用概率分布来描述随机变量的取值特征。以一维的连续型随机变量 为例( 的取值可为任意实数),其概率密度函数 (probability density function,简记 pdf) 为非负函数 满足: 类似地,二维连续型随机向量 的联合密度函数 (joint pdf) 为非负函数二维随机向量的联合密度函数 就像倒扣的草帽,参见下图。落入平面某区域 的概率就是此草帽下在区域 之上的体积。
条件分布又是怎么回事呢?比如,考虑在 条件下 的条件分布,记为 或 。直观上,此条件分布相当于在 “草帽” (联合密度函数) 上 的位置垂直地切一刀所得的截面,参见下图:
在此,有一个技术细节,即由于 为连续型随机变量,事件 发生的概率为 0,应如何计算 的条件概率密度 (conditional pdf)?解决方法是,考虑 附近的小邻域 ,计算在 条件下 的概率分布,然后让,则可证明条件密度函数为:其中, 为随机变量 的边缘密度(marginal density),即 作为一维随机变量的概率密度。直观上,条件密度的公式与条件概率的定义式类似。
计量经济学为何如此关心给定 情况下 的条件分布 呢?这是因为,实证研究主要关心 对 的作用,而此信息很多体现在条件分布 中,即随着 的取值变化,的条件分布将如何变化。以 Stata 自带的数据集 auto.dta 为例。比较汽车重量 weight 的无条件分布,与在给定为外国车(虚拟变量 foreign = 1)的情况下,weight 的条件分布。sysuse auto
kdensity weight
此命令将画变量 weight 的核密度图(kernel density),即对其概率密度函数的估计,相当于光滑版的直方图。从上图可知,变量 weight 的(全样本)无条件分布呈双峰形状。下面考察在给定为外国车(虚拟变量 foreign = 1)的情况下,weight 的条件分布。kdensity weight if foreign
由上图可知,在给定外国车(虚拟变量 foreign = 1)的情况下,变量 weight 的(子样本)条件分布呈单峰形状。为便于比较,将以上两个图画在一起。twoway kdensity weight || kdensity weight if foreign, lp(dash)
其中,选择项 “lp(dash)” 表示将外国车 weight 的核密度图用虚线(dash)来画。
在上图中,实线为全样本的无条件分布,而虚线则为外国车的条件分布,可见二者差别之大。为何外国车的 weight 分布为单峰,而全部车的 weight 分布变为双峰?原因很简单,因为美国国产车的 weight 分布也是单峰,但山峰的位置不同。下面将外国车与国产车的两个条件分布画在一起:
twoway kdensity weight if foreign || kdensity weight if !foreign, lp(dash)
显然,相对于外国车,美国国产车的车身重量分布更偏向右边,说明美国车通常更重些(与常识相符)。当然,要把握整个概率分布并不容易,故常使用随机变量的数字特征,比如期望。假设连续型随机变量 的概率密度函数为 ,则其期望(expectation)为:直观上,求期望就是对 进行加权平均,而权重为其概率密度(取值可能性)。显然,在上式的积分结果中,已将 积掉,故 只是一个常数,也就是 “无条件期望”(unconditional probability)。
如果理解了条件分布,那么条件期望就容易理解了。其实,条件期望(conditional expectation)不过是条件分布的期望而已,简称 “条件期望” 。在给定 的情况下, 的条件期望可表达为:在上式中,由于 已被积分积掉,故 只是 的函数,称为 “条件期望函数”(conditional mean function),参见上文的条件分布图示(图中假设条件期望函数为 的线性函数)。事实上,计量经济学经常估计的回归函数(regression function),正是在给定解释变量 (可以是向量)情况下的条件期望函数。这也凸显了条件期望函数在计量经济学的核心地位。仍以数据集 auto.dta 为例,考察变量 weight 的(无条件)期望与条件期望。其中,变量 weight 的(全样本)无条件期望为 3019.459,而(外国车子样本)的条件期望为 2315.909,有很大区别。由于外国车通常更轻些,故外国车weight 的条件期望也低于 weight 的(全样本)无条件期望。关于条件期望与无条件期望的关系,有如下重要的迭代期望定律 (Law of iterated expectation):直观上,这意味着(左边的)无条件期望等于(右边的)条件期望 之加权平均,而权重为条件 “ ” 的概率(取值可能性),证明参见陈强(2014,2015)。
如果期望是寻找随机变量的中心位置(或集中趋势),方差则为对此中心位置的偏离程度之度量。连续型随机变量 的方差(variance)可写为:显然,方差越大,则随机变量取值的波动幅度越大。在上式中,方差也是一个常数,即 “无条件方差”(unconditional variance)。另一方面,条件方差(conditional variance)则为条件分布的方差,简称条件方差;其数学表达式为:在上式中, 已被积分积掉,故条件方差 也只是 的函数,称为 “条件方差函数” (conditional variance function)。
在上文的条件分布图示中,较为矮胖之分布的方差较大,而较为高瘦之分布的方差较小,故存在 “条件异方差”(conditional heteroskedasticity),常简称 “异方差”。仍以数据集 auto.dta 为例,考察变量 weight 的(无条件)方差与条件方差。sum weight if foreign,detail
由以上结果可知,变量 weight 的(全样本)无条件方差为 604029.8,而(外国车子样本)的条件方差仅为 187492,有很大区别,即美国国产车的车身重量波动幅度更大。在计量经济学中,回归方程的扰动项存在异方差是比较普遍的现象。比如,在企业数据中,大企业与小企业的扰动项之波动幅度可能很不相同。另一方面,计量经济学常用的大样本理论(large sample theory)一般假设样本数据为 “严格平稳过程”(strictly stationary process),即概率分布不随着时间推移而改变,故其方差也是常数。平稳过程的假设是否与异方差现象矛盾呢?要解决此表面上的 “矛盾”,关键在于认识到,计量经济学所说的异方差一般均指 “条件异方差”(conditional heteroskedasticity),即条件方差不同,而非“无条件异方差”(无条件方差不同)。因此,条件异方差与平稳过程的假定其实并不抵触。平稳过程只是保证在给定解释变量的情况下,条件方差函数的函数形式(functional form) 相同,但此条件方差的具体取值则仍取决于解释变量 的取值,故可以有所不同。显然,在已知解释变量样本观测值的条件下,真正起作用的应该是条件方差,而非(无条件)方差。在金融中常用的自回归条件方差模型(Autoregressive Conditional Heteroskedastiticy,简记 ARCH)及其推广形式 GARCH 模型,就是以自回归形式来定义条件方差函数,以此刻画金融市场的波动性集聚(volatility clustering)现象。明白了条件期望与无条件期望、以及条件方差与无条件方差的区别,对于条件中位数与无条件中位数的区别也可迎刃而解。给定随机变量 的无条件分布,则其中位数(median),即无条件中位数(unconditional median),指的是比它更小的概率正好等于比它更大的概率,皆为二分之一。换言之,中位数正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下,故也称为50%的百分位数(50% percentile): 另一方面,条件中位数(conditional median)则为条件分布的中位数,即条件中位数正好将条件分布分为相等的两部分。仍以数据集 auto.dta 为例,从以上结果可知,变量 weight 的 (无条件) 中位数为 3190,而条件中位数则为 2180,也有明显不同。
中位数的概念很容易推广到一般的分位数(quantile)。比如,给定随机变量 的无条件分布,则随机变量 的10%(无条件)分位数,记为 ,可以定义为:因此,10%分位数 把总体分为两部分,其中比 更小的那部分占总体的比重正好为10%。推而广之,随机变量 的 分位数(qth quantile),可以定义为: 另一方面,在给定 情况下, 的条件分布 之分位数,记为,则称为 “条件分位数”(conditional quantile)。仍以数据集 auto.dta 为例,从前面结果可知,变量 weight 的(无条件)10%分位数为 2020,而其10%条件中位数为 1930。
正如条件期望 是 的函数,条件分位数 也是解释变量 的函数,称为 “条件分位数函数”(conditional quantile function)。而对于条件分位数函数 的估计,则为近年流行的 “分位数回归”(quantile regression),其优点在于可以更全面地刻画条件分布 的特征(可考虑感兴趣的不同分位数),而且不像 OLS 回归那样容易受极端值(outlier)的影响。总之,在计量经济学中,当 “条件” 遇到 “无条件”,几乎总是 “条件” 胜出,因为“条件” 意味着给定了某种状态,故更有信息量,可以对世界进行更为准确而精细的度量。____________________________________
参考文献
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。
►一周热文
数据呈现丨R语言学习笔记之热图绘制
统计计量丨再论OLS:核心变量与控制变量的区别
统计计量 | 用R做多元线性回归分析(文末有福利)
统计计量丨倾向得分匹配:psmatch2 还是 teffects psmatch
机器学习丨Why Machine Learning: 我应该学机器学习吗?
数据呈现 | 气泡图:绘制带权重的散点图
统计计量丨工具变量法(五): 为何第一阶段回归应包括所有外生解释变量
这里是大数据、分析技术与学术研究的三叉路口
作者:陈强出处:计量经济学及Stata应用推荐:简华(何年华)编辑:青酱