查看原文
其他

模型平均方法综述(1)

张心洁 狗熊会 2023-09-03
点击“蓝字”关注我们吧!



张心洁,南京师范大学数学科学学院统计学专业本科生。




模型平均方法综述(1)

背景介绍

实证研究中,当我们需要对一个问题进行建模分析时,往往会有多个可供选择的模型,如何寻找最优的模型,就成为一个值得研究的问题。目前文献中针对这个问题有两种主流的方法,其一为模型选择,即根据特定的准则在所有候选模型中选择一个被认为是最好的模型,其二则是我们今天要介绍的模型平均。

模型选择在统计学与计量经济学中有着悠久的历史,研究者们提出了不同的模型选择方法与准则,包括AIC、BIC、Mallows' 准则、广义交叉验证等。然而,模型选择存在其局限性,一旦模型被选定,后续所有的分析推断均建立在这一个模型基础之上,实际上这是一种有条件的估计,忽略了其它模型反映的信息以及模型选择过程中的不确定性;而如果被选择的模型与真实模型偏差较大,后续的推断可能存在较高的风险;另外,模型选择通常会产生不稳定的估计量,因为微小的数据扰动也可能会导致选择不同的模型。

今天介绍的模型平均方法,不同于模型选择依赖于单一模型,而是多个模型的加权组合,不轻易排除任何模型,因此有效降低了有用信息的丢失。这使得估计更加稳健,且保证了较高的预测性能。同时,模型平均给予更好的模型更高的权重,提供了一种保障机制,有效避免了模型选择方法可能存在的缺陷。随着计算机技术的快速发展,模型平均方法作为一种更为复杂的数据挖掘方法将被更多的运用于实际问题中。模型平均方法分为两个方向:贝叶斯模型平均(Bayesian Model Averaging)(BMA) 和频率模型平均(Frequentist Model Averaging)(FMA),下面分别对它们进行介绍。

贝叶斯模型平均(BMA)

贝叶斯模型平均是一种基于贝叶斯定理并将模型本身的不确定性考虑在内的方法,其综合考虑模型与参数的先验信息以及样本数据提供的信息,进而计算潜在解释变量的后验概率,并判断各个解释变量的相对重要性[16]。

BMA 估计

给定数据 ,如果我们想对未知量 进行统计推断。假设现在有个候选模型:,则由全概率公式,的后验分布为:

其中,为给定模型和数据的后验分布。的后验模型概率(PMP,posterior model probability),计算公式为

其中,为模型为最优模型的先验概率,是模型的可积似然函数,它是通过对模型的未知参数进行积分得到的:
其中,是给定模型和参数下数据的似然函数。则的后验分布等于其在每个模型下的后验分布的加权平均,权重为后验模型概率 (PMP)[11]。的后验均值和后验方差分别为
其中 。Madigan和Raftery(1994)[1]证明了用这种方式对所有模型求平均,若使用对数评分规则来衡量,会比使用任何单一模型提供更好的平均预测能力。

BMA的实现

需解决的关键问题

尽管BMA是解决模型不确定性问题的一种直观的有吸引力的解决方案,但BMA的实现存在一些困难[11]:

  • 模型平均考虑的模型数量可能非常大,导致了BMA的计算难度;
  • 隐含在公式中的形式的积分可能很难计算;
  • 需要引出两种类型的先验(关于参数和模型),模型的先验分布难以合理给定。

模型平均的方法

目前有两种方法解决模型数量庞大的问题,第一种为奥卡姆窗(Occam's window)[15],其根据下列两个原则进行部分模型的剔除:

  1. 剔除预测能力低的模型:如果一个模型对数据的预测远不如最佳模型,那么它实际上已经不可信,不应该再被考虑。
  2. 奥卡姆剃刀(Occam's Razor):如果数据支持简单模型,则应剔除复杂模型。

另一种方法为Markov chain Monte Carlo model composition (),其采用马尔科夫链蒙特卡罗法直接逼近公式,具体讨论详见Madigan(1995)[2]。

积分的计算方法

公式中的积分一般为高维积分,其解析解不易得到,可以尝试采用下列方法:

  1. 对于线性回归模型,积分可以求出显式解;
  2. Laplace 渐近方法[3]:在分析数学中,Laplace渐近方法是一种计算含参积分的渐近展开式的方法,可以用其很好地近似
  3. MLE 近似法[4]:用代替,其中为参数向量的极大似然估计。

频率模型平均(FMA)

模型平均在很长的时间内为贝叶斯学派统计学家的研究重点,但其存在局限性。例如,如何确定各个模型的先验概率,而不同的先验概率对BMA模型的结果影响较大。另外,BMA过程涉及到将多个未知的先验进行混合,当一些先验产生冲突时,可能会影响模型的结果。

考虑到BMA方法存在的问题,FMA方法开始受到关注,模型平均的频率论方法的文献近年来快速增长,包括Buckland等(1997)[10],Juditsky 与 Nemirovski (2000)[12],Yang (2001, 2004)[13],Goldenshluger (2009)[14] 与 Wan等(2010)[8]等。然而这些方法均具有局限性,例如涉及样本分割、排除了异方差性情形等等。目前FMA的研究重点为组合权重的选择,即如何完全基于数据给出一个合理的权重[18]。下面介绍几种权重选择方法,均以线性回归模型为例。

基于信息准则的模型平均

在模型选择中,AIC和BIC是两种常用的信息准则,对于模型平均方法,Buckland,Burnham 和 Augustin ( 1997 )[5]引入了Smoothed AIC ( S-AIC ) 和 Smoothed BIC( S-BIC) 方法,组合权重为

其中 代表第 个模型,是它的权重,xIC表示AIC 或者 BIC。通过这样定义的权重,可以保证如果两个模型的信息准则值相等,无论它们是否具有相同的惩罚项,都赋予它们相同的权重。

S-AIC和S-BIC方法由于操作简单,是目前最常用的权重选择方法。

基于Mallows准则的模型平均(MMA)

基于 Mallows 准则的权重选择方法是由 Hansen (2007)[6]提出的,他的主要贡献是证明了mallows准则渐近等价于平方误差,因此Mallows模型平均方法(MMA)具有渐近最优性。

现有一组独立样本,其中,考虑如下同方差线性回归模型:

其中。假设现有一系列近似模型,模型总数 是一个整数,第个模型使用的前个元素,其中。则第个近似模型为
则近似误差为

用矩阵的形式表达即为,其中的向量, 的矩阵, 其第个元素为的向量,的向量,。对于所有的,第个模型的的最小二乘估计为

的最小二乘估计为

记权重向量被限制在如下的权重集合中:

则所有近似模型参数的模型平均估计可表示为
因此的模型平均估计为
其中是隐含的“帽子”矩阵。

由此我们可以得到模型平均估计的Mallows准则为

其中,为参数的有效个数。准则(5)是模型选择中Mallows'准则的推广,其取决于未知的。这个准则是模型选择方法中Mallows 准则的推广,如果我们用估计值代替,那么Mallows准则可用于选择权重向量。通过极小化Mallows准则得到的权重向量为
其也被称为Mallows经验权重选择向量,对应的模型平均估计称为Mallows Model Average(MMA)估计。这样,我们可以证明MMA估计在实现最小均方误差(MSE)意义上的渐近最优性,证明过程详见Hansen(2007)[6]。

Hansen在2007年提出的初始MMA模型标志着在频率模型平均估计中向最优权重选择的发展迈出了重要一步,但其存在一定的局限性。注意到在建立模型时假设了残差是同方差的,Andrews (1991)[7]证明了模型选择的Mallows准则在异方差条件下是不适用的,因此Mallows模型平均估计在异方差情形下同样会失效[9];同时,MMA假设解释变量能够以下述方式排序,即估计量是从严格嵌套的回归模型中获得的最小二乘估计量的加权和,这种嵌套设置可能会产生局限性;另外,模型的权重选择被限制在一个离散的集合中,即权重要求是离散的,这同样会影响模型的使用[17]。

针对这些问题,后续的研究者们对这些局限性进行拓展探究,其中Wan,Zhang 和 Zou(2010)[8]证明了无论是否为嵌套模型,亦或是否将权重限制在(4)中,都不是证明MMA的渐近最优性所必需的。只要渐近风险的收敛速度满足一定的条件,Mallows准则的最优性对连续权重同样适用。下面对他们的模型进行简单的介绍。

对初始MMA模型(3)进行改进。同样考虑一系列近似模型,不同于初始MMA模型,这里第个模型可以使用的任意的个元素,其中。则第个近似模型为

其中近似误差为。此时,模型的总数可以是有限也可以是无限的,相较于初始MMA模型它的范围更大。另外新的近似模型允许是非嵌套的,这样就避免了一开始需要对自变量进行排序的问题。在这种非嵌套的设置下同样可以证明MMA模型的渐近最优性,且此时并没有将权重向量限制为任意子集。

参考文献

1.David Madigan and Adrian E Raftery. “Model selection and accounting for model uncertainty in graphical models using Occam’s window”. In: Journal of the American Statistical Association 89.428 (1994), pp. 1535–154

2.David Madigan, Jeremy York, and Denis Allard. “Bayesian Graphical Models for Discrete Data”. In: International Statistical Review / Revue Internationale de Statistique 63.2 (Aug. 1995), p. 215. issn: 03067734. JSTOR: 1403615.

3.Luke Tierney and Joseph B. Kadane. “Accurate Approximations for Posterior Moments and Marginal Densities”. In: Journal of the American Statistical Association 81.393 (Mar. 1986), pp. 82–86. issn: 0162-1459, 1537-274X.

4.Ross H. Taplin. “Robust Likelihood Calculation for Time Series”. In: Journal of the Royal Statistical Society. Series B(Methodological) 55.4 (1993), pp. 829–836.

5.S. T. Buckland, K. P. Burnham, and N. H. Augustin. “Model Selection: An Integral Part of Inference”. In: Biometrics

6.Bruce E. Hansen. “Least Squares Model Averaging”. In: Econometrica 75.4 (July 2007), pp. 1175–1189. issn: 0012-9682, 1468-0262

7.Donald W. K. Andrews. “Heteroskedasticity and Autocorrelation Consistent Covariance Matrix Estimation”. In: Econo- metrica 59.3 (1991), pp. 817–858. issn: 00129682, 14680262

8.Alan T.K. Wan, Xinyu Zhang, and Guohua Zou. “Least squares model averaging by Mallows criterion”. In: Journal of Econometrics 156.2 (June 2010), pp. 277–283. issn: 03044076

9.Bruce E. Hansen. “Least-Squares Forecast Averaging”. In: Journal of Econometrics 146.2 (Oct. 2008), pp. 342–350.

10.Buckland S T, Burnham K P, Augustin N H. Model selection: an integral part of inference[J]. Biometrics, 1997: 603-618.

11.Jennifer A. Hoeting et al. “Bayesian Model Averaging: A Tutorial”. In: Statistical Science 14.4 (1999), pp. 382–401. JSTOR: 2676803.

12.Juditsky A, Nemirovski A. Functional aggregation for nonparametric regression[J]. The Annals of Statistics, 2000, 28(3): 681-712.

13.Homer C, Huang C, Yang L, et al. Development of a 2001 national land-cover database for the United States[J]. 2004.

14.Goldenshluger A. A universal procedure for aggregating estimators[J]. The Annals of Statistics, 2009: 542-568.

15.David Madigan, Jeremy York, and Denis Allard. “Bayesian Graphical Models for Discrete Data”. In: International Statistical Review / Revue Internationale de Statistique 63.2 (Aug. 1995), p. 215. issn: 03067734. JSTOR: 1403615.

16.Enrique Moral-Benito. “MODEL AVERAGING IN ECONOMICS: AN OVERVIEW: MODEL AVERAGING IN ECONOMICS”. In: Journal of Economic Surveys 29.1 (Feb. 2015), pp. 46–75. issn: 09500804.

17.Alan T.K. Wan, Xinyu Zhang, and Guohua Zou. “Least squares model averaging by Mallows criterion”. In: Journal of Econometrics 156.2 (June 2010), pp. 277–283. issn: 03044076.

18.张新雨, 邹国华. 模型平均方法及其在预测中的应用[J]. 统计研究, 2011, 28(6): 97-102.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存