分层回归:解决嵌套复杂的地学问题
相信大家应该都不陌生普通最小二乘回归(Ordinary Least Squares,OLS),今天,我们想在此基础上介绍一种新的数据分析方法---分层回归,用来解决嵌套复杂的地学问题。
分层回归是一种用于多层嵌套结构数据的线性统计方法,其主要贡献者之一的英国伦敦大学的Harvey Goldstein教授将其称为多层分析(Multilevel Analysis),而美国密歇根大学的Stephen W. Raudenbush教授等人将其称为分层线性模型结构(Hierarchical Linear Modeling)。在本文中我们称其为多层线性模型,并用其缩写HLM代表。
做研究的小伙伴的可能常常遇到这个问题,若不考虑数据的可获性,研究应该选取怎样的尺度才是合适的?尤其是当数据集存在分层或嵌套时,传统的统计方法是否还能很好解释不同层面上的变量差异?
在社会研究中,很多研究问题都体现为多水平、多层的数据结构。其中最为典型的例子就是在教育研究中,学生嵌套于班级,而班级又嵌套于学校的现象,或可以简单的把学生看做成嵌套于学校。在此学生代表了数据的第一层,班级和学校分别代表数据的第二层。传统的线性模型,如方差分析和回归分析,只能对涉及一层数据的问题进行分析,而不能对多层数据进行综合分析,多层模型则提供了解决这些问题的统计方法。
另外一种类型的镶嵌数据模型则来自于纵向研究或重复测量研究。不同时间的观测数据形成数据结构的第一层,而被试之间的个体差异构成了第二层。这样就可以探索个体在其发展趋势或发展曲线上的差异。
· 参数估计方法
· 样本要求
关于样本量的要求没有确定的答案,还要参考实验的目的。一般考虑统计推断正态分布的要求及变量与样本的比例:
①样本大小。与统计判断与假设检验有关。一般来说,样本量最少是30个。
②样本个数同样本量的比例。一般来说,这一比例要求为1:10。
在多层分析中,上述条件要分别在不同层次中考虑。高层样本量的要求比低层样本量的要求更高。
1、普通最小二乘回归(Ordinary Least Squares,OLS)
OLS回归方程: Yi = β0+β1Xi+γi 其中: β0是截距,或者说是当X=0是Y的值;β1是线性回归系数;γi是残差,其假设为:①γi服从正态分布,γi~N(0,σ2);②γi是相互独立的,即Cov(γi,γj) = 0;③γi的方差恒定,即Var(γi) = σ2,σ2为一常数。 |
这些关于残差的假设意味着Y是从某个总体内随机取样的。但是,当数据存在镶嵌结构时,且某些第二层变量被认为对Y产生影响,即必然存在第二层单位间的方差,残差将不满足上述假设。在这种情况下,多层线性模型才是正确解决这一问题的统计模型。
2、多层线性模型的基本形式
HLM的基本形式包括三个公式: Yij = β0j+β1jXij+γij β0j = γ00+μ0j β1j = γ10+μ1j
其中: 下标 i 代表的是第一层的单元,如学生;下标 j 代表的是第一层的个体所隶属的第二层单位,如学校或班级;γ00和γ10分别是β0j和β1j的平均值,并且它们在第二层单位之间是恒定的,是β0j和β1j的固定成分;μ0j和μ1j分别是β0j和β1j的随机成分,它们代表第二层单位之间的变异。 由以上公式可以得到: Yij = γ00+γ10Xij+μ0j+μ1jXij+γij 其中,μ0j+μ1jXij+γij是残差项。 |
HLM不仅从第一层的残差γij中分解出了μ0j和μ1j,并且满足了OLS关于残差的假设;还可以就第二层的变量与第一层的变量之间的相关提出一系列研究问题。
1、零模型(The Null Model)
有时研究者只是感兴趣把方程分解为由个体差异造成的部分和组间差异造成的部分。在这种情况下,使用第一层和第二层都没有预测变量的零模型就够了,这种方法即方差成分分析(Variance Component Analysis)。
第一层方程:
Yij = β0j+γij
其中, Var(γi) = σ2
第二层方程:
β0j = γ00+μ0j
其中, Var(μ0j) = τ00
要确定Y的总体变异种有多大程度是由于第二层或者组间差异造成的,就要计算一个跨级相关(Intra-Class Correlation)系数:
ρ = τ00 /(τ00+σ2)
2、完整模型(The Full Model)
既包含了第一层的预测变量,也包含第二层的预测变量。这样就可以通过理论建构来说明或解释Y的总体变异是怎样受到第一层和第二层的因素影响。
最简单的完整模型只包含一个一层变量和一个二层预测变量:
第一层方程:
Yij = β0j+β1jXij+γij
第二层方程:
β0j = γ00+γ01W1j+μ0j,
β1j = γ10+γ11W1j+μ1j
其中,
Var(μ0j) = τ00
Var(μ1j) = τ11
在零模型和完整模型之间,有一系列的模型可以用来估计不同的第一层和第二层的参数,研究者可以根据自己的研究目的和实际情况,通过向各层方程中添加不同的变量、设定不同的随机成分与固定成分来构建各种分析模型。其中常用的有随机效应回归模型和协方差模型。
3、协方差分析模型(ANCOVA Model)
第一层方程:
Yij = β0j+β1j(Xij - X均)+γij
第二层方程:
β0j = γ00+μ0j
β1j = γ10+γ11W1j+μ1j
4、随机效应回归模型(Random Effect Regression Model)
第一层方程:
Yij = β0j+β1jXij+γij
第二层方程:
β0j = γ00+μ0j
β1j = γ10+μ1j
在研究中可以将以上模型结合使用,能够更好的说明或解释不同层面上的变量差异及其交互作用(如下表)。
因变量 | 第一层 测预变量 | 第二层 预测变量 | 目的 | |
零模型 | √ | 方差成分分析 | ||
随机效应 回归模型 | √ | √ | 寻找第一层截距和斜率在第二层单位上的变异 | |
完整模型 | √ | √ | √ | 分析两层预测变量对总体变异的影响与机制 |
5、发展模型
上述的大多模型也可以用于纵向研究、发展研究或追踪研究的模型建构。如在追踪模型中,不同时间的观察结果(第一层)嵌套于被观察的个体(第二层)。这时,对于第一层数据,就不能采用传统的回归模型来分析,因为传统回归模型描述的是一个结果与一系列预测变量之间的关系。而发展模型是把多次的观察结果作为时间的某种数学函数来建构模型,这时应该根据第一层数据的特点选择发展模型。
[1] Su S, Zhou X, Wan C, et al. Land use changes to cash crop plantations: crop types, multilevel determinants and policy implications[J]. Land Use Policy, 2016, 50: 379-389.
谢谢你的耐心阅读哦,希望这篇略枯燥的干货能够给你提供一些些参考或帮助~
欢迎大家关注我们,一起学习一起交流
皮皮岛|Phi Phi Don
U need a blue sky holiday! :)