结构方程模型(SEM)和分段结构方程模型
什么是SEM
以下路径图描述了变量间的某种简单相互关系(Y~X1+X2),这种情形中,所关注的是X1和X2如何直接影响Y,Y直接通过X1和X2进行建模:
如果X1和X2与Y的关系属于下面这种形式,即分别存在X2~X1和Y~X2的直接作用,Y与X1的相互作用是间接的,并使用两个方程式综合描述这种关系,那么这两个方程即组成了一个简单的SEM:
这就是SEM的一个简单示例。一个模型中,根据推测的变量X1能够影响X2、X2影响Y而进一步推测变量X1可能也会影响Y,即X1-X2-Y。该模型具有两个方程,一个方程使用X1预测X2,另一个方程使用X2预测Y。为了验证这个模型,测量观察到的X1、X2和Y之间的关系,并应用SEM提供以下测试:(1)X1是否真的是X2的有效预测因子,(2)X2是否真的是Y的有效预测因子,(3)模型整体上是否符合观测数据。最后一项测试相对于前两项测试并非冗余的,因为对于测试X1是否是Y的有效预测因子时,在(1)(2)均通过时,模型也可能不太合适,若忽略(3)则可能会错误地指定了X1与Y的直接关系。
综合来看,SEM是数据分析的一种特殊形式,从一个指定了多变量间(假定的)相互关系的模型开始,变量间的关系被形式化为一组方程,用于测试这些变量并量化它们之间的关系。对模型的测试涉及对方程再现或“拟合”假定关系的评估。
SEM要求事先考虑变量间相互关联的方式(如因果关系,通过先验知识给出假定),从这个意义上说,SEM是验证性的,而非探索性的分析方法。
对于变量间的关系,可以是线性的,也可以是非线性的。并且SEM能够同时识别直接和间接关系,对于量化级联影响非常有用。
如果意在探寻变量间的因果关系,SEM可以给出单向的推论,即模型显示X1直接或间接影响Y,而反过来则无效。因此与常规的统计方法(如相关性分析)相比具有优势,可以测试复杂关系的竞争性假设,考虑了“相关性并不意味着因果关系”这一问题。
SEM的主要建模方法
作为一种强大且灵活的数据分析框架,SEM允许将许多其它类型的数据分析策略视为SEM特定形式,如线性和非线性回归、路径分析、因子分析、层次建模等。
以下简单展示常见的4种建模方法。
路径分析
路径分析(Path Analysis)是目前使用的主要SEM模型之一,是没有潜在变量的SEM应用。
路径分析的优点在于,它包含了在一个模型中充当预测变量的变量之间的关系。一个典型的例子是中介模型。
路径分析是另一种SEM模型类型—回归模型的扩展。在相关矩阵的路径分析模型中,比较两个或更多的随机模型,模型预测回归权值。
验证性因子分析
验证性因子分析(Confirmatory Factor Analysis,CFA)是一种降维方法,在SEM中也称为测量模型,CFA意在描述潜在因子(ε1和ε2,在SEM中等同于潜在变量)与观测变量(x1-x8)的关系。
CFA模式图。
潜变量结构模型
潜变量结构模型(Latent Variable Structural Model)主要在路径分析框架内使用测得的潜在变量。
例如,潜变量结构模型的一种常见形式是因子分析和路径分析的组合,因子分析挖掘潜在因子(潜在变量),之后可将潜在变量代入路径分析,假设并测试它们之间的关系。
潜在变量结构模型模式图。
增长曲线模型
SEM模型的另一种流行用法是纵向模型,通常称为增长曲线模型(Growth Curve Models)。
例如,假设随时间对同一变量进行了多次观测,则可以声明一个截距,通过以特定的方式约束路径系数,将变量随时间变化的斜率作为潜在变量。由于路径是有约束的,必须在增长曲线模型上估计潜在变量的均值,这些均值给出了总体截距和总体斜率。
潜在增长曲线模型与在纵向数据上运行混合模型有关,并提供了一种替代方法,这些混合模型通常称为“个体增长曲线模型”。
潜在增长曲线模型模式图。
协方差SEM
常规的SEM有两个主要目标:
(1)了解一组变量之间的相关/协方差模式;
(2)用指定的模型尽可能解释它们的方差。
因此常规SEM也有人直接称为协方差SEM(下文允许我也使用这一称呼,尽管可能不贴切,因为分段SEM也基于协方差,只是情况比常规SEM复杂一些)。
观测协方差矩阵(原始变量观测值的协方差矩阵)与预测协方差矩阵(模型预测值的协方差矩阵)之间的差异量化了模型的拟合优度。
协方差SEM的拟合度评估
可用于反映模型拟合优度的指标有很多,例如卡方值(CMIN)、卡方自由度比(CMIN/DF)、比较拟合指数(CFI)、近似值的均方根误差(RMSEA)、Akaike信息准则(AIC)、贝叶斯信息标准(BIC)等,它们均以比较两个协方差矩阵的差异为准。
通常使用诸如极大似然之类的方法,选择最能重现观测协方差矩阵整体的参数估计值(最小化两者差异),并使用卡方检验来评估SEM的拟合优度,将估计值与观察到的协方差矩阵进行比较。
协方差SEM的局限性
协方差SEM假定所有变量均来自正态分布,即数据服从多元正态分布。
协方差SEM假设所有观察结果都是独立的,换句话说,假设数据没有底层结构。例如在生态学研究中,这些假设经常被违反,变量间的空间、时间等相关关系普遍存在;尽管实际中通常忽略该假设。
SEM通常需要相当大的样本量,每个估计参数至少需要5个样本,更普遍在10个以上。如果变量是嵌套的,则此问题可能会更为棘手,此时通常只能在层次结构的最高层考虑变量,会极大降低分析的能力。
分段SEM
出于上述限制,导致了另一种SEM的发展,称为分段结构方程模型(piecewise structural equation modeling),或者称验证路径分析(confirmatory path analysis),由Shipley(2000)提出。
分段SEM通过引入一个灵活的数学框架,合并各种类型的模型结构、分布和假设,扩展了传统的SEM。分段SEM中,每组关系都是独立(或局部)估计的,此过程将整体关系分解为与每个响应对应的简单或多个(一般为线性)回归,分别对每个响应进行评估,最后合并以生成有关全局SEM的推论。即分别在各个模型中估计路径,然后将它们拼凑起来以构建因果模型。假定的变量关联模式,包括交互作用和非正态响应、随机效应和层次模型以及其它相关结构(包括系统发育、空间和时间)等。
因此与传统的协方差SEM相比,更多的变量间关系更容易估计(因为该方法是模块化的),并且关于响应的分布和协方差的具体假设可以使用线性回归的典型扩展来解决,例如固定协方差结构、随机效应或其它复杂的建模技术。
分段SEM的拟合度评估
出于以上原因,分段SEM是一种更灵活且更强大的技术,但它也有其自身的一系列限制。
首先,估计拟合优度和比较模型并非易事。如上所述,在传统SEM中,可以直接通过卡方统计量描述所观测协方差矩阵和所预测协方差矩阵之间的一致性程度;但在分段SEM中则无法进行这样的操作,因为每个分段模型均估计了一个单独的协方差矩阵,整体的卡方统计量无法直接获得。
Shipley建议了适用于分段SEM模型拟合优度评估的两种标准。
有向分离测试
Shipley的观点基于所谓的有向无环图(Directed Acyclic Graph,DAG),即如上所述的路径图结构类型,如果两个变量之间有箭头,则认为它们是因果相关的,如果它们之间没有箭头,则是因果独立的。考虑以下示例:
X1直接独立于Y2,归因于它们之间没有箭头。
但是,Y2可能通过Y1而被X1间接影响,因此X1独立于Y2的条件取决于Y1。这是一个重要的区别,因为它暗示了我们必须测试X1和Y2之间缺失的箭头是否重要。
这种情况下,常使用有向分离(directional separation,简称D分离,d-separation)在控制变量路径的条件下,测试因果独立的路径是否有意义。d-separation测试既定模型中是否缺失某些(直接)路径,以及是否需要将缺失的路径考虑来改进模型。
首先,列出所有没有(直接)箭头的变量对,然后列出所有可能介导变量对的其它变量,这些独立声明对及其条件变量构成基础集。对于上述DAG,获得的基础集则包括:
然后可以将基础集转换为一系列线性模型,将条件变量(Y1和Y2)作为协变量考虑在内,目的是关注DAG中可能缺失的直接路径(例如X1~Y2)。
在控制Y1或Y2的条件下,分别运行这些模型,并提取与缺失直接路径相关的p值,并根据p值计算Fisher’s C统计量:
Fisher’s C统计量遵循具有2k个自由度的卡方分布(其中k =基础集中变量对的数量)。如果对其进行卡方检验并且检验获得的p<0.05,则该模型不是很好的拟合,换句话说,变量对中存在一个或多个缺失的直接路径是有意义的,可能还需将它们加入至模型中进行优化;相反,如果p>0.05,则该模型可以很好地表示数据,原模型中已经识别的所有有效路径,没有遗漏的路径。
Akaike信息准则
如上提到的,相对于那些探索性分析(如PCA、探索性因子分析等),SEM通常在模型测试框架中实现,即属于验证性质的。就变量间的因果关系而言,SEM首先构建了一种先验模型,并通过反转路径、删除变量或关系等对它们进行相互测试,确定模型的有效性。
当使用统计模型来表示生成数据的过程时,几乎永远不会是精确的,归因于模型构建时的信息丢失。通常会选择最稳健的一种模型表示数据,其中涉及了多种模型的评估,以选择最优模型。
比较嵌套模型的一种流行方法是使用Akaike信息准则(Akaike Information Criterion,AIC)。AIC会在给定模型的复杂性与其拟合优度之间进行权衡,可以将AIC值视为对应了模型的准确性,AIC值越小的模型表明越有可能准确地预测新数据。
Shipley(2013)结合使用AIC扩展了d-separation测试:
C即为Fisher’s C统计量,K是所有模型中估计的参数数量。可以对附加项进行修改,以提供对小样本量(AICc)校正的AIC估计值。
分段SEM的局限性
除了上述提到的在分段SEM中估计拟合优度和比较模型的问题(已通过其它渠道解决),对于其它的缺点。
关于混合模型的p值计算是否有意义的问题再次暴露出来。
分段SEM无法处理潜在变量,这些潜在变量由已观测变量间的相互关系推导,常被当作观测变量的结构基础或原因。(类似于使用PCA降维环境数据,并使用少数几个特征轴代表“环境”,见PCA分析概述;或者因子分析中的潜在因子,见因子分析概述)。
无法在“闭环”模型中准确测试d-separation(例如,A -> B -> C -> A)。
d-separation测试和AIC有时存在冲突。例如,d-separation显示模型已“完全识别”,也就是没有遗漏的路径,但AIC值提示模型有待优化。
SEM应用举例
最后再简单列举4例SEM模型(协方差或分段)的实际应用分析,帮助大家加深理解。
Løberg等(2006)使用SEM检查了精神分裂症阳性症状的持续时间对患者的二重听觉的作用。
精神分裂症阳性症状的持续时间和二重听觉关系的模型。
SEM表征了群居物种Synalpheus shrimps(一种虾)的真社会性、体型、寄主范围大小和区域丰度比例之间的关系(Duffy and Macdonald, 2010)。
(a)使用协方差SEM的原始分析,(b)分段SEM模型与协方差SEM模型相同,并附加了基于分子系统发育距离得到的固定相关结构。箭头表示变量之间的单向关系,黑色箭头表示正向关系,红色箭头表示负向关系,非显著路径(p≥0.05)是半透明的,有效路径的宽度根据关联框中给出的标准化回归系数的大小进行了缩放。模型的R2在响应变量的框中给出,路径系数显示在各路径连线框中。
Byrnes等(2011)使用SEM分析了风暴频率(海浪干扰)对海带群落结构和食物网复杂性的影响。
(a)使用协方差SEM的原始分析;(b)使用分段SEM拟合并纳入随机效应的相同模型;(c)分段SEM模型来自(b),其中附加了一个表示年份的自相关项。方框代表测量变量,箭头表示变量之间的单向关系,黑色箭头表示正向关系,红色箭头表示负向关系。非显著路径(箭头p≥0·05)是半透明的,有效路径的宽度已根据关联框中给出的标准化回归系数的大小进行了缩放。模型的R2在响应变量的框中给出,路径系数显示在各路径连线框中。
Mamet等(2019)使用SEM构建了无芒雀麦(Bromus inermis Leyss)与土壤性质、细菌多样性和沿无芒雀麦覆盖梯度上微生物网络连通性之间相互作用的复杂关系。
网络中的每个节点代表一个OTU,节点大小与度相对应;每个边代表基于最大信息系数(MIC)>0.6的成对关联,边的宽度随MIC的增加而增加。
SEM协变量按来源着色,浅绿色表示植被,棕色表示土壤。实线箭头表示显著的效应大小(p<0.10,虚线p>0.10),箭头的粗细表示关系的强度,绿色和红色分别表示正、负关系。路径上显示了标准化的路径系数。
关于R语言实现SEM
R中存在很多包可以执行SEM,如sem、openMx、lavann、ltm、lcmm、FlexMix、piecewiseSEM等。
本篇暂且对SEM基本概念作个介绍,方法将在接下来的几篇中选择一些R包简介。(前篇已经介绍过验证性因子分析,它也是SEM的一种方法)
参考资料
https://psychology.iresearchnet.com/social-psychology/social-psychology-research-methods/structural-equation-modeling/
https://jonlefcheck.net/2014/07/06/piecewise-structural-equation-modeling-in-ecological-research/
https://rdrr.io/cran/piecewiseSEM/f/vignettes/piecewiseSEM.Rmd
https://www.thoughtco.com/introduction-to-akaikes-information-criterion-1145956
https://www.digitalvidya.com/blog/structural-equation-modeling/
Byrnes J E, Reed D C, Cardinale B J, et al. Climate-driven increases in storm frequency simplify kelp forest food webs. Global Change Biology, 2011, 17(8):2513-2524.
Duffy J E, Macdonald K S. Kin structure, ecology and the evolution of social organization in shrimp: a comparative analysis. Proceedings of the Royal Society B: Biological Sciences, 2010, 277(1681):575-584.
Løberg E-M, Jorgensen H A , Green M F , et al. Positive symptoms and duration of illness predict functional laterality and attention modulation in schizophrenia. Acta Psychiatrica Scandinavica, 2006, 113(4):322-331.
Lefcheck J S. piecewiseSEM: Piecewise structural equationmodelling in rfor ecology, evolution, and systematics. Methods in Ecology and Evolution, 2016, 7(5).
Mamet S D, Redlick E, Brabant M , et al. Structural equation modeling of a winnowed soil microbiome identifies how invasive plants re-structure microbial networks. The ISME Journal, 2019.
Shipley, B. A New Inferential Test for Path Models Based on Directed Acyclic Graphs. Structural Equation Modeling: A Multidisciplinary Journal, 2000, 7(2):206-218.
Shipley B. The AIC model selection method applied to path analytic models compared using a d‐separation test. Ecology, 2013, 94(3).