查看原文
其他

Mplus | CFA模型拟合评价

费婷 自我整合 2023-02-24

CFA模型拟合评价——王孟成老师


1 模型拟合评价

模型拟合评价可以分为两类(Yuan, 2005):假设检验和近似拟合检验。模型拟合(Model Fit)用于评价样本方差-协方差矩阵(S)与理论模型隐含的方差-协方差矩阵(E)之间的差距。

1.1 模型隐含的条目间协方差

A. 同一因子的2个条目之间的协方差:

B. 不同因子2个条目之间的协方差:

C. 误差相关的两个条目间的协方差:

1.2 假设检验卡方(Chi-Square, χ2)

A. 如果模型隐含的方差—协方差与观测到的样本方差—协方差之间的差异达到一定显著性水平(如0.05或0.01)上的临界值,那么模型将被拒绝。

B. 模型隐含的方差—协方差与观测方差—协方差之间的差异服从χ2分布,所以采用χ2检验来衡量这个差异是抽样误差造成的还是实际存在的。

C. 卡方统计量是根据如下公式得到:

T = (N – 1) FML

D. FML为使用ML或其它估计法所得到的最小拟合函数值,N为样本量。当样本足够大,且符合多元正态分布时,(N – 1) FML服从中央卡方分布(Central Chi-square Distribution),即从样本获得的值接近于卡方真值。SEM软件会报告卡方值及显著性检验的结果。


1.2.1 Chi-Square, χ2的影响因素

(1)样本量:对样本量非常敏感,倾向于随样本量的增加而变大。

(2)数据分布形态:非正态分布时使用ML影响其精确性。

(3)观测指标的质量:如果观测指标之间的相关系数较高时也会高估卡方统计量(Kline, 2010)。


1.2.2 Chi-Square, χ2的评价

A. 在实践中研究者往往忽略显著的卡方差异检验结果,而将近似拟合指数作为接受模型的依据,Barrett(2007)强烈反对这种做法,认为所有SEM研究都应该报告卡方检验结果并以此做为接受或拒绝模型的依据。

B. 尽管这种观点过于偏激,但显著的卡方检验至少说明模型拟合并非完美,这一点需要引起研究者注意(Kline, 2010)。

1.3 近似拟合检验(Approximate Fit Tests)

近似拟合指数主要有如下三类:绝对拟合指数(Absolute Fit Indexes)、比较拟合指数(Comparative Fit Indexes)、 简约拟合指数(Parsimony-adjusted Index)。

1.3.1 绝对拟合指数

A. 标准化残差均方根 (Standardized Root Mean Square Residual, SRMR)直接对残差进行评价的指标,其取值范围在0-1之间,当值小于0.08时,表示模型拟合理想(Hu & Bentler, 1999)。

B. SRMR易受样本量影响,在处理类别数据时,表现不佳(Yu, 2002)。

评价
> .10poor fit
.08 ~ .10mediocre fit
.05 ~ .08acceptable
.01 ~ .05close fit
.00exact fit


1.3.2  WRMR

Yu & Muthen(2001)模拟研究发现在样本量小于250时SRMR用于类别指标并不合适,他们提出一个新的指数:WRMR

Fmin是最小二乘估计时的最小拟合函数,n 表示样本量,e代表样本统计量的数目。WRMR<0.9表示拟合良好

DiStefano和同事在CFA下考虑如下几个因素:样本量(250,500和100)、类别数目(2个和5个)负荷值(.25,.5和.8),模型误设(真模型、低水平误设=忽略2个跨负荷指标和高水平误设=忽略2个跨负荷指标+2个因子合并为一个因子)、指标分布形态(正态和非正态),通过模拟检验了WRMR的表现。结果发现:

(1) WRMR随样本量增加而增大,类似卡方的特性——随样本量增加而趋向于拒绝原假设。

(2) 将WRMR临界值设定在0.9时在多少条件下是合适的,但考虑到模型误设等条件,DiStefano等设定的临界值为1。


1.3.3  RMSEA

近似误差均方根(Root Mean Square Error of Approximation, RMSEA, Steiger & Lind, 1980 )受样本量影响小,对模型误设较敏感,同时惩罚复杂模型,是比较理想的拟合指数,被广泛使用(Jackson et al., 2009; Marsh & Balla, 1994)。

RMSEA虽对模型复杂程度进行了惩罚,但随着样本量的增加惩罚的力度递减(Mulaik, 2009)。

评价
> .10poor fit
.08 ~ .10mediocre fit
.05 ~ .08acceptable
.01 ~ .05close fit
.00exact fit


1.3.4 CFI

比较拟合指数 (Comparative Fit Index, CFI; Bentler, 1990)目前使用最广泛的指标之一(Fan, Thompson, & Wang, 1999),也是最稳健的指标之一(Hu & Bentler, 1999)。

CFI对样本量不敏感(Fan, Thompson, & Wang, 1999),在小样本中也表现不错(Tabachnick & Fidell, 2007)。

评价
< .85poor fit
.85 ~ .90mediocre fit
.90 ~ .95acceptable
.95 ~ .99close fit
1.00exact fit


1.3.5 规范拟合指数(Normed Fit Index, NFI)

规范拟合指数的取值范围多数都在0-1之间,其中NFI提出较早(Bentler & Bonett, 1980),其意指研究模型与拟合最糟糕的独立模型相比改善情况,其式如下。

M0指变量之间不相关的独立模型,M1指研究设定模型。χ2M1越大,拟合越差。当研究的模型与理论暗含的模型相差较少时,NFI接近1,反之接近于0,一般以0.9作为临界值。NFI受样本量影响较大,其值随样本量的增加而变大,且会受到模型复杂程度的影响,所以研究者提出了考虑模型复杂度的校正指数非规范拟合指数NNFI。


1.3.6 NNFI/TLI

非规范拟合指数(Nonnormed Fit Index, NNFI)

由于NNFI的取值会超出0-1的范围,所以将其称为非规范拟合指数。通常将TLI>.90作为可接受的标准,>.95拟合较好(Hu & Bentler, 1999)。

评价
< .85poor fit
.85 ~ .90mediocre fit
.90 ~ .95acceptable
.95 ~ .99close fit
1.00exact fit


2 信息指数

2.1  Akaike信息准则 (Akaike Information Criterion, AIC; Akaike, 1987)

logL为模型极大对数似然函数值;t为自由参数的个数;df为模型自由度。

 AIC是基于信息理论发展出来的指数,倾向于支持AIC值较小的模型,常用于非嵌套模型比较(e.g., Kline, 2011; Raftery, 1995; Vrieze, 2012)。

AIC考虑了模型需要估计参数的个数,因此对模型复杂程度进行了惩罚,但随着样本量的增加惩罚的力度递减(Mulaik, 2009)。


2.2 贝叶斯信息准则(Bayesian information criterion BIC; Schwartz, 1978)

BIC用于模型选择最早由Raftery (1986a, 1986b)提出,随后被研究者广泛采用,目前几乎所有的SEM软件都报告BIC指数,Mplus报告BIC1

式中N为样本量,t为自由参数的个数。另外Mplus还报告一个样本校正的BIC,此时用N* = (N + 2) / 24取代式中的N。


3 拟合指数评价

3.1 近似拟合指数的临界值是金标准吗?

(1)推荐的临界值在研究者中间并未达成共识;

有研究者完全否定近似拟合指数在模型评价中的作用(Barrett, 2007; Millsap, 2007; Markland, 2007)。

(2)理想条件获得的标准去评价实际研究存在困难;目前被广为接受的标准是Hu和Bentler(1999)模拟的结果,而他们的实验条件并没有普遍性。


3.2 作为一般的SEM使用者,我们该怎么做?

(1)不能简单地根据单个拟合指数做出接受或拒绝模型的决定(Kline, 2010);

(2)拟合指数达到了要求也不能说明模型是有效的;

(3)综合各种拟合指数以及模型的预测力等多方面的信息(Markland, 2007; Kline, 2010),如此才能将犯错误的可能性降到最小。

声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。

感谢您抽出  · 来阅读此文

更多精彩请点击下列分类文章

↓↓↓

Mplus | 验证性因素分析概述

Mplus | 调节效应检验详解

Mplus | 中介效应检验详解

心理学期刊预印本政策声明

《心理学报》2017年度优秀论文奖

治疗

只有在治疗结束的时候,当患者走到门口时甩出了告别前的最后一句话,所谓的退场白,对治疗师的移情才表现出来。

向左滑动

关注“自我整合”

从心开始做更好

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存