Mplus | CFA模型拟合评价
CFA模型拟合评价——王孟成老师
1 模型拟合评价
模型拟合评价可以分为两类(Yuan, 2005):假设检验和近似拟合检验。模型拟合(Model Fit)用于评价样本方差-协方差矩阵(S)与理论模型隐含的方差-协方差矩阵(E)之间的差距。
1.1 模型隐含的条目间协方差
A. 同一因子的2个条目之间的协方差:
B. 不同因子2个条目之间的协方差:
C. 误差相关的两个条目间的协方差:
1.2 假设检验卡方(Chi-Square, χ2)
A. 如果模型隐含的方差—协方差与观测到的样本方差—协方差之间的差异达到一定显著性水平(如0.05或0.01)上的临界值,那么模型将被拒绝。
B. 模型隐含的方差—协方差与观测方差—协方差之间的差异服从χ2分布,所以采用χ2检验来衡量这个差异是抽样误差造成的还是实际存在的。
C. 卡方统计量是根据如下公式得到:
T = (N – 1) FML
D. FML为使用ML或其它估计法所得到的最小拟合函数值,N为样本量。当样本足够大,且符合多元正态分布时,(N – 1) FML服从中央卡方分布(Central Chi-square Distribution),即从样本获得的值接近于卡方真值。SEM软件会报告卡方值及显著性检验的结果。
1.2.1 Chi-Square, χ2的影响因素
(1)样本量:对样本量非常敏感,倾向于随样本量的增加而变大。
(2)数据分布形态:非正态分布时使用ML影响其精确性。
(3)观测指标的质量:如果观测指标之间的相关系数较高时也会高估卡方统计量(Kline, 2010)。
1.2.2 Chi-Square, χ2的评价
A. 在实践中研究者往往忽略显著的卡方差异检验结果,而将近似拟合指数作为接受模型的依据,Barrett(2007)强烈反对这种做法,认为所有SEM研究都应该报告卡方检验结果并以此做为接受或拒绝模型的依据。
B. 尽管这种观点过于偏激,但显著的卡方检验至少说明模型拟合并非完美,这一点需要引起研究者注意(Kline, 2010)。
1.3 近似拟合检验(Approximate Fit Tests)
近似拟合指数主要有如下三类:绝对拟合指数(Absolute Fit Indexes)、比较拟合指数(Comparative Fit Indexes)、 简约拟合指数(Parsimony-adjusted Index)。
1.3.1 绝对拟合指数
A. 标准化残差均方根 (Standardized Root Mean Square Residual, SRMR)直接对残差进行评价的指标,其取值范围在0-1之间,当值小于0.08时,表示模型拟合理想(Hu & Bentler, 1999)。
B. SRMR易受样本量影响,在处理类别数据时,表现不佳(Yu, 2002)。
值 | 评价 |
> .10 | poor fit |
.08 ~ .10 | mediocre fit |
.05 ~ .08 | acceptable |
.01 ~ .05 | close fit |
.00 | exact fit |
1.3.2 WRMR
Yu & Muthen(2001)模拟研究发现在样本量小于250时SRMR用于类别指标并不合适,他们提出一个新的指数:WRMR
Fmin是最小二乘估计时的最小拟合函数,n 表示样本量,e代表样本统计量的数目。WRMR<0.9表示拟合良好。
DiStefano和同事在CFA下考虑如下几个因素:样本量(250,500和100)、类别数目(2个和5个)负荷值(.25,.5和.8),模型误设(真模型、低水平误设=忽略2个跨负荷指标和高水平误设=忽略2个跨负荷指标+2个因子合并为一个因子)、指标分布形态(正态和非正态),通过模拟检验了WRMR的表现。结果发现:
(1) WRMR随样本量增加而增大,类似卡方的特性——随样本量增加而趋向于拒绝原假设。
(2) 将WRMR临界值设定在0.9时在多少条件下是合适的,但考虑到模型误设等条件,DiStefano等设定的临界值为1。
1.3.3 RMSEA
近似误差均方根(Root Mean Square Error of Approximation, RMSEA, Steiger & Lind, 1980 )受样本量影响小,对模型误设较敏感,同时惩罚复杂模型,是比较理想的拟合指数,被广泛使用(Jackson et al., 2009; Marsh & Balla, 1994)。
RMSEA虽对模型复杂程度进行了惩罚,但随着样本量的增加惩罚的力度递减(Mulaik, 2009)。
值 | 评价 |
> .10 | poor fit |
.08 ~ .10 | mediocre fit |
.05 ~ .08 | acceptable |
.01 ~ .05 | close fit |
.00 | exact fit |
1.3.4 CFI
比较拟合指数 (Comparative Fit Index, CFI; Bentler, 1990)目前使用最广泛的指标之一(Fan, Thompson, & Wang, 1999),也是最稳健的指标之一(Hu & Bentler, 1999)。
CFI对样本量不敏感(Fan, Thompson, & Wang, 1999),在小样本中也表现不错(Tabachnick & Fidell, 2007)。
值 | 评价 |
< .85 | poor fit |
.85 ~ .90 | mediocre fit |
.90 ~ .95 | acceptable |
.95 ~ .99 | close fit |
1.00 | exact fit |
1.3.5 规范拟合指数(Normed Fit Index, NFI)
规范拟合指数的取值范围多数都在0-1之间,其中NFI提出较早(Bentler & Bonett, 1980),其意指研究模型与拟合最糟糕的独立模型相比改善情况,其式如下。
M0指变量之间不相关的独立模型,M1指研究设定模型。χ2M1越大,拟合越差。当研究的模型与理论暗含的模型相差较少时,NFI接近1,反之接近于0,一般以0.9作为临界值。NFI受样本量影响较大,其值随样本量的增加而变大,且会受到模型复杂程度的影响,所以研究者提出了考虑模型复杂度的校正指数非规范拟合指数NNFI。
1.3.6 NNFI/TLI
非规范拟合指数(Nonnormed Fit Index, NNFI)
由于NNFI的取值会超出0-1的范围,所以将其称为非规范拟合指数。通常将TLI>.90作为可接受的标准,>.95拟合较好(Hu & Bentler, 1999)。
值 | 评价 |
< .85 | poor fit |
.85 ~ .90 | mediocre fit |
.90 ~ .95 | acceptable |
.95 ~ .99 | close fit |
1.00 | exact fit |
2 信息指数
2.1 Akaike信息准则 (Akaike Information Criterion, AIC; Akaike, 1987)
logL为模型极大对数似然函数值;t为自由参数的个数;df为模型自由度。
AIC是基于信息理论发展出来的指数,倾向于支持AIC值较小的模型,常用于非嵌套模型比较(e.g., Kline, 2011; Raftery, 1995; Vrieze, 2012)。
AIC考虑了模型需要估计参数的个数,因此对模型复杂程度进行了惩罚,但随着样本量的增加惩罚的力度递减(Mulaik, 2009)。
2.2 贝叶斯信息准则(Bayesian information criterion BIC; Schwartz, 1978)
BIC用于模型选择最早由Raftery (1986a, 1986b)提出,随后被研究者广泛采用,目前几乎所有的SEM软件都报告BIC指数,Mplus报告BIC1。
式中N为样本量,t为自由参数的个数。另外Mplus还报告一个样本校正的BIC,此时用N* = (N + 2) / 24取代式中的N。
3 拟合指数评价
3.1 近似拟合指数的临界值是金标准吗?
(1)推荐的临界值在研究者中间并未达成共识;
有研究者完全否定近似拟合指数在模型评价中的作用(Barrett, 2007; Millsap, 2007; Markland, 2007)。
(2)理想条件获得的标准去评价实际研究存在困难;目前被广为接受的标准是Hu和Bentler(1999)模拟的结果,而他们的实验条件并没有普遍性。
3.2 作为一般的SEM使用者,我们该怎么做?
(1)不能简单地根据单个拟合指数做出接受或拒绝模型的决定(Kline, 2010);
(2)拟合指数达到了要求也不能说明模型是有效的;
(3)综合各种拟合指数以及模型的预测力等多方面的信息(Markland, 2007; Kline, 2010),如此才能将犯错误的可能性降到最小。
声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。
感谢您抽出
更多精彩请点击下列分类文章
↓↓↓
只有在治疗结束的时候,当患者走到门口时甩出了告别前的最后一句话,所谓的退场白,对治疗师的移情才表现出来。
向左滑动
关注“自我整合”
从心开始做更好