Growth Mixture Modeling(混合增长模型)
在理解了LGM模型后,各位读者应该已经了解如何利用Mplus语句来估计个体的变化轨迹。尽管LGM模型对于重复测量方差分析已有诸多优势,但个体发展的模式是复杂多样的,LGM用一个平均截距和平均斜率来估计整个样本中的所有参与者,这可能未能反映个体发展的真实情况。
因为样本中个体存在异质性,所以很有可能并非所有个体都来自同一个总体(例如社会经济地位不同、有的个体具有较高风险),故来自不同总体的个体预期应该会有不同的变化轨迹(如图1,左图中可以看到整体分数都在升高,但右图发现有一组样本亚群体的分数在下降)。为了解决这个问题,研究者们考虑使用Mplus软件中growth mixture modeling(混合增长模型)的语句来鉴别出可能属于不同总体的个体。
图1. Adapted from Jung & Wickrama(2008)和Feldmanet al.(2009)
混合增长模型可以看作是潜增长模型(latent growth model)和潜分类模型(latent class model)的结合,此时分组的依据是个体的变化趋势,即每个个体的(intercept)和(slope)以及有可能还包括q斜率变化率(图2)。与潜分类模型类似的是,混合增长模型也是一种数据驱动的分析方法,由于Mplus不报告模型绝对拟合指数G2(类似于卡方),因此研究者需要综合考虑多个指标和多种可能性来决定最恰当的分类方法。
图2 From Mplus User’s Guide
读者可以参考Feldman et al.(2009)和Jung & Wickrama(2008)两篇统计方法学的文章来获得对GMM模型的更多更深入的了解,本文摘取文章中呈现的Mplus语句作此模型的简要说明(见图3)。
图3
首先需要添加分类有关的语句:
CLASSES= C(2) ;
!这是获得2组分类的解决方案的语句
其次需要提示Mplus模型是混合模型,加入如下语句:
ANALYSIS:TYPE = MIXTURE; ALGORITHM = INTEGRATION ;
然后,由于现在的分类方式里存在不同的组,因此模型中要对不同的组加以区分:
%OVERALL%
!这是针对整个样本的语句
%C#1%
i on X ; s on X ;
或者C#1 ON X ;
!这是针对第一个组的语句,可以用于对比第一组与其他组
再就是,在输出的结果中加上TECH11和TECH14以获得Lo-Mendell-Rubinadjusted likelihood ratio test(LMR-LRT)和parametric bootstrappedlikelihood ratio test(BLRT)的结果来帮助模型比较和选择:
OUTPUT : TECH11 TECH14 ;
最后,为了能保存最终每个个体被分类到的组别,需要单独存档一个文件:
ID= FAMID ;
!这能让保存的文件中以参与者的ID作为某人被分到某个组的识别标志
SAVEDATA :
FILE= xxx.dat ;
SAVE= CPROB FSCORES ;
!保存下来每个参与者的分类情况和其对应i和s的分数
通过对GMM模型语句的简要介绍,读者们能够大致了解这类模型语句的必要成分。下面进一步介绍使用GMM方法要报告或关注的结果部分,主要分为三类:
(1)模型拟合;
(2)模型比较;
(3)模型分类结果的可靠性。
模型拟合:AIC、BIC和Entropy。
①由于Mplus模型结果中只有相对拟合指数AIC和BIC,因此这里AIC和BIC也仅能作为各个模型结果比较的依据,而没有一个数值大小的“金标准”,研究者应该选择AIC和BIC较小的模型。
②Entropy(熵)是模型分类的准确性指标,熵越高的模型越有可能将参与者准确地分类到最符合其特点的组内,熵的范围在0~1间,原则上熵应该至少大于.80或.75才表明模型分类结果具有一定可靠性,研究者应该选择Entropy较高的模型。
模型比较:LMR-LRT和BLRT。
LMR-LRT和BLRT都是模型比较的指标,二者均是衡量k-class模型与(k-1)-class模型差异的指标(例如,4-class模型与3-class模型),当LMR-LRT和BLRT显著时,表示k-class模型显著优于(k-1)-class模型,研究者应该选择k-class模型;当LMR-LRT和BLRT不显著时,表示k-class模型显著与(k-1)-class模型无差异,原则上研究者应该选择节俭模型(parsimoniousmodel),即(k-1)-class模型。
模型分类结果的可靠性:5%、interpretation和averagelatent class probabilities。
①研究者普遍认为分类结果中任何组需要包含至少大于等于5%样本的人数。
②分类结果的可解释性和与理论的匹配度是选择最终模型的重要参考因素,分类仅仅是描述性统计,下一步应该以post hoc检验分类结果,同时探究出现不同亚组的可能的原因或者不同亚组对随后发展结果的影响。
③平均分类的可能性应该在组内越高越好,在组间越低越好,换句话说,在同一个组内的参与者应该尽可能的相似(大于0.90或0.80),而属于不同组的参与者应该尽可能的不同(小于0.10或0.20)。
除了上述所提及的要点以及语句有关的介绍,读者们应该也注意到在图3中有关于(int),(slope),(quad)变异的设定,具体为int*;slope@0;quad@0;。
这些语句对于每个组内的个体的相似性有所限定,这三条语句限定每个组内的个体的截距是不同的,但是他们的斜率和斜率的变化率是没有差异的。限定这些参数自由估计能够提供更多的自由度,因而可以估计更复杂的模型,但反之,让这些参数自由估计更符合“真实”情况,故研究者需要权衡是否需要加上这些限定的语句。
特别的是,当假设组内无任何变异时(即i@0;s@0;q@0)的GMM模型也被称作latent class growth model(LCGM)或latent class growth analysis(LCGA),此时不再假设某一时间点的观测变量服从组内正态分布,而是服从一个由固定点的数值所组成的分布(见图4)。读者可以将LCGM/LCGA理解为GMM的一种特殊形式,这个模型由于提供了更多的自由度,因此可以适用于较小的样本或者较复杂的模型。
图4
希望以上关于GMM模型的介绍对各位读者有所助益。
本期作者:董书阳
热门推荐:
Latent Transition Analysis(潜在群组转变): Mplus分析详解
...
更多热门文章等你来发现
如果涉及统计及代码问题,请您在文章下方留言或邮寄uunotebook@163.com。