因素分析的基本原理
作者:红豆牛奶 审核:X 封面:自己想吧
1因素分析含义
因素分析是基于相关关系对众多数据进行降维(即简化)的数据处理方法,目的在于挖掘出众多数据后的某种结构。因素分析分为探索性因素分析和验证性因素分析,笔者将重点来介绍探索性因素分析。
探索性因子分析含义:依据样本数据,根据变量间相关性的大小对变量进行分组,每组内的变量之间存在较高相关性,意味着这些变量背后有共同的制约因素,用这些公共因子来代替原始的众多变量的过程。
2因素分析的条件
(1)所有变量须为连续变量,顺序变量与类别变量不能进行因素分析。
(2)样本量有一定的规模。实际上,对因素分析所需的样本数没有绝对的标准。但现在比较认同的有两个观点:
多数学者认为,受试样本数要比量表题项数多(如一个量表有20个题项,则在因素分析时,样本数要>=20。)
学者Gorsuch(1983)提出,题项与受试者的比例最好为1:5;受试总样本数不得少于100人,若研究主要目的为找出变量群中涵括何种因素,则样本数要尽量大。
(3)变量间的相关程度。因素分析要求变量间有适当的相关性,若相关程度太高,可能会发生多重共线性问题;若相关程度太低(一般绝对值<0.3)可能不存在公共因子,则不适合进行因素分析。在SPSS中,可用球形检验与KMO检验来验证。
巴特莱特球形检验(Bartlett-test of sphericity),若其统计量较大且P值<0.05,则可以进行因素分析。
KMO取样适合度检验:
K M O 统计量值 | 因素分析适合性 |
0.90以上 | 极适合进行因素分析 |
0.80以上 | 适合进行因素分析 |
0.70以上 | 尚可进行因素分析 |
0.60以上 | 勉强可进行因素分析 |
0.50以上 | 不适合进行因素分析 |
0.50以下 | 非常不适合进行因素分析 |
3筛选题项
若题项间有明显的相关关系,则因素分析会构建成有意义的内容,若一个变量与其它变量相关性很低,在下一个步骤中可以考虑剔除一个变量,但实际排除与否,还要考虑变量的共同性和因素负荷量。若以原始资料做因素分析的数据时,电脑会自动先转化为相关矩阵方式,再进行因素分析。
4确定公共因子的数量
(1)Kaiser's准则,选取特征值大于1的,这也是SPSS 默认标准。特征值反映了原始变量的总方差在各公共因子上重新分配的结果。特征值越大该公共因子就越重要。
(2)陡坡图检验法(scree plot test),将每个因素依其特征值的大小递减排列,根据陡坡图的形状,提取图中最大拐点前“碎石”的数量。
(3)累积贡献率原则。根据前几个成分累积贡献率达到的百分比来确定公共因子的数量(一般最少为50%以上的累积解释变异量),方差贡献率是指单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小,贡献率越高说明该因子所代表的原始信息量越大。此方法可以保证较高的累计贡献率,但提取的公共因子的数量一般较多。
(4)若对于业务非常了解,可以事前定好因素数目。
5选择抽取共同因素的方法
(1)提取因子的方法有七种:主成分分析法、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法、映象因素抽取法。
(2)如何选取?
一是考虑因子分析的目的,二是对变量方差的了解程度。具体来说,如果因子分析的目的是用最少的因子最大程度解释原始数据的方差,则应用主成分分析法,主成分分析法(PFA)为最常用的方法;若因子分析的主要目的是确定数据结构,则适合用主轴因子法,因为主轴因子法符合理论要求,不过,二者的结果通常一致。
ps:主成分是以全体变异量为分析对象,主轴因素法是以变量间的共同变异量为分析对象。
6因素旋转
因素旋转后因子载荷将得到重新分配,因子载荷的差异变大,使得因素负荷量易于解释。
(1)常用方法:最大变异法(Varimax)、四次方最大值法(Quartimax)、相等最大值法(Equamax)、直接斜交转轴法(Direct Oblimin)、Promax转轴法。前三种属于正交转轴法,即因素与因素间没有关联;后两者为斜交转轴法,表示因素与因素间有某种程度的相关。若为正交旋转,以旋转后因素负荷量矩阵为准;斜交旋转,建议以模式矩阵(即因素对项目的加权系数)为准。
(2)优缺点:正交旋转能容易地解释和表示因子分析的结果,但有些因子可能不一定完全无关,违背了实际情况,与实际不符。斜交旋转则更接近实际情况,符合现实,但研究者必须探测出各因子确切的相关系数,确定斜交旋转的参数。
7公共因子的命名
根据因素负荷量将项目归类,参考因素负荷量绝对值>30的项目,认真思考总结各个因子下原始变量的共同特征,对因素加以命名。
下节我们将以一个案列来向各位演示具体的操作,请持续关注!
学堂君的历史合辑:
欢迎添加
【数据分析服务】微信号:LYJ_312
【社群服务助手】微信号:spss_shequn