查看原文
其他

SPSS超详细教程:主成分分析

2017-11-16 李侗桐 医咖会

1、问题与数据

某公司经理拟招聘一名员工,要求其具有较高的工作积极性、自主性、热情和责任感。为此,该经理专门设计了一个测试问卷,配有25项相关问题,拟从315位应聘者中寻找出最合适的候选人。


在这25项相关问题中,Qu3-Qu8、Qu12、Qu13测量的是工作积极性,Qu2、Qu14-Qu19测量的是工作自主性,Qu20-Qu25测量的是工作热情,Qu1、Qu9-Qu11测量的是工作责任感,每一个问题都有非常同意“Agree”、同意 “Agree Some”、不确定“Undecided”、不同意 “Disagree Some”和 非常不同意 “Disagree”五个等级。


该经理想根据这25项问题判断应聘者在这四个方面的能力,现收集了应聘者的问卷信息,经汇总整理后部分数据如下:


2、对问题的分析

研究者拟将多个变量归纳为某几项信息进行分析,即降低数据结果的维度。针对这种情况,我们可以进行主成分提取,但需要先满足2项假设:


假设1:观测变量是连续变量或有序分类变量,如本研究中的测量变量都是有序分类变量。


假设2:变量之间存在线性相关关系。


经分析,本研究数据符合假设1,那么应该如何检验假设2,并进行主成分提取呢?

3、SPSS操作

(1) 在主页面点击Analyze→Dimension Reduction →Factor


 

弹出下图

 


(2) 将变量Qu1-Qu25放入Variables栏


 

(3) 点击Descriptive弹出下图


 

(4) 点选Statistics栏的Initial solution选项,并点选Correlation Matrix栏的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image选项



(5) 点击Continue→Extraction


 

(6) 点击Display栏中的Scree plot选项

 


(7) 点击Continue→Rotation

 


(8) 点选Method栏的Varimax选项,并点选Display栏的Rotated solution和Loading plot(s)选项



(9) 点击Continue→Scores

 


(10) 点击Save as variables,激活Method栏后点击Regression选项


 

(11) 点击Continue→Options

 


(12) 点击 Sorted by size和Suppress small coefficients选项,在Absolute value below栏内输入“.3”


 

(13) 点击Continue→OK


假设检验


假设2:线性相关关系


经上述操作,SPSS输出相关矩阵表如下:


在变量比较多的时候,各变量之间的相关矩阵表会非常大。如在本研究中,相关矩阵是一个26*26的表格,为了在一个视野中展示数据,我们只能列出部分结果。


该表主要用于判断各变量之间的线性相关关系,从而决定变量的取舍,即如果某一个变量与同一分组中其他变量之间的关联性不强,我们就认为该变量与其他变量测量的内容不同,在主成分提取中不应该纳入该变量。


一般来说,如果相关系数大于等于0.3,我们就认为变量之间存在较好的线性相关性。从本研究的结果来看,在分别对应聘者工作积极性(Q3-Q8,Q12,Q13)、工作自主性 (Q2,Q14-19)、工作热情(Q20-25)和工作责任感(Q1,Q9-11)的测量中,每组变量之间的相关系数均大于0.3,说明各组变量之间具有线性相关关系,提示满足假设2。


此外,检验主成分分析数据结构的方法还有以下三种:用Kaiser-Meyer-Olkin (KMO)检验对数据的总体分析,KMO检验对各变量的单独分析以及Bartlett's 检验 (Bartlett's test of sphericity)。接下来,我们将对这三种方法进行逐一介绍。


KMO检验对数据结构的总体分析


KMO检验主要用于主成分提取的数据情况。一般来说,KMO检验系数分布在0到1之间,如果系数值大于0.6,则认为样本符合数据结构合理的要求。但既往学者普遍认为,只有当KMO检验系数值大于0.8时,主成分分析的结果才具有较好的实用性,具体系数对应关系如下:



SPSS输出本研究结果如下:


 

即本研究的KMO检验系数为0.833,根据系数对应关系表,我们认为本研究数据结构很好(meritorious),具有相关关系,满足假设2。


KMO检验对各变量的单独分析


SPSS输出各变量的KMO检验结果如下:


 

整理为:

 


同上述对总体KMO检验系数的介绍,KMO检验对单个变量的分析结果也在0到1之间分布,如果系数大于0.5,则认为单个变量满足要求;如果系数大于0.8,则认为单个变量结果很好。在本研究中,任一变量的KMO检验结果均大于0.7,即各变量结果一般,但仍满足假设2。


Bartlett's检验


Bartlett's检验的零假设是研究数据之间的相关矩阵是一个完美矩阵,即所有对角线上的系数为1,非对角线上的系数均为0。


在这种完美矩阵的情况下,各变量之间没有相关关系,即不能将多个变量简化为少数的成分,没有进行主成分提取的必要。因此,我们希望拒绝Bartlett's检验的零假设,SPSS输出结果如下:


 

在本研究中,Bartlett's检验的P值小于0.001,拒绝零假设,即认为研究数据可以进行主成分提取,满足假设2。

4 、结果解释

对主成分结果的分析主要从公因子方差(communalities)、提取主成分和强制提取主成分三个方面进行。接下来,我们将向大家进行逐一介绍。


4.1 公因子方差结果


SPSS输出公因子方差结果如下:


 

在这个阶段,研究中有多少个变量数据结果就会输出多少个成分。如在本研究中共有25个变量,就会对应产生25个成分。


在上表中,“Initial”栏提示的当所有成分都纳入时,每个变量变异被解释的程度为1,即100%被解释。这是很好理解的,因为在这一阶段,我们没有剔除任何信息,数据中的变异都可以被解释。


而“Extraction”栏提示的是当我们只保留选中的成分时,变量变异被解释的程度。这也是很好理解的,因为我们只保留了部分成分,所有变量变异被解释的程度会降低。


这个表只是帮助大家对主成分提取结果有一个初步的认识,接下来我们要进入主要的分析阶段。


4.2 提取主成分


正如上文所述,研究中有多少个变量,主成分提取就会产生多少个主成分。而我们主要的目的就是通过选取主成分,对数据进行降维,但同时也要注意尽可能多地包含对数据变异的解释。


一般来说,结果输出的第一主成分包含最多的数据变异,第二主成分次之,之后的主成分包含的变异程度依次递减。SPSS输出结果如下:


 

上表标注部分是对研究中所有主成分的介绍。本研究中共有25个变量,那总特征值(eigenvalues of variance)就是25,即每个变量自身的特征值为1。


Total栏提示的是各主成分对数据变异的解释程度。以第一主成分为例,其特征值为6.730,占总体变异的6.730/25×100 = 26.919% (% of Variance栏)。同理,第二主成分的特征值为3.342,占总体变异的13.369%,以此类推。


那么,我们应该如何提取主成分呢?


目前主要有4种方法可以帮助大家判断提取主成分的数量,分别是: (1) 特征值大于1,(2) 解释数据变异的比例,(3) 陡坡图检验,和 (4) 解释能力判断,我们将逐一向大家介绍。


(1) 特征值大于1


一般来说,如果某一项主成分的特征值小于1,那么我们就认为该主成分对数据变异的解释程度比单个变量小,应该剔除。本研究结果如下:


 

从上表可知,第五主成分的特征值为1.049,大于1;而第六主成分的特征值为0.951,小于1,即应该保留前五位的主成分,剔除剩余部分。


这种方法的主要问题在于,如果研究结果中某些主成分的特征值十分接近1,那么该方法对提取主成分数量的提示作用将变得不明显。比如,某研究第五主成分的特征值为1.002,而第六主成分的特征值为0.998,虽然该方法仍建议保留前五位主成分,但是我们会对是否也应该保留第六主成分产生质疑,需要其他方法辅助判断。


(2) 解释数据变异的比例


在根据主成分解释数据变异比例判断提取主成分的数量时,我们主要依据单个主成分解释数据变异的比例和前几位主成分解释数据变异的总比例两个指标。SPSS输出结果如下:

 


首先,既往研究认为提取的主成分至少应该解释5-10%的数据变异。根据这一指标,我们认为应该提取前四位主成分(第四主成分解释8.070%的数据变异,第五主成分解释4.196%的数据变异)。


而同时,既往学者也认为提取的主成分应累计解释60-70%的数据变异。相应的根据这一指标,我们认为应该提取前五位主成分(前四位主成分累计解释59.949%的数据变异,前五位主成分累计解释64.145%的数据变异)。


这种判断方法的不足在于比较主观,我们既可以提取60%,也可以提取70%,而这10%的比例差异往往导致提取主成分数量的不同。


(3) 陡坡图(scree plot)检验


SPSS输出陡坡图如下:

 


陡坡图是根据各主成分对数据变异的解释程度绘制的图。图上,每一个主成分为一个点,我们通过“陡坡趋于平缓”的位置判断提取主成分的数量。在本研究中,第五主成分之后的数据趋于平缓,因此我们认为可以提取前四位主成分。


(4) 解释能力判断


大家都知道,我们进行主成分提取的目的是对数据结构进行降维,但同时我们也要注意的是提取后的主成分应具有一定的意义,即对研究内容具有解释能力。各主成分对相应变量的解释能力(相关系数小于0.3的数据已剔除),如下表:


 

从上表可见,当我们提取前五位主成分时,数据结构仍比较复杂,存在两个主成分同时解释一个变量的情况。比如,第一主成分和第五主成分同时解释Qu18变量;再如,第二主成分和第五主成分同时解释Qu8变量。


在这种情况下,主成分提取的结果比较难解释。比如,我们无法区分变量Qu18的信息是由第一主成分反映,还是由第二主成分反映。因此,我们比较倾向于提取未对任何变量进行重复解释的主成分,即提取前四位主成分。


大家应该已经注意到,不同方法提示的主成分提取数量并不完全相同,这就要求我们根据研究经验和目的做出自己的取舍。简而言之,提取主成分的判断是一个比较主观的过程,并没有最优的判断方法,各方法的优缺点都是相对而言的。


针对本研究,我们认为应该提取前四位主成分,这一结果与陡坡图检验和解释能力判断的提示相同,但与特征值大于1和解释数据变异比例的提示不同,是研究者根据实际情况进行的综合判断。


4.3 强制提取主成分


因为SPSS自动输出的主成分提取结果主要是根据特征值大于1这项指标判断的,并不一定符合我们的实际需要,所以我们在实际工作中往往要进行强制性提取主成分的工作,其SPSS操作如下:


(1) 在主页面点击Analyze →Dimension Reduction →Factor

 


弹出下图

 


(2)点击Extraction

 


(3)点击Extract栏内的Fixed number of factors选项,并在Factors to extract栏内填入4


 

(4)点击Continue→OK


经过上述SPSS操作,我们得到的结构与前文提到的基本相同,只不过主成分提取数量固定为4,而不是之前SPSS自动输出的前五位主成分。Total Variance Explained表输出结果如下:


 

该表提示,前四位主成分对数据变异的累计解释比例为59.9%,与之前的结果相同。可见我们提取主成分后,只纳入了原数据信息的59.9%,不到60%,但提取的每一项主成分对数据变异的解释比例都大于5%。


Rotated Component Matrix表(剔除相关系数小于0.3的数据)输出提取后各主成分对变量的解释情况如下:


 

研究者在设计问卷时,拟使用Qu3-Qu8、Qu12、Qu13测量工作积极性,Qu2、Qu14-Qu19测量工作自主性,Qu20-Qu25测量工作热情,Qu1、Qu9-Qu11测量工作责任感。


从上表可知,提取前四位后各主成分解释的变量信息与该分类基本相同。对应地,第一主成分主要反映工作积极性,第二主成分主要反映工作自主性,第三主成分主要反映工作热情,而第三主成分主要反映工作责任感。可见,提取前四位主成分具有较好的结果解释能力。


当然,为了更好地汇报结果,我们需要将相关系数小于0.3的数据补齐,SPSS操作方法是在Factor Analysis界面内点击Coefficient Display Format栏内的Sorted by size选项,如下:


 

重新运行主成分分析后,SPSS输出下表:


 

该表包含了提取后各主成分与变量之间的所有相关系数,但是这样并不容易观察到主成分与变量之间的关系。我们进一步将大于0.3的相关系数加粗,便于大家理解,如下所示:


5、撰写结论

本研究采用主成分分析,通过25项问题调查315位应聘者的工作能力。研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3),数据结构合理(KMO检验系数为0.833,单个变量的KMO检验系数均大于0.7,Bartlett's检验结果为P<0.001),提示研究数据可以进行主成分提取。


主成分提取结果提示,本研究中前五位主成分的特征值大于1,分别解释26.9%、13.4%、8.1%和4.2%的总数据变异。但陡坡图分析提示应提取前四位主成分(图1),同时解释能力判断也提示提取前4位主成分比较符合研究实际需要。


 Figure 1 Scree Plot


因此,本研究最终提取前四位主成分。提取后的主成分累计解释59.9%的数据变异,分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感,详见表1。


Table 1. Rotated Structure Matrix for PCA with Varimax Rotation of a Four Component Questionnaire

 

后记:根据主成分提取的结果,研究者可以计算相应的主成分得分或者直接将提取后的主成分作为新生成的变量进行数据分析。在保留大部分原始信息的情况下,主成分提取主要用于降低数据维度,简化数据结构,帮助研究者更好地解释研究内容和结果。


(如果你想使用文中数据进行练习,请随时给小咖(微信:xys2016ykf)发消息,小咖将原始数据发给你。)



更多阅读

1.【合集】36种统计方法的SPSS详细操作

2. SPSS操作:问卷的信度分析『克朗巴哈系数(Cronbach's α)』

3. SPSS详细教程:三因素重复测量方差分析

医咖会微信:medieco-ykh

关注医咖会,轻松学习统计学~


有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。如果想进群,添加小咖时请注明“加群”二字。


点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存