11种与机器学习相关的多元变量分析方法汇总
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@sina.cn
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
在社会科学研究中,主要的多变量分析方法包括多变量方差分析(Multivariate analysis of variance,MANOVA)、主成分分析(Principal component analysis)、因子分析(Factor analysis)、典型相关(Canonical correlation analysis)、聚类分析(Cluster analysis)、判别分析(Discriminant analysis)、多维量表分析(Multidimensional scaling),以及近来颇受瞩目的验证性因子分析(Confirmatory factor analysis )或线性结构模型(LISREL)与逻辑斯蒂回归分析等,以下简单说明这些方法的观念和适用时机。
1 多变量方差分析
MANOVA适用于同时探讨一个或多个自变量与两个以上因变量间因果关系的统计方法,依照研究者所操作自变量的个数,可以分为单因素(一个自变量)或多因素(两个以上自变量)MANOVA。进行多变量方差分析时,自变量必须是离散的定类或定序变量,而因变量则必须是定距以上层次的变量。
2 主成分分析
主成分分析的主要功能在分析多个变量间的相关,以建构变量间的总体性指标(overall indicators)。当研究者测量一群彼此间具有高度相关的变量,则在进行显著性检验钱,为避免变量数过多,造成解释上的复杂与困扰,常会先进行主成分分析,在尽量不丧失原有信息的前提下,抽取少数几个主成分,作为代表原来变量的总体性指标,达到资料缩减(data reduction)的功能。进行主成分分析时,并无自变量和因变量的区别,但是所有的变量都必须是定距以上层次变量。
3 因子分析
因子分析与主成分分析常被研究者混用,因为二者的功能都是通过对变量间的相关分析,以达到简化数据功能。但不同的是,主成分分析是在找出变量间最佳线性组合(linear combination)的主成分,以说明变量间最多的变异量;至于因子分析,则在于找出变量间共同的潜在结构(latent structure)或因子,以估计每一个变量在各因子上的负荷量(loading)。进行因子分析时,并无自变量和因变量的区分,但是所有变量都必须是定距以上层次变量。
4 典型相关
典型相关可视为积差相关或多元回归分析的扩展,主要功能在分析两个变量间的相关。进行多元回归分析的目的,是在分析一个或多个自变量与一个因变量间的关系,而典型相关中因变量也可以是多个;也就是说,典型相关的目的在于通过计算得到两个变量线性组合的加权系数。以使(maximum)两个变量间的相关达到最大化。进行典型相关时,并无自变量和因变量的区分,但是所有变量都必须是定距以上层次变量。
5 聚类分析
聚类分析的主要功能在进行分类(classification),当研究者有观测值时,常会根据观测值的相似性或差异性进行分类,以形成几个性质不同的类别,简化解释的工作。也就是说,聚类分析根据对变量进行测量的观察值进行分类,以达到组内同质、组间异值的目的。其次,聚类分析完成后,通常可以进行判别分析,以识别分类的效度。当然,在某些时候也可以对变量进行分类(此功能类似因子分析,因此多采用因子分析解决问题)。进行聚类分析时,并无自变量和因变量的区分,但是所有变量都必须是定距以上层次变量。
6 判别分析
判别分析是多变量分析中应用相当广泛的统计方法,它可以用来对样本进行分类的工作;也可以用来了解不同类别样本在某些变量上的差异情形;同时也可以根据不同类别的样本在某些变量的实际表现,用来预测新的样本属于某一类别的概率。因此,在行为科学中,常见的研究者单独使用判别分析,建立判别函数(discriminant function),以对新样本进行预测;或是多变量方差分析的检验值达到显著性水平后,比较不同组别样本在因变量平均数的差异情形;或是聚类分析后,检验聚类分析的正确性。进行判别分析时,自变量是定距以上层次变量,至于因变量通常是离散变量。
7 多维量表分析
多维量表分析基本上也是一种分类的统计方法,他在市场上普遍被应用。当研究者想要解释一群受试者(例如消费者)对一组客体(例如商品)在某些变量上相似性的测量中所包含的信息,此时多维量表分析就是一个相当适用的方法。研究者只要将这一组客体在变量上的测量值转化成多维度的几何表征,就能够将这些客体有效地显示在这个几何空间中,达到分类的目的,同时也可以进一步解释这些几何表征所代表的潜在结构或意义。进行多维量表分析时,并无自变量和因变量的区分,同时变量可以是等距以上变量,也可以是定类或定序变量。
8 线性结构方程
线性结构方程是一个相当具有变通与弹性的统计方法,随着研究者对变量间关系界定的差异,LISREL的常见名称包括协方差结构分析,潜变量分析、线性结构模型或验证性因子分析。LISREL可视为多元回归分析与因子分析两个方法论的整合模型,让研究者可以探讨变量间的线性关系(回归分析),并对可测量显变量与不可测量的潜变量见(因子分析)的因果模型作假设检验。
9 逻辑斯蒂回归分析
逻辑斯蒂回归可视为传统多元回归分析的一个特列。它和多元回归分析一样,都具有解释自变量与因变量之间的关系,并可进行预测。所不同的是在进行多元回归分析时,包括自变量与因变量都必须是定距以上层次变量;但在进行逻辑斯蒂回归分析时,自变量仍是定距以上层次变量,因变量则是二分的定类变量或多分定类变量或定序变量。
10 对数线性方程
在基本统计学中,当研究者面对探讨两个定类或定序变量间关系的研究问题时,都是以卡方检验来进行假设检验。当问题的性质是探讨两个定类变量间是否独立或是关联强度时,是以卡方独立性检验来进行假设检验。进行卡方独立性检验时,研究者必须将样本在两个定类变量上的反应,建立二维列联表(contingency table),以进一步根据列联表中各单元格(cell)的次数反应,进行显著性检验。但当研究者面对三个或三个以上的定类变量时,所建立的多元列联表间变量关联的分析,卡方独立性检验将无法解决这样的问题,此时适合的方法就是对数线性模型。利用对数线性模型来解决多元列联表的问题的目的,主要就在于探讨构成列联表的多个定类变量间的关系,进而在精简原则下构建拟合的解释模型,并根据所建立的模型估计单元格参数值,以了解各变量效果对单元格次数的影响。
11 Logit对数线性模型
Source:
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 |
计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 |
数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。