“因子分析”(Factor Analysis)常与主成分分析相提并论,难免让初学者混淆。简单地说,二者既有区别,也有联系(读完本文即可明白)。事实上,因子分析也是一种古老的多元统计方法,最早由英国心理学家与统计学家 Charles Spearman在1904年提出(Spearman 对统计学的另一贡献为 Spearman's rank correlation coefficient)。
Spearman 观察到,在校生不同科目的成绩之间存在正的相关性,而这些科目之间可能并没有太多直接联系(比如语文、历史、数学)。那么这种正相关性从何而来呢?Spearman 认为,这种相关性是由于某种 “共同因子”(common factor)所驱动,他称之为 “一般智力”(general intelligence),以 g 表示。比如,假设个体 i 的科目 j 成绩由以下方程决定:
其中, 为个体 i 的智力因子( 因个体而异,其取值称为 “因子得分”,即 factor score), 为 “因子载荷”(factor loading),即智力因子 对科目 j 成绩的影响系数,而 为共同因子 所不能解释的其他因素,有时也称为 “特别因子”(specific factors)。假设 与 之间互不相关,而 与 也不相关,则科目 j 与科目 k 成绩之间的相关系数仅取决于因子载荷:由此可见,因子分析可将多个变量之间的相关关系通过更少的几个共同因子(此例为单一因子)来描述。这是因子分析的主要用途。但问题在于,这些因子为不可观测的随机变量(例如,如何测量智力?)。进一步,因子载荷也是不可观测的。事实上,方程(1) 右边所有的量都是不可观测的,而只有左边可以观测。在某种意义上,因子模型与神话故事有异曲同工之妙:它很吸引人,却难以把握。正因为如此,自诞生之日起,因子分析就披上了神秘的面纱,时有争议与误解。所幸,这似乎并不影响其广泛应用。比如,如将单因子模型应用于金融市场,考虑到不同股票经常共同涨跌,可假设所有股票的收益率受到一个共同的 “市场因子”(market factor)所驱动 (Sharpe, 1970)。
多因子模型(Multi-factor Model)
单因子模型显然过于简单。比如,考察以下 6 门科目成绩的相关系数矩阵:
从此相关系数矩阵可看出,前 3 门文科成绩之间较为相关,而后 3 门理科成绩之间也较为相关。一个自然的猜想是,除了 “智力因子” 外,是否还存在 “文科因子” 与 “理科因子” 共同驱动这些相关性?又比如,考察以下 5 只股票收益率的相关系数矩阵:不能看出,前 3 只金融股收益率之间较相关,而后 2 只石油股收益率之间也较相关。因此,除了 “市场因子” 外,是否还存在 “金融行业因子” 与 “石油行业因子” 共同驱动这些相关性?假设可观测的 p 维随机向量 ,其期望为 ,协方差矩阵为 ,由以下因子模型所决定:其中, 为不可观测的 “共同因子”(common factors), 为 “因子载荷”(factor loading of the jth variable on the kth factor事实上,如果共同因子 可观测,则上述因子模型就是 p 个多元回归方程(共有 p 个被解释变量 , m 个解释变量 ),而因子载荷就是相应的回归系数。
显然,由于该方程右边所有的量均不可观测,故如果不对此因子模型施加进一步的约束条件或假设,则该模型为不可识别(unidentified without further assumptions)。2. (将共同因子 的期望标准化为0), (假设不同因子之间正交,并将其方差标准化为1)3. (将特别因子的期望标准化为0), (特别因子 的协方差矩阵为对角矩阵,故不存在自相关)其中,右边第一项 为可由共同因子解释的部分,而右边第二项 为共同因子所不能解释的部分。其中,可由共同因子解释的部分()称为 “communality”,而其余部分()称为“specific variance”。一个更直接的度量是, 的 specific variance占其方差 的比重,称为 变量 的“独特性” (uniqueness):显然,uniqueness 越小,则说明可由共同因子解释的方差越大,一般希望 uniqueness 小于 0.6(否则,因子模型的用处不大)。尽管经典因子模型作了以上假定,但它依然没有唯一解。常见的解包括主成分解、主因子解与最大似然解等。另外,由于因子模型以 “交互固定效应”(interactive fixed effects)的形式出现于面板数据的前沿研究,故因子模型有望成为计量经济学的新宠,详见下期推文。
►往期推荐
回复【Python】👉简单有用易上手
回复【学术前沿】👉机器学习丨大数据
回复【数据资源】👉公开数据
回复【可视化】👉你心心念念的数据呈现
回复【老姚专栏】👉老姚趣谈值得一看
►一周热文
工具&方法丨还没理解主成分分析?理论与stata应用
数据呈现丨R VS Python,可视化效果孰强孰弱?
特别推荐丨老姚专栏:还拎不清主成分分析与因子分析?进来看看
工具&方法丨使用双重差分难?文献中的五套方法解惑
数据呈现 | R绘图:南丁格尔图,展示全国现制饮品店密度分布
这里是大数据、分析技术与学术研究的三叉路口
作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱