查看原文
其他

工具&方法丨古老而神秘的因子分析(一)

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

“因子分析”(Factor Analysis)常与主成分分析相提并论,难免让初学者混淆。简单地说,二者既有区别,也有联系(读完本文即可明白)。事实上,因子分析也是一种古老的多元统计方法,最早由英国心理学家与统计学家 Charles Spearman在1904年提出(Spearman 对统计学的另一贡献为 Spearman's rank correlation coefficient)。




Spearman的单因子模型


Spearman 观察到,在校生不同科目的成绩之间存在正的相关性,而这些科目之间可能并没有太多直接联系(比如语文、历史、数学)。那么这种正相关性从何而来呢?Spearman 认为,这种相关性是由于某种 “共同因子”(common factor)所驱动,他称之为 “一般智力”(general intelligence),以 g 表示。比如,假设个体 i 的科目 j 成绩由以下方程决定:
其中, 为个体 i 的智力因子( 因个体而异,其取值称为 “因子得分”,即 factor score), 为 “因子载荷”(factor loading),即智力因子  对科目 j 成绩的影响系数,而  为共同因子  所不能解释的其他因素,有时也称为 “特别因子”(specific factors)。
假设  与  之间互不相关,而  与  也不相关,则科目 j 与科目 k 成绩之间的相关系数仅取决于因子载荷:
由此可见,因子分析可将多个变量之间的相关关系通过更少的几个共同因子(此例为单一因子)来描述。这是因子分析的主要用途。
但问题在于,这些因子为不可观测的随机变量(例如,如何测量智力?)。进一步,因子载荷也是不可观测的。事实上,方程(1) 右边所有的量都是不可观测的,而只有左边可以观测。在某种意义上,因子模型与神话故事有异曲同工之妙:它很吸引人,却难以把握。
正因为如此,自诞生之日起,因子分析就披上了神秘的面纱,时有争议与误解。所幸,这似乎并不影响其广泛应用。比如,如将单因子模型应用于金融市场,考虑到不同股票经常共同涨跌,可假设所有股票的收益率受到一个共同的 “市场因子”(market factor)所驱动 (Sharpe, 1970)。




多因子模型(Multi-factor Model)


单因子模型显然过于简单。比如,考察以下 6 门科目成绩的相关系数矩阵:
从此相关系数矩阵可看出,前 3 门文科成绩之间较为相关,而后 3 门理科成绩之间也较为相关。一个自然的猜想是,除了 “智力因子” 外,是否还存在 “文科因子” 与 “理科因子” 共同驱动这些相关性?
又比如,考察以下 5 只股票收益率的相关系数矩阵:
不能看出,前 3 只金融股收益率之间较相关,而后 2 只石油股收益率之间也较相关。因此,除了 “市场因子” 外,是否还存在 “金融行业因子” 与 “石油行业因子” 共同驱动这些相关性?




一般的因子模型


假设可观测的 p 维随机向量 ,其期望为 ,协方差矩阵为 ,由以下因子模型所决定:
其中, 为不可观测的 “共同因子”(common factors),
 为 “因子载荷”(factor loading of the jth variable  on the kth factor
)。
事实上,如果共同因子  可观测,则上述因子模型就是 p 个多元回归方程(共有 p 个被解释变量 , m 个解释变量 ),而因子载荷就是相应的回归系数。
将因子模型写为更简洁的矩阵形式:

显然,由于该方程右边所有的量均不可观测,故如果不对此因子模型施加进一步的约束条件或假设,则该模型为不可识别(unidentified without further assumptions)。




因子模型的经典假定


为了识别此模型,经典的因子模型作了以下假定:
1. 共同因子  与特别因子  相互独立
2.  (将共同因子  的期望标准化为0), (假设不同因子之间正交,并将其方差标准化为1)
3. (将特别因子的期望标准化为0), (特别因子  的协方差矩阵为对角矩阵,故不存在自相关)
基于以上假设,可将  的协方差矩阵  分解为两部分:
其中,右边第一项  为可由共同因子解释的部分,而右边第二项  为共同因子所不能解释的部分。
进一步,可得到变量  的方差之表达式:
其中,可由共同因子解释的部分()称为 “communality”,而其余部分()称为“specific variance”。
一个更直接的度量是,  的 specific variance占其方差  的比重,称为 变量  的“独特性” (uniqueness):
显然,uniqueness 越小,则说明可由共同因子解释的方差越大,一般希望 uniqueness 小于 0.6(否则,因子模型的用处不大)。




因子模型的求解


尽管经典因子模型作了以上假定,但它依然没有唯一解。常见的解包括主成分解、主因子解与最大似然解等。另外,由于因子模型以 “交互固定效应”(interactive fixed effects)的形式出现于面板数据的前沿研究,故因子模型有望成为计量经济学的新宠,详见下期推文。
(未完待续)








►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看



►一周热文

工具&方法丨还没理解主成分分析?理论与stata应用

数据呈现丨R VS Python,可视化效果孰强孰弱?

特别推荐丨老姚专栏:还拎不清主成分分析与因子分析?进来看看

工具&方法丨使用双重差分难?文献中的五套方法解惑

数据呈现 | R绘图:南丁格尔图,展示全国现制饮品店密度分布









数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存