查看原文
其他

PCA降维大法 | 如何使用主成分分析方法构建综合指标?

江河JH 功夫计量经济学 2023-10-24
在经济学领域,已有不少论文使用了主成分分析方法来构建综合指标,诸如经济高质量发展水平、普惠金融发展水平等等。主成分分析作为构建综合指标的一种常用方法,其具体做法究竟是怎么样的呢?本期将为大家揭开其神秘面纱!

PCA思想

主成分分析( principal component analysis,简记PCA)是多元统计分析中的一种最为重要、最为常用的方法。主成分分析的核心思想是通过降维技术把多个变量化为少数几个主成分的方法,这些主成分保留原始变量的绝大部分信息,它们通常表示为原始变量的线性组合
其中,为原始变量,表示主成分。
至于PCA怎么降维、怎么浓缩信息的?简言之,就是使得在所有的线性组合中,第一主成分的方差最大,即最大,这样它所包含的信息最多,如果第一主成分不足以代表原来个指标的信息,再考虑第二个主成分,并要求已有的信息不出现在中,即。在这里,我就不涉及过多主成分分析背后的数学知识了,大家想要了解的话,可以找一本多元统计分析的教材去翻一下。

PCA实践

假设我们想要评估某项政策对地区创新发展水平的影响,那么一个重要而又关键的问题就是地区创新发展水平如何度量?单一指标难以全面反映地区创新水平,当然你可以多找几个创新方面的指标作为被解释变量去做回归(稳健性检验),看看是否都显著,来支持你的研究假设。不过,这种方法实际上没有从根本上解决变量度量的问题,主成分分析会是更好的办法,我们可以对多个指标进行降维处理,将其包含的信息浓缩到一个或几个综合指标里面。
假设我们选取了四个指标来反映地区的创新发展水平,分别是专利申请授权数 、科学技术支出占财政支出比重 、规模以上工业企业R&D经费 和技术市场成交额

接下来我们就可以按照如下步骤,使用主成分分析方法构建反映地区创新发展水平的综合指标:
(1)由于各基础指标的量纲、量级不同,我们首先需要对所有原始指标进行标准化处理(Stata中pca命令会自动帮我们将所有指标进行标准化处理,其他软件请记得一定要做这一步)。
(2)对处理过后的指标进行主成分分析,根据累计方差贡献率不低于85%的原则(一般)确定主成分的个数,并计算各主成分得分。
使用Stata做主成分分析是极为便捷的,pca一个命令就可以完美解决。此外,pca命令会自动帮我们将所有指标进行标准化处理,这一点可以说是相当贴心了。运行pca x1 x2 x3 x4这一行命令后,Stata会报告出如下结果。第一个表报告了主成分分析结果,Component是特征值,Eigenvalue是特征值,Difference是特征值之差,Proportion是方差贡献率,Cumulative是累计方差贡献率。从表中可以看出,前两个主成分的累计方差贡献率达到92.23%,因此,提取前两个主成分就已经能很好地反映创新维度各指标的信息。当然,还可以结合碎石图来进行判断,Stata中的命令是screeplot。
pca x1 x2 x3 x4

Principal components/correlation                 Number of obs    =         31
                                                 Number of comp.  =          4
                                                 Trace            =          4
    Rotation: (unrotated = principal)            Rho              =     1.0000

    --------------------------------------------------------------------------
       Component |   Eigenvalue   Difference         Proportion   Cumulative
    -------------+------------------------------------------------------------
           Comp1 |      2.75053      1.81171             0.6876       0.6876
           Comp2 |      .938819      .707485             0.2347       0.9223
           Comp3 |      .231334      .152019             0.0578       0.9802
           Comp4 |     .0793157            .             0.0198       1.0000
    --------------------------------------------------------------------------

Principal components (eigenvectors) 

    --------------------------------------------------------------------
        Variable |    Comp1     Comp2     Comp3     Comp4 | Unexplained 
    -------------+----------------------------------------+-------------
              x1 |   0.5619   -0.2946    0.1363   -0.7609 |           0 
              x2 |   0.5401    0.2318   -0.7916    0.1673 |           0 
              x3 |   0.5160   -0.4715    0.3463    0.6257 |           0 
              x4 |   0.3554    0.7982    0.4847    0.0402 |           0 
    --------------------------------------------------------------------
第二个表报告的是各主成分载荷矩阵,从表中可以看出,主成分Comp1在四个指标上的载荷值都很大,可以视为反映地区综合创新能力和创新水平的主成分,主成分Comp2在技术市场成交额上的载荷值很大,可以视为反映地区创新产出的主成分(一般都要根据载荷解释一下各主成分的含义,当然也有可能遇到难以解释的情况)。根据此载荷矩阵,我们可以写出前两个主成分的表达式,从而求得主成分得分:
Comp1 = 0.5619×专利申请授权量+0.5401×科学技术支出占财政支出比重+ 0.5160×规模以上工业企业R&D经费+ 0.3554×技术市场成交额
Comp2 = -0.2946×专利申请授权量+0.2318×科学技术支出占财政支出比重+(-0.4715)×规模以上工业企业R&D经费+ 0.7982×技术市场成交额
predict c1 c2,score //计算主成分得分
(3)按照各主成分的方差贡献率占所提取的主成分的累计方差贡献率的比重,对主成分得分进行加权求和,得到地区创新综合指数,也就是我们的综合指标。
创新指数 = (0.6876× Comp1 + 0.2347 × Comp2) / 0.9223
gen innovation = (0.6876*c1+0.2347*c2)/0.9223 
gsort -innovation

这样,我们就使用主成分分析方法构建完成了反映地区创新发展水平的综合指标innovation,接下来大家就“海阔凭鱼跃,天高任鸟飞”了!
参考资料:
王斌会.多元统计分析及R语言建模(第四版)[M].广州:暨南大学出版社,2016.


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存