查看原文
其他

投影寻踪回归PPR什么鬼? 高维数据回归的神器

微观计量研究小组 计量经济圈 2022-05-11

可有偿投稿计量经济圈,计量相关则可

箱:econometrics666@sina.cn

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到微观计量研究小组交流访问.程序软件包放在计量社群里,有需要可以前往提取.

今天,我们”微观计量研究小组“将为计量经济圈的圈友引荐”投影寻踪回归模型“。 当用到的数据维度很高时,若想要通过有限的样本观测值寻找到y与这每个维度的属性间的关系,那么我们推荐使用投影寻踪回归分析(对于非线性、非正态数据很友好),隶属于generalized additive model。

随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要(高维数据,比如经济发展指标有100个,但我们中国只有30多个省市自治区)。多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。


但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计,近邻估计之类的非参数法很难使用。第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。


另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。


它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。因此,高维数据尤其是非正态高维数据分析的需要,加上80年代计算机技术的高度发展是PP产生的主要背景。


下面看看投影寻踪回归方法 (如果你看完之后依然不懂,那证明你已经对投影寻踪回归方法有所掌握了)。

上面这就是一个最基本的PPR回归数据结构,与主成分分析、聚类分析等这些多元分析的形式类似。这些传统的多元分析方法可以看成是机械投影寻踪的特例,例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。


投影寻踪聚类,cluster analysis

下面应用投影寻踪聚类模型对上市公司的股价的高低进行分析,所选的盈利指标是每股现金流量和每股收益、每股净资产、股东收益率、净资产收益率、总资产收益率、销售利润率、主营业务收益率等等。把每股收益、每股净资产、净资产收益率这三个指标作为聚类的标准。


其中:

净资产利润率=净利润/平均净资产(平均股东权益);

每股收益=净利润/期末总股本;

每股净资产=期末净资产/期末总股本。


样本股票的指标数据来自于计量经济圈社群公布的深圳2030年中期上市公司财务指标(假设)


本的投影特征值。根据股票样本的投影特征值的大小,将20支股票分为4类,投影特征值越大说明对应的股票投资价值越大。


分类结果如下:

第1类:晨鸣纸业。这类股票是明显的高收益的绩优股,发展前景令人期待,投资价值比较大。


第2类:云南白药,粤美的A,万科A共有3支股票。这类股票有较好的发展态势,但盲目介入有一定风险,投资者可适当关注,择机介入。


第3类:四环药业,兰宝信息,金路集团等共有10支股票。这类股票业绩一般,操作上以回避为主,不过也可能有反弹空间,故还是以观望为主。


第4类:大连国际,大连金牛,天水股份等共有6支股票。这类股票是明显的低收益的绩差股,投资上还是以回避为好。


PP方法的主要特点是:

(l)PP方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低维子空间上进行的,对1-3维的投影空间来说,高维空间中稀疏的数据点就足够密了,足以发现数据在投影空间中结构特征;


(2)PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰;


(3)PP方法为使用一维统计方法解决高维问题开辟了途径,因为PP方法可以将高维数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找出好的投影;


(4)与其他非参数方法一样,PP方法可以用来解决某些非线性问题。PP

虽然是以数据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程度的非线性问题,如多元非线性回归.


投影寻踪回归的操作程序

(时间紧迫, 我们就暂时n不做解读, 可以进入计量社群交流学习)

下面我们来看看用数据"Measurements on Petroleum Rock Samples"来做做投影寻踪回归。下面这是咱们的数据结构和变量解释。

A data frame with 48 rows and 4 numeric columns.
[,1] area area of pores space, in pixels out of 256 by 256
[,2] peri perimeter in pixels
[,3] shape perimeter/sqrt(area)
[,4] perm permeability in milli-Darcies

Goodness of fit(拟合结果):
2 terms 3 terms 4 terms 5 terms
8.737806 5.289517 4.745799 4.490378

Projection direction vectors(投影方向向量):
term 1 term 2
area1 0.34357179 0.37071027
peri1 -0.93781471 -0.61923542
shape 0.04961846 0.69218595

Coefficients of ridge terms(岭项目中的系数):
term 1          term 2
1.6079271  0.5460971

R软件中的投影寻踪回归模型运行,可以直接运行使用(一直要看到文章最后面)

write.table(rock,file="C:/Users/xiwan/Desktop/c.txt",quote=F,col.name=F,row.names=F)
attach(rock)
area1 <- area/10000; peri1 <- peri/10000
rock.ppr <- ppr(log(perm) ~ area1 + peri1 + shape,
data = rock, nterms = 2, max.terms = 5)
rock.ppr
summary(rock.ppr)


par(mfrow=c(3,2))# maybe: , pty="s")


plot(rock.ppr, main="ppr(log(perm)~ ., nterms=2, max.terms=5)") //对应图上方二图


plot(update(rock.ppr, bass=5), main = "update(..., bass = 5)") //对应图中部二图


plot(update(rock.ppr, sm.method="gcv", gcvpen=2),
main = "update(..., sm.method="gcv", gcvpen=2)")  //对应图下方二图


cbind(perm=rock$perm, prediction=round(exp(predict(rock.ppr)), 1))
detach()

参考文献:

Friedman, J. H. and Stuetzle, W. (1981). Projection pursuit regression. Journal of the American Statistical Association, 76, 817–823. doi: 10.2307/2287576.

程序软件包放在计量社群里,有需要可以前往提取.


可以到计量经济圈社群进一步访问交流各种学术问题,这年头,我们不能强调一个人的英雄主义,需要多多汲取他人的经验教训来让自己少走弯路。


计量经济圈推荐

1.PSM-DID, DID, RDD, Stata程序百科全书式的宝典
2.RDD断点回归, Stata程序百科全书式的宝典
3.Generalized分位数回归, 新的前沿因果推断方法
4.Heckman模型out了,内生转换模型掌控大局
5.PSM倾向匹配Stata操作详细步骤和代码,干货
6.条件Logit绝对不输多项Logit,而混合模型最给力
7.广义PSM,连续政策变量因果识别的不二利器
8.自回归VAR模型操作指南针,为微观面板VAR铺基石
9.有限混合模型FMM,异质性分组分析的新筹码
10.政策评估中"中介效应"因果分析, 有趣的前沿方法
11.多期三重差分法和双重差分法的操作指南
12.多期双重差分法,政策实施时间不同的处理方法
13.随机前沿分析和包络数据分析 SFA,DEA 及操作
14.你的内生性解决方式out, ERM已一统天下而独领风骚
15.多期DID的经典文献big bad banks数据和do文件
16.面板数据里处理多重高维固定效应的神器
17.双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁
18.面板数据计量方法全局脉络和程序使用指南篇

19.Clad还是Tobit, 归并最小绝对偏差, 做Tobit做不好的

20.合成控制法什么鬼? 因果推断的前沿方法指南

21.空间计量百科全书式的使用指南, 只此一份

22.实证研究中交叉项的使用和解读策略指南案例

23.各领域经济学手册全在这里, 不只做重复研究

24.事件研究法什么鬼? 从这里着手看"疫苗之王"

25.因果推断异质性什么鬼? 边际处理效应让你与众不同

计量经济圈当前有几个阵地,他们分别是如下4个matrix:

①计量经济圈社群——计量经管数据软件等资料中心,

②计量经济圈微信群——服务于计量经济圈社群群友,

③计量经济圈研究小组系列——因果推断研究小组、空间计量研究小组、面板数据库研究小组、微观计量研究小组、计量软件研究小组,

④计量经济圈QQ群——2000人大群服务于计量经济圈社群群友。


计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群。


进去之后就能够看见这个群公告了



为了不影响正文阅读,我们在文章后面附上了一篇英文文章。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存