高维回归方法: Ridge, Lasso, Elastic Net用了吗
欢迎投稿(荐稿)计量经济圈,计量相关都行
邮箱:econometrics666@sina.cn
编辑: @计量经济圈(ID: econometrics666);来源:公众号 WiseRClub。
在信息爆炸的时代,人们收集数据、存储数据的能力越来越强大,呈现爆炸式增长的不止是数据的观测量,还有数据的维度。如今,高维数据越来越普遍,对高维数据挖掘的研究有着非常重要的意义。最常见的一种高维数据类型就是文本数据,文本向量的维数一般都可以高达上万维,一般的数据挖掘、数据检索的方法由于计算量过大或代价高昂而不具有可行性。
对此,本期干货将向大家介绍3种针对高维数据的回归方法,然后从一篇论文入手,简单介绍其在文本数据中的应用。
岭回归(Ridge Regression)
最小二乘估计量
其目标函数可以写为:
岭回归是一种专门用于共线性或较强共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
如果某个系数值过大,那么最优化目标函数就会被惩罚,我们更愿意获得更小的
LASSO
LASSO 是 Robert Tibshirani 在1996年提出的一种压缩估计方法,全称Least Absolute Shrinkage and Selection Operator,它和岭回归很像,只是惩罚项有所变化。
其惩罚项可以写为:
可以看到,惩罚项由平方换成了绝对值。虽然绝对值是凸函数,函数在0点有唯一的最小值,但其在此点不可导。当某项的惩罚系数足够大时,那么它将无法进入模型(变量选择),只有那些回归系数非0的变量才会被选入模型。
和岭回归不同的是,LASSO 没有显式表达式,可以通过 LARS(Least Angle Regression)算法进行估计:
1. 设定初始值
2. 找到和响应变量 Y 相关性最大的预测变量
3. 在其与 Y 的相关性符号的方向上增大系数
4. 计算残差
5. 存在其他响应变量
6. 增大
7. 重复以上步骤直到没有更多的变量被选入模型
弹性网(Elastic Net)
当出现相关性很高的预测变量时,LASSO 经常会只选择出一个变量,使结果过于稀疏。并且在p>>n时,LASSO 最多只能选择n个变量。弹性网是 Lasso 和岭回归技术的混合体。它使用 L1 来训练并且 L2 优先作为正则化矩阵。其惩罚项相应地调整为:
由于惩罚项中增加了二次项,使得LASSO估计中的变量选择个数的限制被放开,并且可以解决存在相关性很高的预测变量时LASSO只选择出一个变量的问题。弹性网与LASSO的效果对比如下图:
应用案例
高维数据的回归方法在实际中大有用武之地,下面介绍的这篇名为<Gender Stereotyping in Academia: Evidence from Economics Job Market Rumors Forum>的论文就是一个很好的例子。
文章主要是通过文本挖掘的方法,利用Logistic LASSO, DID, Topic Analysis等模型,发现在EJMR网络论坛上,讨论一旦涉及到女性,其内容就会从专业探讨转变为私人话题。这是一篇颇具挑衅意味的论文,它探讨了一个活跃用户上万的匿名经济学家网站上的性别歧视现象。该篇文章在美国经济学界引起轰动,不仅被提名为2017年最有份量的经济学研究报告之一,还让美国经济学会还因此采取了政策干预。
EJMR是一家主要用户大部分为经济学博士的网络论坛,其主要目的在于每年的招聘季中分享各个大学的相关信息等,并且该论坛一年中都非常活跃而且用户的帖子均采用匿名的方式。
作者爬取了EJMR论坛中自2014到2016年超过131913条帖子,共计1143416条的用户回复。采用Schwartz et al. 2011的开源字典筛选出频次最高的10000 个词并建立词文档矩阵。并根据词语划分出4个 Level用于甄别是否存在性别歧视的分类准则,划分等级越高表明其鉴别性别的能力越强,限制更加严格。
Level 4: he she
Level 3: level 4 + first name or last name
Level 2: level 3 + level 4 + men women male female
Level 1: level 3 + level 4 + level 2 + boy girl boyfriend girlfriend brother sister guy bro
整体分布如下:
作者手动将10000个词分为15类,其中Academic 和 Personal这两类词语是文章研究的重点。 第一类包含“macro”, “tenure”等与学术相关的词汇,第二类所包含 “married”, “relationship”, “sexual”等与个人生活相关的词汇。建立如下的回归方程:
其中
作者在文中还定义了一个新的变量——主题差异,其公式如下 :
即该帖子中涉及学术的词频减去涉及个人的词频除以总词频。这个变量代表了一个职位学术导向相对于个人导向的倾向,越大越倾向学术,越小越倾向个人。回归结果如下:
作者设计了一个倾向得分模型来预测一个职位与一万个最常用单词的出现次数相关的性别,该模型有两个目的:第一,解决包含Level 1词语的重复帖子的情况;第二,找出对性别预测能力最强的单词。
在这里该模型的自变量为是否是女性,因变量是关于词频的词语矩阵。变量达10000左右,故采用LASSO的方法进行变量选择。作者取了 75% 的数据作为训练集,并使用5折交叉验证选择出了最优的调节参数。 剩下的数据用做训练集。将模型运用到 26,002 个重复项, 其中9,044个归类为Female = 1 其他的为Female = 0。6088个词在变量选择中系数被压缩为0,即这些词并未起到甄别性别的作用。
同时可以计算出每个重要词语的边际效果。最终的回归结果如下:
由于爬取的帖子数据是面板数据,作者还探讨了每个贴和上一贴的关系,即想要检验出帖子讨论主题的一个变化趋势,结果表明当涉及到女性话题时会有比较明显的趋势偏向于与学术无关的讨论中。作者构建了如下的回归方程:
其中-1表示前一贴,最终的回归结果如下:
文章的最后考察了性别对受关注程度是否有影响。作者选取了两个对照组:(1) 380名RePEc上排名前5%的经济学家,(2) U.S. News Ranking排名前20的经济学项目中204位助理教授。运用双重差分模型识别后,发现女性经济学家往往比男性经济学家受到更多的关注,而排名相对较低的经济学家中男女之间受关注度的差距也在扩大。双重差分模型如下:
对于380名高层次的经济学家,将其按照RePEc排名进行分组,每组包含10名女性和10名男性。
分析结果显示,排名越高的经济学家受关注度也越高,而女性略高于男性,而在排名越低的情况下,男女之间受关注度的差距也在变大。
写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭(戳这里)。我们已经邀请社群里的圈友建立了微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群息。
帮点击一下下面的小广告,谢谢支持!