查看原文
其他

老姚专栏丨可决系数R方的阴暗面

姚耀军 数据Seminar 2021-06-03

2020年第一篇推文是老姚专栏的最新作品。作为本公众号王牌专栏的“主人”,耀军兄觉得这篇推文的标题中包含“阴暗面”三个字,不适合元旦喜庆的氛围,不利于2020年取个好兆头。我倒是觉得哪怕是这三个字比较令人“扫兴”,但却能够让人保持清醒,就像这篇文章所描述的那样,“好看的”R方并不总是意味着歌舞升平、莺歌燕舞!

本文的主题是关于R方,记得研究生时代早期初学计量的时候,高R方就像天上的星星,可望而不可及。哪怕是当时发表的一些文章,也以R方高来标榜自己模型的成功。后来,随着学习的深入,接触到微观计量经济学之后才发现,如果目标是因果识别,R方或者拟R方的大小好像就变得不那么被强调了,而且它实在是很小(~~~开玩笑)。耀军兄的这篇推文提醒我们:(1)如果过度追求R方,可能会丢失预测能力,而后者恰恰是我们做分析的根本目的(尽管有时候因为不可得而假装它不重要);(2)R方并不是唯一衡量拟合优度的指标,许多软件可能会提供其他指标,你要认得它们;(3)即使从技术层面上来说,可以对R方进行调整和改进以克服或者缓解其“阴暗面”的不利影响,但是越来越多的变量和高速的计算能力,可能会让研究者越来越精于“拷打”数据。唯一的缰绳是经济学理论和因果逻辑,千万别忘了!——杨奇明

全文共1816个字,阅读大约需要7分钟



R2既可用来评价模型优劣,也可用来识别计量经济学Layman——只有“菜鸟”才会过于纠结R2指标的表现,力图通过样本筛选、变量删减等方式,把该指标刷得更“漂亮”一些。
经济学中有一个古德哈特定律,其大意是,如果一个指标成为了人们追求的目标,就会失去其原本所具有的价值。例如,GDP指标被萨缪尔森誉为“20世纪最伟大的发明之一”,但若成为一个政绩指标,则会失真。不幸的是,R2也适用于此定律。

虽然高R2值表明模型能很好地拟合样本数据,但这并不意味着模型能很好地拟合样本外数据,具有很好的预测能力。记住,预测能力才是模型好坏的试金石


对假设(模型)的真实性惟一有效的检验就是将预测值与经验值相比较。


——经济学大师米尔顿·弗里德曼


模型的样本内外数据拟合能力难以兼顾,追求高R2值很可能给模型的预测能力带来深深的伤害。想象你根据自己的家庭布局向厂家定制了一款扫地机器人吧。在你看来,这款定制的机器人真的很棒,因为它能把你家的角角落落打扫得干干净净。但是,这款机器人多半不能在你朋友家很好地工作,因为他家的格局与你家有一些差异。是的,在某种意义上,很高的R2值意味着模型就是为样本数据量身定制的。

美国波莫纳学院经济学教授加里·史密斯给学生们开了一个玩笑——他建立的一个模型能够100%拟合1980-2016年10次总统选举中每位候选人的得票率,结果让不少学生误以为他已寻得一个预测总统大选结果的“神器”。此模型的荒谬之处在于,解释变量均为9座城市在大选之日的最高气温,而这些城市之所以被选中,仅因为史密斯教授喜欢它们的名字。那么,模型怎么会有100%的样本数据拟合能力呢?诀窍在于,解释变量数目恰好比样本容量少1个——既然两点决定一条直线、三点决定一个平面、M个点决定一个M-1维超平面,那么反过来看,这些直线、平面与超平面必然能完全拟合相应的样本数据。史密斯教授的玩笑在大数据时代尤具警示意义,因为大数据时代的一大特征是,数据维度很大,有太多的变量可供建模者鼓捣、操弄。
R2值可以通过盲目地增加解释变量来提高,这当然是一个大Bug。统计学家们指出,有必要对这种减少自由度的行为进行惩罚,而这正是调整R2指标以及MSE、AIC、BIC等其他拟合优度指标设计的初衷。在机器学习领域,还盛行另外一种改进R2指标的方法,那就是所谓的交叉验证法(Cross Validation,CV)。其基本思路是,将完整的样本划分为两个子样本,其中一个子样本作为训练集(Training Set),用来建立模型,另外一个子样本作为验证集(Validation Set),用来检验模型的样本外拟合能力。

对R2指标进行改进,这为好模型的评判设定了更高的门槛。然而,在强大的数据处理软件面前,这些门槛其实只是“门”而非“槛”。基本的道理是,即使一个错误的模型也存在“瞎猫碰到死耗子”的机会,而根据大数定理,只要创建足够多的模型,那么我们从中找到幸运“瞎猫”的概率趋近于1。因此,切勿迷信学术期刊上那些“惊艳”的统计模型,它们可能只是幸运的“瞎猫”而已。


在痛苦的旧时代,研究者不得不进行人工计算,但谁说这不是好事呢?


——经济学诺奖得主詹姆斯·托宾


因为人工计算逼迫研究者对自己的理论假说进行深思熟虑,以免在那些“不靠谱”的假说上浪费大量的计算成本。然而,自从有了性能强大的计算机,事情就开始发生改变,研究者更容易先计算、后思考。换言之,研究者能够借助软件的帮助,首先筛选出一个具有很好统计表现的模型,然后自圆其说。当然,他在发表文章时,总会煞有介事地先提出理论假说,然后报告数据如何很好地支持了他的假说。

“数据先行、理论殿后”,在逻辑上可归为“得州神枪手谬误”,具体又表现为两种形式:其一是,自诩为神枪手的人在整面墙上画满了靶子,然后朝墙射击。他必定能射中一个靶子,于是他开始显摆自己的枪法,而绝口不提其余未被射中的靶子——这好比研究者检验了数百个模型,最后仅报告具有最好统计表现的模型,而对其他表现不佳的模型守口如瓶。其二是,自诩为神枪手的人朝一面空白墙射击,然后绕着弹孔画上一个靶心——这好比研究者首先筛选出一个具有很好统计表现的模型,然后自圆其说。
迄今为止,社会科学的解释能力还十分有限。对于横截面数据,R2达到0.4其实已很了不起了。对于时间序列数据,R2值经常会超过0.9,但这很可能是伪相关的信号——变量含有共同的确定性或者随机性时间趋势。还有一种情况也会产生很高的R2值,那就是自变量与因变量仅仅是同一事物换上了不同的“马甲”。这种模型不过同义反复而已,在张五常教授眼里,属于臭名昭著的“套套逻辑”(Tautology)。








企研学术顾问 · 耀军


姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。



►一周热文

发布丨2019年年终盘点之转载热门文章TOP10

发布丨2019年年终盘点之原创热门文章TOP10

老姚专栏丨伪相关、FWL定理与偏相关系数

统计计量丨政策效应评估的四种主流方法(Policy evaluation)

数据呈现丨R语言:逻辑回归模型可视化分析

统计计量丨双重差分法的平行趋势假定











数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




作者:姚耀军推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存