查看原文
其他

社会科学空前大危机,堪比08年金融危机

计量经济圈 计量经济圈 2022-05-11

可有偿投稿计量经济圈,计量相关则可

箱:econometrics666@sina.cn

所有计量经济圈方法论丛的do文件, 微观数据库和各种学术研究相关软件都放在社群里,可以直接取出使用运行.原创:计量经济圈; 译者:江晓琳 London scholar,计量经济圈社群资深群友.计量经济圈继续招募译者,组建高水平英语学者群.

可复制性危机的时间线: 


大概还在2011年的时候,可复制性危机可能还不是一个危机,下面是一些我认为很重要的事件:

  

1960-1970年代, Paul Meehl 认为实验心理学研究的标准范式其实是不太对的。他认为这种范式其实就是一些热心并且聪明的研究者通过实施一系列漫长的相关的实验(对于不太具有批判精神的读者来说,这些实验可能看过去就是一种非常好的综合研究计划),也不需要太多的驳斥和佐证,就能在纤细的理论网络中慢慢找到一条通路。心理学家们都认识这个PaulMeehl, 但大部分人都忽略了他的这个警告。比如说,RobertRosentha曾经发过一篇关于“抽屉问题”的 牛逼文章。但是其实你还是会发现,这其实也就是从另一个大问题里面引申出来的同一类小问题罢了。 


1960年代: Jacob Cohen 研究了统计功效并提出了一个新的理念,即合理设计和收集数据对于一个好的心理学研究的重要性。有研究小组把Cohen的研究方法和相关术语引入了实践中,但是他们却回避了一个至关重要的重要的问题即:异常高估真实世界的效力。 


1971年,Tverskyand Kahneman写了一篇名为Belief in the law of small numbers的文章,这是他们关于人类认知持续性偏误方面的第一个研究。早期研究主要专注于研究者对于不确定性和变异性(尤其但不限于p值和统计显著性)的误解,但是很快他们就开始了另一系列更一般性的研究。他们好像并没有认识到他们这些早期的研究对于实践研究的重大意义。 


1980-1990年代:零假设的显著性检验在心理学领域有越来越多的争议。不幸的是,这被认为只是一种方法问题而不是研究问题, 我认为这其实就是在说: 研究计划是ok的,我们需要的只是把分析方法稍微改一下! 


2006年,第一次听说了SatoshiKanazawa, 一个发表了一系列带有挑衅言论的paper的社会学家(比如他说工程师容易生儿子,护士容易生女儿),然而,几乎每一个paper后来都发现有好些统计错误。我当然知道统计错误是存在的,但是当时还完全没有意识到对于这类研究来说,极低的信噪比就意味着这些研究要挂了。 


2008年,EdwardVul, Christine Harris, Piotr Winkielman, and Harold Pashler合作写了一篇具有争议性的文章,题为“社会神经学中的voodoo 关系”他们提出,这些技术问题不仅出现在已发表的论文里,同时这些统计问题也在摧毁整个研究领域,许多显著的研究结果都将失去可信度。 


同样是2008年,博客 Neuroskeptic 开始批评科学炒作。 我不知道Neuroskeptic博客原来这么牛逼,但是他的确象征着科学博客从传统的政治话题向内部批判转移。 

 

2011年,JosephSimmons, Leif Nelson, and Uri Simonsohn 合作在心理科学期刊上发表了一篇名为 , “False-positivepsychology 的文章,介绍一个非常有用的术语即:研究人员自由度。之后他们又提出了一个新的术语叫 “p值操纵”。其实也就是研究人员利用其“自由度”来达到(操纵)统计显著(freestyle 的显著)。


同年,Simonohn 又发表一篇文章抨击了这个dentist-named-Dennis 的文章(该文章宣称名叫Dennis的人日后更容易成为牙医), 这在心理学历史上或许并不是一个异常重要的时刻,但是对我而言这却很重要,因为这篇文章最后的结论我的确会不假思索的就接受。 然而我确没有意识到在实证研究中存在如此严重的问题。 


2011年:Daryl Bem 在一个心理学顶刊上发表一篇名为“ Feeling the future: Experimentalevidence for anomalous retroactive influences on cognition and affect“的文章。 虽然并没有很多人认为Bem发现了ESP,但是大家普遍认为他的研究还是比较可靠的, 所以这也被认为是心理学研究的一个令人担忧的点。比如说纽约时报就报道说: 杂志的编辑,Charles Judd, 同时也是一位科罗拉多大学的心理学家, 说这篇文章通过了杂志的常规审核。有四个reviewer在论文手稿上给出了评论, 而且这些reviewer都是值得信赖的人。 

 

然而,Bem的这篇文章其实有巨大且显著的对比性问题-然而杂志编辑和他的4个审稿人都不知道应该怎么去关注这个问题,2011年的时候,我们还不是很擅长考虑这类型的问题。


直到这个时间点,我们发现早期的很多文章都出现了这类似的问题,那么也就意味着这些研究方法上的缺陷将不在仅仅是一个独立存在的问题,他们更会严重损害科学研究的进程。之后还有一些与这个问题相关的文章如John Ioannidis在2005年的一篇paper:“为什么大部分的发表研究都是错的?”以及 Nicholas和James在2007年的一篇论文,该论文认为肥胖是会传染的。 Ioannidis的文章现在已经是一篇经典了,但它刚出来的时候大部分的人还是不那么认同的。Christakis and Fowler的论文在当时可以认为是一个超棒的idea但是现在我们好像也不会太把它当回事了。其实我的意思就是,虽然这些事情发生了,但我们当时并没把这个问题太当一回事。


所以在2011年的时候,大家渐渐发现了事情可能有点问题,但是又不太清楚到底有多大的问题,大家(包括我自己)可能都没有发现致命的对比性问题会出现在这么多的已经发表的研究中。或者更应该说,是不可控的“研究者自由度”导致了这些“统计上显著”的研究成果。 

 

2011年:突然出现很多学术不端的新闻。有两个学者被Tilburg和哈佛剔出去了, 这些事件把大家的注意力引向了RetractionWatch的博客。我发现吧,通常情况下,这些对自己提出的假设非常自信的研究人员,对大家提出的质疑往往都无法提供有效的解释和证明。 

 

2012年:G.F发表了一篇文章叫:好的有点假。该文章引发了一系列的争论,认为重复性的显著统计结果可能由于选择性偏差导致的。 


在这段时间,我收了很多渣渣文章,都是用的很弱的数据得出非常极端的结论。“心理学类型的研究”这个词开始出现了。  


于是,出现了一系列关于“可重复性”的运动,有一些知名人士在进行重复性试验中都失败了。首先是,不出意料的Bem的研究重复不了,虽然他自己声明说自己成功复制了自己的试验结果,但是他的meta-analysis 就完全没有成功复制好吗。之后就是一系列心理学研究中其他的失败复制。

 

同时,非常著名的美国国家科学院院刊 (PPNAS) 上也开始发表一些质量很差但是在媒体上很吃香的一些文章。这些文章都是通过一位来自普林斯顿大学的名叫Susan Fiske的人编辑的。


以及之后的两年间陆续发生的一些事情。 


雨下得很猛,雨下得很久 


以上就是一条非常详细的时间线了。 在很长一段时间中,什么都没有发生。直到2011年, DanielKahneman 还强调这些研究的突出贡献。 

 

然而,突然一下,整个世界就翻了一个面。 


 如果你已经熟悉了传统的那一套,突然开始思考改变或许会很让人苦恼。这就有点类似于 如果Fiske 在一家快倒闭的公司里拥有股份,那么她就必然会站起来为之一博,虽然这个类比可能不是那么完美。然而Fiske能做的就是减少损失,承认错误,然后继续向前。  


那么SusanFiske到底是谁呢?她为什么认为周围存在着方法论恐怖主义呢?关于后一点,我不能很肯定,因为她并没有直指具体某一个“恐怖分子”或者具体某一种“恐怖行为”。她的文章没有给出任何证据,不过倒是提到了一些事情。


我最开始知道Susan是因为她是我们之前提到的PPNAS(Proceedings of the National Academy of Sciences)上的一些渣渣文章的编辑。 所以在某些情况下,所以,她在社会科学领域的判断有点差劲。


或者也可以说,她生活在2016年却依旧在用2006年的思维方式思考问题。10年前,我可能不太会去关注关于himmicanes 和 air rage的论文。在Simonsohn和其他人的影响下,对于即使已发表的论文,我也变得比以前更谨慎。我们很多人花了很多的时间才开始站在Meehl 15年前就已经站在的地方。


Fiske自己发表的论文也有问题。由于我并没有读太多她的paper,所以关于她的研究我不做过多评价。以下是Nick Brown发给我了一些他关于Susan自己论文的一些看法。


他【Brown】看了一篇名为This Old Stereotype: The Pervasiveness and Persistenceof the Elderly Stereotype by Amy J. C. Cuddy, Michael I. Norton, and Susan T.Fiske (Journal of Social Issues, 2005) 的文章,然而却发现有很多错误。


首先,文章的主要结论是依据5.03和11.14 的t统计量得出的。Hmmm,然而我在重复计算后发现,这两个值其实应该是1.8和3.3。 所以她其中的一个结论在统计上甚至不显著。


然而这还不是最糟糕的。事实证明,她文章中report的一些数字根本就不可能是对的。有可能是作者在计算的时候哪里弄错了,比如说在四舍五入的时候搞错了。虽然四舍五入的错误听起来并不是什么很大的问题,但是这的确为研究者“操控”数据以便得到他们想要的结果提供了“自由度”。


还有更多问题。简言之就是Cuddy, Norton, and Fiske 犯了很多数据上的错误—虽然这件事本身并没有多坏,但是当事情发生并且告知给他们的时候,他们却拒绝重新考虑这件事。他们的理论大到你可以从任何角度任何去解释任何的结果。


这也是为什么作者声称修改这些错误的结果并不会改变文章的最终结论—虽然很荒谬却的确也“合乎情理”。荒谬是因为原来的结论是基于统计上显著的p值,而这个值已经不复存在。“合乎情理”则是因为这篇文章的的结论不依赖于任何细节——唯一重要的只是在某个地方只要存在一个小于0.05的p值,那么他们就可以随便怎么说随便发表什么都行了。


当作者声称这些错误并没有多大的影响的时候,你才会发现,在这个项目里,或许数据本身也根本不重要了。


我为什么要去关注这些细节?只是单纯为了恶意中伤嘛?还是因为Fiske攻击了科学改革者,所以改革者们也不给她好脸色看?都不是。问题不在于Fiske的数据处理的错误或者她是一个糟糕的期刊编辑,而在于她依旧在使用一个早该不再使用的范例。这个范例本应早在1960年代Meehl讨论它的时候就不应该在使用了。


我的意思不是说Fiske没有研究是可重复的或者说她大部分的或者三分之一的研究都不可重复。这些我没有做过调研,我不知道。我的意思是她做研究的方法至少证明了她在使用10年前的范式,这种范式当时的确是一种标准范式,但在如今,已经不是了。我们也因此能理解她对当代社会的这种不适。


Fiske的合作者和她的学生貌似也是在用同类型的研究范式,也就是在假设检验,统计结果以及面对批判的时候都不是那么严谨。


还有一点要强调的是,统计学家在这个问题里显得尤为重要。如果Fiske这些人讨厌统计方法,这都ok。他们可以去设计一些比较更容易明白的实验。然而他们并没有。他们的结论依赖于噪声数据得出的P值,只要p值小于0.05,他们可以相信任何事情。


错误总是可以肆意滋生。研究人员一旦开始了一个错误,更多的错误就可以接踵而来。一旦你不在意你的这些数字,什么事都有可能会发生。我想起了Richard Tol的一篇臭名昭著的paper,毫不夸张的说,这篇paper中数据点有多少,错误就有多少,不是跟你开玩笑的!然而!不管怎么修改这些错误,他都没有修改过他的结论!就好像他的结论是事先就已经决定好了一样!


其实我不是说这些人就是坏人。当然啦,他们可以这里切掉一点那里切掉一点,或者偶尔有几个错误,但这些都是技术性的问题啦——我猜他们应该是这么想的。而对于Cuddy, Norton, and Fiske来说他们或许要退一步思考一下他们之前几年做的所有的东西都是一个错误,这或许需要很多勇气。他们或许永远都不会这么做。


我写这篇长文还有一个原因是Fiske在她的一篇文章中对她的一些朋友的职业前景表示了担忧,觉得他们未来的职业发展可能会因为公众对他们研究错误的气愤而受到影响。但是请记住,如果他们这样做,那么就会有很多谨慎认真的年轻的科研人员无法晋升无法发表他们的研究成果,因为这些年轻人根本就无法与这些已经发表的却华而不实的文章公平的竞争。


还有一件令人不开心的事情是Fiske迫切的认为她自己的原则需要得到相应的理解。一方面她强烈谴责那些批评她的她称之为“不经思考的垃圾话”,“过头的攻击”以及“恶意对抗”,并坚持认为“编辑审查”和“同行审核”是非常重要的。然而另一方面她却又是在没有同行审核的论坛上发表这些观点,这个论坛甚至连评论都无法发表。同事她还影射某些人是“方法论恐怖分子”。这么看起来,她才是真正在胡说八道的那个人。


总而言之,Fiske以及她的朋友和学生一直在用这样的方式为她们赢得名声和成就。而质疑这些方式以及这些方式带了的成果,显然是一件不会那么愉快的事情。


Fiske也不喜欢社交媒体, 这一点我完全可以理解。毕竟她对传统媒体有很大的影响力,她可以上报纸上新闻甚至上Ted Talk,传统媒体和她就是好朋友一样。而对于社交媒体,她毫无控制权。像Fiske这样的人他们通常会穷尽毕生追求发表和引用以此来构建自己的学术财富和王国,那么看着他们瓦解必然是一件很痛苦的事情。


但是现在,请让我们先暂时忘记一下学术生涯,单纯来谈谈研究本身。其实我们的主要目标是做一个好的研究,但是当我们不在关注错误或者总认为我们永远都是对的时候,我们是没有办法做好研究的。犯错误没有问题,我自己也发表过后来需要撤回的文章,所以从逻辑上我也没有资格去批评那些不严谨的数据分析。但是当别人指出我的错误时,我会感谢他们。是这些建议让我的研究变得更好。我建议Fiske也可以这么做。


对我来说,关于Fiske的部分差不多要写完了。Fiske曾经写过一句话“心理学研究的进步得益于大家的合作也得益于有建设性的批判”。在这里她强调了“建设性”。或许我们对“建设性”这个词有不同的理解,但我希望在有一点上我们能达到共识,即“对已发表文章指出错误以及进行重复性研究”也是有建设性的。


只有当我们承认了错误,我们才能从中得到提升。调试本身是一个共同的过程。如果你同意一个代码但是我却找到了一个bug,我不是在恶意的对抗你,我是在与你合作。如果是为了避免修改错误而把我刻画成一个“对手”,那就是你自己的问题了。


最后,我用我和Fiske的最大的不同点来结束这段话。Fiske喜欢体面的私下的讨论,而我喜欢公开的讨论。从个人角度看,我也不是Twittter的粉丝,因为小规模的回复往往会鼓励开撕。相对来说我跟喜欢博客以及博客上的评论。因为博客上有足够的空间让我们充分的探讨我们正在讨论的事情。


所以我把这篇博文发在我的博客上,任何人都可以回复。对的你没看错,任何人。Susan Fiske也可以。以及那些对心理学有兴趣却没机会在在APS上发布未经过同行审核的文章的非牛逼学校终身教授的大伙们。

 

原文:What has happened down here is the winds have changed


可以到计量经济圈社群进一步交流,咱们社群的海外Scholars已经占据着相当大的比重了。


计量经济圈推荐

1.PSM-DID, DID, RDD, Stata程序百科全书式的宝典
2.RDD断点回归, Stata程序百科全书式的宝典
3.Generalized分位数回归, 新的前沿因果推断方法
4.Heckman模型out了,内生转换模型掌控大局
5.PSM倾向匹配Stata操作详细步骤和代码,干货
6.条件Logit绝对不输多项Logit,而混合模型最给力
7.广义PSM,连续政策变量因果识别的不二利器
8.自回归VAR模型操作指南针,为微观面板VAR铺基石
9.有限混合模型FMM,异质性分组分析的新筹码
10.政策评估中"中介效应"因果分析, 有趣的前沿方法
11.多期三重差分法和双重差分法的操作指南
12.多期双重差分法,政策实施时间不同的处理方法
13.随机前沿分析和包络数据分析 SFA,DEA 及操作
14.你的内生性解决方式out, ERM已一统天下而独领风骚
15.多期DID的经典文献big bad banks数据和do文件
16.面板数据里处理多重高维固定效应的神器
17.双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁
18.面板数据计量方法全局脉络和程序使用指南篇

计量经济圈当前有几个阵地,他们分别是如下4个matrix:

①计量经济圈社群——计量经管数据软件等资料中心,

②计量经济圈微信群——服务于计量经济圈社群群友,

③计量经济圈研究小组系列——因果推断研究小组、空间计量研究小组、面板数据库研究小组、微观计量研究小组、计量软件研究小组,

④计量经济圈QQ群——2000人大群服务于计量经济圈社群群友。


计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群。


进去之后就能够看见这个群公告了

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存