职业打假人被拘押千余天获国家赔偿四十五万,精神赔偿二十二万

原南通市公安局长高山落马背后,任内最大刑案被指“逐利性执法”

翻几万袋垃圾帮运动员找手机,是好客之道还是超国民待遇?

独家细节!传许家印正接受监控,知情人士:他会都不开了,近期已缺席2次例会

被退货20亿元、大幅裁员,储能界“红人”能熬过这次危机吗?

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

TOP5: 终于能侦探出你有没有操纵P值了!瑟瑟发抖!

计量经济圈 计量经济圈 2023-02-21

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

不久前,推荐了“1.如何在实证研究中操纵结果而不被发现?2.实锤! TOP刊上30%文章使用控制变量实现统计和经济显著性!3.常用的12种调变量显著性或调星星的方法,4.若系数回归结果不显著, 我们能够采取的方法和思路有哪些?“ 。

之后,很多学者都在说reg monkey、reg monkey。。。。。。

在如此严重的P值操纵背景下,TOP5刊的Econometrica直接祭出了杀手锏,发表了《侦探出P值操纵》的震摄性文章。

在将来,我们预期每个学者都有机会成为福尔摩斯侦探,来回穿梭于各种学术论文中找嫌疑P值。😄

*文章后面放上了原文,可以前往阅读。


侦探出p值操纵
一、摘要
通过描述多项研究中p值的分布情况,本文从理论上揭示了检验p值操纵过程中的问题。当分布的约束条件可验 (非递增)时,本文推导出原假设下(H0:非p值操纵)的一般性结论。通过t检验,本文发现了新的p值约束条件。特别地,如果p值分布呈幂函数形状,就会导致完全单调性并生成边界。这些可验约束条件使得针对p值操纵进行的检验更有效力。当同时存在发表偏差时,本文的检验是对p值操纵和发表偏差的联合检验。基于两种主流数据库的重复性研究体现了新检验蕴含的价值。
1.研究动机
1)p值操纵是指,以不同方式分析和操纵数据而后有选择地报告好看的结果。这会降低研究和报告结果的可靠性。由于缺乏系统的可复制性研究或元分析(meta analysis),评估p值操纵程度的一种流行方法是刻画各研究中p值的分布,即p曲线。
2.研究内容
1)本文研究了原假设的检验问题(原假设H0:没有p值操纵;备择假设H1:存在p值操纵)并为检验p值操纵问题提供了理论基础。在一般性假设条件下,本文描述了没有p值操纵时所隐含的p值分布的空集并提供了一般充分条件。基于该充分条件,对于真实效应的任何分布,在原假设下p值是非递增且连续的。这些条件在很多(但不是所有)检验p值操纵的流行方法中是成立的。
2)在基于t检验的p值曲线下,我们推导出新的可验约束条件。特别的,p值曲线(基于t检验)在没有p值操纵时是完全单调的并且它们的大小和导数的大小均有上限。如果p值操纵没有导致p值曲线递增,这些约束条件尤其有用——例如当研究者在独立的检验中进行模型搜索。在这些案例当中,基于非递增设定的检验没有效力。
3.研究贡献
1)本文构建了p值操纵检验的理论基础,基于相关理论,本文提出了效力更强的检验,并将其运用到了两种大型数据库中。本文发现了p值操纵现象。
2)当存在发表偏差时,本文的结论刻画了原假设(H0:没有p值操纵且没有发表偏倚)条件下的p值曲线。本文的检验是对p值操纵和发表偏倚的联合检验。
4. 实证应用
这部分研究是通过R软件和Stata软件完成的。
4.1 经济学期刊中的p值操纵问题
1)数据
数据来自于Brodeur et al. (2016b),这份数据包括发表在2005-2011年AER、QJE、JPE中的641篇论文中的50078个t检验。在剔除缺失信息的观测值后,样本最终包含640篇论文中的49838个t检验。
2)检验
  • 为了解决论文内部p值的相关性,本文使用了聚类稳健的方差估计量。

  • 对所有随机子样本(一篇论文一个p值)进行检验,从而对论文内部的相关性进行精确检验。

  • 为了检验p值操纵,本文只关注p值小于0.15的样本。

  • 利用直方图检验非递增性(CS1)、在[0.04,0.05]区间上的伯努利测试、费舍尔检验、用直方图检验p值曲线及其前两个导数的双侧单调性和边界(CS2B)、LCM检验、密度断点测试。

3)结果见图1,可以看出有很多很小的p值。质点=2处包括了427份观测值,此处p值为0.046。如果p值小于0.1,则拒绝无p值操纵的原假设。
  • 观察图1左图,原始数据(四舍五入):除了费舍尔检验和密度断点检验,所有检验均拒绝原假设;随机子样本(四舍五入):所有检验均没有拒绝原假设,表明这些检验在小样本下效力较低。

  • 观察图1右图,非四舍五入的数据:全样本下,所有检验p值均大于0.1,无法拒绝原假设,随机子样本下,仅CS2B检验显著拒绝了原假设,表明基于原始数据(四舍五入)拒绝原假设主要是因为质点略低于0.05,非四舍五入会显著影响实证结果。

图1
4.2 不同学科的p值操纵问题
1)数据
样本来自Head et al. (2015),包括使用文本挖掘技术得到的发表在PubMed数据库中的开源论文。一共包括21个学科,本文关注了生物、化学、教育学、工程学、药学、健康科学和心理认知科学。
2)检验
同4.1.
3)结果
图2报告了有关结果。
图2左图报告了医药和健康科学的p值分布情况。很大一部分p值可以四舍五入为两位小数,如0.01,0.02,…,0.15,四舍五入使得p值曲线不单调且不连续,从而使得理论1的约束检验无效。
图2右图展示了非四舍五入样本的p值曲线。密度断点测试在这里并不适用,因为四舍五入导致了断点,即便不进行四舍五入也不变。这意味着拒绝原假设既可能是p值操纵导致的,也可能是四舍五入导致的。
图2
表1

表1报告了所有学科全样本的估计结果,上半部分为四舍五入,下半部分为非四舍五入。
  • 原始数据(四舍五入后):CS1和LCM检验拒绝了所有学科的原假设。

  • 非四舍五入样本下,只有断点检验拒绝了生物学的原假设,CS1检验拒绝了生物学、工程学和医疗健康学的原假设,LCM拒绝了医疗健康学的原假设。这说明是否四舍五入显著影响了实证结果。

  • 对于两类样本来说,伯努利检验和Fisher检验没有拒绝任何学科的原假设,表明选择效力更高的检验的重要性。

表2报告了随机样本(每篇论文一个p值)的实证结果
  • 原始数据(四舍五入后):CS1检验 (生物学,工程学, 医疗健康学)、LCM(除了化学的所有学科)拒绝了原假设。

  • 非四舍五入样本:均未拒绝原假设。

5.结论
1.本文为检验p值操纵问题奠定了理论基础。
2.本文得出了p值曲线的一般性结论,提出了p值曲线的空集可以表示为非递增的条件。
3.对于基于t检验的p值曲线,本文推导出了当不存在p值操纵时对p值曲线施加的全新约束条件。这些约束条件表明,可以利用效力更强的检验来验证p值操纵问题。
4.重新分析从现有文献得出的两类数据库,结果表明,基于额外约束的新检验对于检验p值操纵问题是有用的。

相关主题,参看:1.实证研究中的P值: 误解, 操纵及改进, 探析P值操纵表现及原因,提出相应的改进策略,2.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚!3.DID和IV操纵空间大吗? 一切皆为P-hacking,4.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗?5.显著不显著的后背是什么, 非(半)参估计里解决内生性,6.科学家倡议P值需要0.005,显著性判断才成立,7.X与Y负相关但回归系数却为正? OLS不显著但2SLS却显著?8.统计上不显著的变量表明该变量对结果变量没有影响吗?9.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事?10.继JDE之后, 又一期刊重磅宣告"不显著的结果仍可以发表" 11.前沿, 终于有人解释为什么顶刊上很少有不显著的结果发表! 背后机理?12.回归中常数项显著说明模型中有遗漏变量问题?13.关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?14.为什么回归系数不显著? 15.添加一个新变量能使以前不显著的变量变得显著了?16.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?17.结果不显著但成功发在Top期刊上的论文有哪些?你心虚过没?18.交互效应显著的几种情况, 列出了6种类型,19.试了几百次, 回归结果依然不显著, 到底咋办,20.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚!21.800名科学家联合呼吁, 停止使用统计学上的P值,22.美国统计学会关于p值的声明,23.美国宣布禁用p值,原来p值很危险,如何取代p值?


关于上方文字内容,作者:张梁, 湘潭大学商学院,通信邮箱:1zlxtu971018@163.com

作者之前的文章,对1年前错失诺贝尔奖的Rubin教授专访, 因果推断计量少不了他!


下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

4年,计量经济圈近1500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


文章有问题?点此查看未经处理的缓存