JAMA:25年的P值发展史
近年来,类似“p值已死”的观点总要时不时地跳出来,刺激一下大家。但是立马丢了它,该怎么衡量我做的研究结果到底“显不显著”,能不能见刊?也成了一大问题!也不能赖研究者一味追求“p<0.05”,环境使然!这个环境(推崇p<0.05)什么时候开始的呢?今天带着大家换个角度看看过去20多年来P值的变化。
1、越来越流行的p值
虽说p值用的越来越多,如果论文没几个p<0.05的结果都不好意思跟同行打招呼,但是p值有多流行,恐怕没几个人能说清楚。
Chavalarias等人[1]基于超过1200万篇MEDLINE摘要和80万篇PubMed Central(PMC)全文(包含摘要)的自动文本挖掘,系统阐述了过去25年(1990-2015年)生物医学文献中的P值变化。该研究已在JAMA上发表。
研究者发现,随着时间的推移,越来越多的科学论文在研究结果中报告了P值。MEDLINE摘要中P值出现比例从1990年的7.3%上升到2014年的15.6%,其中随机对照试验高居首位,摘要中报告P值的比例达54.8%(95%CI, 54.0% - 55.6%);Meta分析增长速度最快,在过去的二十年中几乎增加了三倍,达到35.7%(95%CI, 34.5%-37.0%)。
有P值的摘要和全文中,96%会至少报告1个“统计学显著”的结果,报道最多的情况是“p<0.05或p<0.001”。
研究者进一步对其中796篇摘要和99篇全文进行了人工阅读,发现P值出现的比例分别为15.7%和55%,而仅有2.3%摘要和4%全文报告了置信区间,针对不同类型效应值的报告情况差别较大(见下表)。
2、“后p<0.05时代”
走在十字路口的今天,对于P值的讨论也愈发激烈,正如Chavalarias等人在论文中提到的,一方面,P值仍然被一些研究者错误地作为衡量临床效应大小的标准,而事实上两者并没有什么一一对应的关系;另一方面,P值对样本量极为敏感,对于动不动就有几十万,几百万样本量的研究而言,获得一个P<0.05的结果变得轻而易举。
针对这种过分强调P值的情况,美国统计学会(ASA)在2016年发布了一个关于统计意义和P值的声明,提出了6条使用和解释P值的原则,但是,令人遗憾地是,这份声明更多地是“原则”层面上解读,并没有“操作”层面切实可行的方法。
对于P值目前存在的问题,最容易也是最直接的方法莫过于降低我们传统认为的“显著性水平”——P<0.05,当然这个方法实际上早就应用到临床研究中。
例如,在全基因组关联分析(GWAS)中,为了控制总的Ⅰ类错误发生概率,显著性阈值通常考虑设定为P<5*10-8,来确保发现的关联具有较高的可重现性,并且在新的种群中进行测试时,这些关联也可以保持一致。尽管人类基因组的极端复杂性,但是需要比较SNPs的量级却是可以大致估计的,相应的显著性阈值也可以有针对性进行调整。
但是,对于大多数其他类型的生物医学研究而言,这里面的复杂程度以及潜在的多重比较其实很难理清楚、讲明白的,带来的问题也是显而易见——你没办法确定一个合适的显著性阈值。
当然,也有学者通过复杂的统计模拟(主要是贝叶斯思想),建议将目前的显著性“significant”阈值降到0.005,而之前的0.05只有提示意义“suggestive”[2]。先不论这样做是不是科学靠谱,如果真的这么做,其结果必然是影响极端深远的——目前已发表的论文当中,三分之一将要归为“仅有提示意义”。诸位仍在奋战“P<0.05”的小伙伴大概要哭了(这科研还有法儿做吗?)!
然而,似乎多数人是热烈欢迎这样的改变,在过去的2017年7月,Nature就把显著性水平从P<0.05降到P<0.005对受访者进行调查时,发现竟有69%人的表示支持!
反对的声音还是有的,正如公众号较早时候的推文:厉害了!百位作者借助Google Docs合作撰文讨论P值问题,文中Daniel J. Benjamin等人对于将现行的显著性水平从0.05降到0.005不以为然。
理由嘛,第一、显著性水平的降低会增大研究所需样本量,无疑会增加研究成本;第二、科学研究是多元化的,不应该用单一P值评论研究的价值。有反对,当然会有相应的主张,Daniel等人认为应该摒弃“显著性”这样的标签,应该允许研究者根据研究设计和数据解读的考虑,自行设定合适的检验水准α(看到这儿不知各位小伙伴有没有会心一笑~)。
还有更狠的,一些国际大牌儿杂志直接宣布禁用P值,比如说Political Analysis[3],Basic and Applied Social Psychology (BASP),但是一个比较搞笑点是,当BASP的主编被Nature问道,“没了P值怎么办时”,主编“淡定”地回答“我也不知道有什么样的统计方法可以取代P值”[4]。
(Political Analysis, 2018)
目前而言,无论是调整显著性水平,抑或是全盘否定P值,都尚在争论。如何能够更合理地找个一个替代解决方案,仍然需要很多尝试(下表[5])。
参考文献
1. JAMA. 2016; 315: 1141-8.
2. Nature Human Behaviour. 2018; 2: 6-10
3. https://thenewstatistics.com/itns/2018/02/03/banning-p-values-the-journal-political-analysis-does-it/
4. https://www.nature.com/news/psychology-journal-bans-p-values-1.17001
5. https://jamanetwork.com/journals/jama/fullarticle/2676503
更多阅读
2. 相爱相杀的置信区间和p值
关注医咖会,轻松学习统计学~
快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看60种SPSS教程,同时可下载原始数据进行练习!