25年的P值发展史

Original 李延龙医咖会 2021-01-15

收录于话题

10个

近年来，类似“p值已死”的观点总要时不时地跳出来，刺激一下大家。但是立马丢了它，该怎么衡量我做的研究结果到底“显不显著”，能不能见刊？也成了一大问题！也不能赖研究者一味追求“p<0.05”，环境使然！这个环境（推崇p<0.05）什么时候开始的呢？今天带着大家换个角度看看过去20多年来P值的变化。

1、越来越流行的p值

虽说p值用的越来越多，如果论文没几个p<0.05的结果都不好意思跟同行打招呼，但是p值有多流行，恐怕没几个人能说清楚。

Chavalarias等人^[1]基于超过1200万篇MEDLINE摘要和80万篇PubMed Central（PMC）全文（包含摘要）的自动文本挖掘，系统阐述了过去25年（1990-2015年）生物医学文献中的P值变化。该研究已在JAMA上发表。

研究者发现，随着时间的推移，越来越多的科学论文在研究结果中报告了P值。MEDLINE摘要中P值出现比例从1990年的7.3%上升到2014年的15.6%，其中随机对照试验高居首位，摘要中报告P值的比例达54.8％(95％CI, 54.0％ - 55.6％)；Meta分析增长速度最快，在过去的二十年中几乎增加了三倍，达到35.7％(95％CI, 34.5％-37.0％)。

有P值的摘要和全文中，96%会至少报告1个“统计学显著”的结果，报道最多的情况是“p<0.05或p<0.001”。

研究者进一步对其中796篇摘要和99篇全文进行了人工阅读，发现P值出现的比例分别为15.7%和55%，而仅有2.3%摘要和4%全文报告了置信区间，针对不同类型效应值的报告情况差别较大（见下表）。

2、“后p<0.05时代”

走在十字路口的今天，对于P值的讨论也愈发激烈，正如Chavalarias等人在论文中提到的，一方面，P值仍然被一些研究者错误地作为衡量临床效应大小的标准，而事实上两者并没有什么一一对应的关系；另一方面，P值对样本量极为敏感，对于动不动就有几十万，几百万样本量的研究而言，获得一个P<0.05的结果变得轻而易举。

针对这种过分强调P值的情况，美国统计学会（ASA）在2016年发布了一个关于统计意义和P值的声明，提出了6条使用和解释P值的原则，但是，令人遗憾地是，这份声明更多地是“原则”层面上解读，并没有“操作”层面切实可行的方法。

对于P值目前存在的问题，最容易也是最直接的方法莫过于降低我们传统认为的“显著性水平”——P<0.05，当然这个方法实际上早就应用到临床研究中。

例如，在全基因组关联分析（GWAS）中，为了控制总的Ⅰ类错误发生概率，显著性阈值通常考虑设定为P<5*10^-8，来确保发现的关联具有较高的可重现性，并且在新的种群中进行测试时，这些关联也可以保持一致。尽管人类基因组的极端复杂性，但是需要比较SNPs的量级却是可以大致估计的，相应的显著性阈值也可以有针对性进行调整。

但是，对于大多数其他类型的生物医学研究而言，这里面的复杂程度以及潜在的多重比较其实很难理清楚、讲明白的，带来的问题也是显而易见——你没办法确定一个合适的显著性阈值。

当然，也有学者通过复杂的统计模拟（主要是贝叶斯思想），建议将目前的显著性“significant”阈值降到0.005，而之前的0.05只有提示意义“suggestive”^[2]。先不论这样做是不是科学靠谱，如果真的这么做，其结果必然是影响极端深远的——目前已发表的论文当中，三分之一将要归为“仅有提示意义”。诸位仍在奋战“P<0.05”的小伙伴大概要哭了（这科研还有法儿做吗？）！

然而，似乎多数人是热烈欢迎这样的改变，在过去的2017年7月，Nature就把显著性水平从P<0.05降到P<0.005对受访者进行调查时，发现竟有69%人的表示支持！

反对的声音还是有的，正如公众号较早时候的推文：厉害了！百位作者借助Google Docs合作撰文讨论P值问题，文中Daniel J. Benjamin等人对于将现行的显著性水平从0.05降到0.005不以为然。

理由嘛，第一、显著性水平的降低会增大研究所需样本量，无疑会增加研究成本；第二、科学研究是多元化的，不应该用单一P值评论研究的价值。有反对，当然会有相应的主张，Daniel等人认为应该摒弃“显著性”这样的标签，应该允许研究者根据研究设计和数据解读的考虑，自行设定合适的检验水准α（看到这儿不知各位小伙伴有没有会心一笑~）。

还有更狠的，一些国际大牌儿杂志直接宣布禁用P值，比如说Political Analysis^[3]，Basic and Applied Social Psychology (BASP)，但是一个比较搞笑点是，当BASP的主编被Nature问道，“没了P值怎么办时”，主编“淡定”地回答“我也不知道有什么样的统计方法可以取代P值”^[4]。

(Political Analysis, 2018)

(BASP, 2015)

目前而言，无论是调整显著性水平，抑或是全盘否定P值，都尚在争论。如何能够更合理地找个一个替代解决方案，仍然需要很多尝试（下表^[5]）。

参考文献

1. JAMA. 2016; 315: 1141-8.

2. Nature Human Behaviour. 2018; 2: 6-10

3. https://thenewstatistics.com/itns/2018/02/03/banning-p-values-the-journal-political-analysis-does-it/

4. https://www.nature.com/news/psychology-journal-bans-p-values-1.17001

5. https://jamanetwork.com/journals/jama/fullarticle/2676503

更多阅读

1. P接近0.05，可以有100种英文描述方法？！

2. 相爱相杀的置信区间和p值

3. “P<0.05”和“疗效肯定”并不是一回事！

4. 50种SPSS教程、10种样本量计算教程...全部为你整理在这里！

医咖会微信：medieco-ykh

关注医咖会，轻松学习统计学~

快加小咖个人微信（xys2018ykf），拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。

点击左下角“阅读原文”，看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址：http://www.mediecogroup.com/，查看70种SPSS教程，同时可下载原始数据进行练习！

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！