你真的理解p值么? 一句话解释p值的常见误解…

原创 2017-07-07 张明宇 医咖会

文章一开始，我们一起来看一个临床试验中常见的设计。

我们想知道一种新药A能否改变患者的住院天数。在没有确切信息的时候，我们的假设是不能，也就是使用A和不使用A的两组的平均住院天数相同。换句话说，使用A对于患者住院天数没有影响。我们设计了一个随机对照试验(RCT)，把200名患者1：1随机分入A组(使用新药)和B组(使用安慰剂)，每组100人。

试验结果中，A组患者平均住院天数为25.1天，B组为27.6天。进行双样本t检验后，得到了p值为0.015。（什么时候该用t检验，点击链接看这篇文章：《一言不合就用t检验，小心犯了这些错！》）

那么，单看这个p值，下列理解哪些是正确的呢？

A. 有1.5%的概率，使用A对于患者住院天数没有影响；

B. p = 0.015 意味着两组平均住院天数有很大不同（即效应值很大）；

C. p = 0.015 意味着使用A和患者住院天数的关联度很高；

D. 若 p > 0.05，则意味着没有治疗效果。

-------------------------------------------

实际上，这4个选项都是错的！让我们一个个来解释。

A 选项

一句话解释：p值只是假设和数据的关系

首先，我们来明确一下p值的定义。

美国统计学会(American Statistical Association, ASA)明确告诉我们：

P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

( p值不是“我们研究的假设是真的”的概率，也不是“数据仅仅由随机因素产生的”的概率)

p值解释的并非假设本身，而是数据和假设的关系(比如，我们收集到的A组和B组的数据，和假设“使用A对于住院天数没有影响”的关系)。这是因为，假设本身要么就是对的，要么就是错的，不存在一个概率的问题。

因此，p=0.015的含义是，如果我们的假设是正确的(即使用A对于住院天数没有影响)，那么我们在这一次临床试验中得到平均住院天数差为2.5天这个结果，甚至于更极端（大于2.5天）的概率是0.015。

(p值描述的是：如果原假设是正确的，我们得到某次观测值甚至更极端的值的概率。来源：wikipedia.com，获取日期：2017/6/30)

B 选项和C 选项

一句话解释：显著≠重要

如果A能显著地缩短住院时间2天，而和B在其他方面差不多，那么我们真应该使用A药替换B药么？我们要考虑的当然是住院时间本来是多久：如果住院时间原本是5天，那缩短2天则是很好的结果；但是如果住院时间原本是30天呢？甚至，如果是365天呢？

我们先来回顾一下“效应值”的概念。效应值(effect size，是对于试验效果描述的统计量)通常表示不同的处理下总体均值差异的大小。比如，在我们的例子中，A组和B组住院天数所相差的2.5天就是对于该试验效果的一个估计值。

效应值是一个和p值同样受欢迎的统计量，这是因为一个更大的效应值意味着更好的效果，这说明新药更加有效。比如对于例子中的新药A，我们乐于看到A组能平均缩短2.5天的住院天数，甚至是3.5天、4.5天，甚至更多。同时，p值受样本量影响非常大，而观测到的效应值则相对受样本量影响较小，因此比p值更加“稳定”。

(我们应该同时汇报p值和effect size。来源：the Lovestats Blog，获取日期：2017/6/30)

然而，正是由于样本量大小对于p值和效应值的影响不同，效应值的大小不一定与p值相关。在某些情况下，两个类似的研究尽管有截然不同的效应值，也可能得出相近的p值。也因此，p值也不能说明使用A和住院天数的关联度大小。

D 选项

一句话解释：p值 > 0.05只说明还没找到有效的证据，而不意味着无效

Absence of evidence is not evidence of absence

前面选项错在过度解读了“p值显著的结果”，而这个选项则错在过度解读了“p值不显著的结果”。在上面的例子中，p若大于0.05只能说明没有找到A药有缩短住院天数的证据，而不是A不能缩短住院天数的证据。当然，许多媒体也会犯这一类的错误。

(《美国科学院最新报告：转基因食品对人无害》，来源：163.com，获取日期：2017/6/30)

比如上面这篇报道，正文第一句写的是“没有证据表明转基因农作物对人类或环境有害”，而标题却被改为了“转基因食品对人无害”。

其实，p值描述的是数据和一个特定的统计学模型（原假设）的不匹配程度：p值越小，数据和该统计学模型的不匹配程度就越大。在“无关联”的假设下，只要p值小于1，数据中就包含了某些联系，所以我们也需要关注试验的效果（效应值）来得出结论。同时，p>0.05只意味着没有找到可信服的证据。然而，这不意味着已经检验了所有的证据，也不意味着每个人都会同意所得出的结论。比如，我们若增加样本量，或者提高测量的精度，都有可能得到显著的结论。

总之，更小的p值并不意味着更大的效应值或者更显著的结果。

p值的正确应用

最后，我们谈两句该如何应用p值。

在实际的统计分析中，很多科研人员把p值是否小于0.05看作研究结论的“试金石”，为了得到看起来显著的结论，有些研究者会进行所谓的 p-hacking (p值操纵)，即有意或无意地尝试操纵数据，直至p值小于0.05，并隐藏其他“不显著”的结果，从而导致报告偏倚(reporting bias)。甚至，美国最大的在线俚语词典 urban dictionary 都收录了这个词，并且给出了例句。

(来源: urbandictionary.com，获取日期: 2017/6/30)

从1990年到2014年，在摘要中报告p值的生物医学类文章的比例从7%上升到了15%，而且几乎都报告了至少一个p值<0.05。2016年，美国统计协会(ASA)终于看不下去了，给出了p值应用的6大理解概念和注意事项。在这篇文章中，ASA特意提醒科研人员，不应该选择性报告p值和相关的分析。

在这里，给大家一些建议：

1. 在进行模型建立以及数据分析时，应当全面进行系统评价(systematic review)和Meta分析，全面结合不同的研究结果进行参考。

2. 试验设计应当考虑多种因素，比如暴露(exposure)和结局(outcome)测量时的效度和信度、之前的研究结果以及我们假设的可信度等。没有任何的统计学方法能够弥补一个错误的研究设计所带来的影响。

3. 更加关注效应值而非p值，确定所研究的干预到底有多大的效果。

4. 明确结果的不确定性，比如p值究竟是小于0.05、0.01，还是更小？同时，也应该关注标准差、置信区间和误差范围等统计量，这样才能知道我们的结果的精确程度。（关于置信区间和p值的关系，敬请关注后续文章：《置信区间和p值，到底谁说了算？》）

参考文献

1. http://statistically-funny.blogspot.com/2013/06/studies-of-cave-paintings-have-shown.html

2. http://blogs.plos.org/absolutely-maybe/2016/04/25/5-tips-for-avoiding-p-value-potholes/

3. http://med.stanford.edu/news/all-news/2016/03/misleading-p-values-showing-up-more-often-in-journals.html

4. J Anaesthesiol Clin Pharmacol. 2016;32(4):421-3.

相关阅读

1. 论文中统计描述要注意的诸多细节，听听杂志主编怎么说！

2. P接近0.05，可以有100种英文描述方法？！

3. “P<0.05”和“疗效肯定”并不是一回事！

医咖会微信：medieco-ykh

关注医咖会，涨姿势！

我们建了一个微信群，有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），拉你进群和其他小伙伴们一起交流学习。

点击左下角“阅读原文”，看看医咖会既往推送了哪些研究设计或统计学文章。

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多