仅依据P值就下结论，当心犯了这些错！

Original 2017-08-01 孙蕾医咖会

本文参考自《Am J Gastroenterol》（影响因子：9.566）上的一篇文章《Ten common statistical errors and how to avoid them》^[1]。第一期和第二期分别推送了“论文中研究方法和结论的常见问题”以及“统计分析数据时的几大常见错误”，今天，我们再来看看P值运用的常见问题。

1、P>0.05不等于“两组相同”

组间比较通常会有三种结果：两组可能相同、两组可能不同、缺少证据来证明两组相同或者不同。大多数的假设检验以零假设开始，如果证据充足，可以拒绝零假设并发现差异；然而，如果没能发现差异，可能依旧无法得知两组是相同，还是由于缺乏证据而无法证明它们有差异。

【建议】当P>0.05时，要避免得出“两组是相同的”这一结论，而应该是：“没有证据显示两组有差异”。如果研究目的是为了得出“两组一样”的结论，那需要进行等效性检验，或者是计算置信区间。与假设检验相比，置信区间能提供更为清楚的结果。

在非劣效性研究中，并不是以“两组相同”（例如不良反应发生率相等）作为零假设，而是以“治疗组的不良反应发生率比对照组高5%”作为零假设，若拒绝零假设，则认为治疗组与对照组的不良反应发生率的差值不超过5%。

2、仅报告P值，缺乏其他重要信息

“与安慰剂组相比，治疗组更容易发生不良反应（P=0.04）”。在该例子中，P值的含义是什么？针对哪一种不良反应？是将所有不良反应作为整体进行了比较？还是分别对每一种不良反应进行了比较？作者是对不良反应的数量、中位数还是不良反应的构成比进行了比较？

类似上述这种P值，由于不明确用了什么假设以及使用的数据类型，因此并不具备实际意义。

举个例子，假设有两个临床试验^[2]，其结果见表1。

表1. P值相同、置信区间不同的两个临床试验

根据表1，仅仅依据P值，两个研究得到的结论是一样的，但是由于样本量的不同，两个研究的治疗组和安慰剂组的效应差值是不同的，并且95%置信区间也有较大差异。如果只依靠P值，可能就会忽视样本量对结果带来的影响。

【建议】对于每一个P值，应该清楚说明是针对什么假设以及运用的检验方法。在某些情况下，P值并非是最好的选择，报告效应值大小或者置信区间也许更加有意义，也更加清晰。

3、过度追求P<0.05而忽视医学本身

过分强调统计学方法往往容易忽视医学本身。P<0.05仅仅是一个统计学上的指标，必须建立在满足生物合理性和公认的医学证据的基础上。Fisher强调，研究者应该根据广泛的专业知识对显著性水平进行解释。

然而，很多情况下作者用统计学检验方法代替医学解释，更糟糕的是利用有意义的检验结果来美化文章（例如，次要终点成为文章的重点）。实际上应该根据经验和已有的证据建立一个假设，然后通过假设检验的方法来解决这些问题。（相关阅读：为了让论文看起来更有价值，竟玩这些套路？！）

从20世纪50年代到70年代，随机临床实验成为了医学研究的金标准。假设检验随之成为随机对照试验中比较治疗效果的有效的、客观的方法。虽然并非所有的试验都满足随机对照试验的条件，但是都需要依靠假设检验，结果导致了过分夸大P值，尤其随意将其与0.05水平进行比较，对统计学在临床实践中的应用产生了很大的影响。

【建议】理想的情况是样本可以代表所有患者，但事实上这是不可能的。因此，需要在文中汇报效应值、置信区间，并在医学和生理学基础上对结果进行合理的解释说明，以便帮助其他研究者做出判断。

参考文献

1. Am J Gastroenterol. 2008 Feb;103(2):262-6.

2. Am J Gastroenterol.2004,99:1638-1640.

更多阅读

1. P接近0.05，可以有100种英文描述方法？！

2. “P<0.05”和“疗效肯定”并不是一回事！

3. 【合集】试验主要结局为阳性，应该思考的11个问题！

4. 【合集】试验主要结局为阴性，应该思考的12个问题！

医咖会微信：medieco-ykh

关注医咖会，涨姿势！

我们建了一个微信群，有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），拉你进群和其他小伙伴们一起交流学习。

点击左下角“阅读原文”，看看医咖会既往推送了哪些统计学文章。

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多