查看原文
其他

仅依据P值就下结论,当心犯了这些错!

2017-08-01 孙蕾 医咖会

本文参考自《Am J Gastroenterol》(影响因子:9.566)上的一篇文章《Ten common statistical errors and how to avoid them》[1]。第一期和第二期分别推送了“论文中研究方法和结论的常见问题”以及“统计分析数据时的几大常见错误”,今天,我们再来看看P值运用的常见问题。

1、P>0.05不等于“两组相同”

组间比较通常会有三种结果:两组可能相同、两组可能不同、缺少证据来证明两组相同或者不同。大多数的假设检验以零假设开始,如果证据充足,可以拒绝零假设并发现差异;然而,如果没能发现差异,可能依旧无法得知两组是相同,还是由于缺乏证据而无法证明它们有差异。


建议】当P>0.05时,要避免得出“两组是相同的”这一结论,而应该是:“没有证据显示两组有差异”。如果研究目的是为了得出“两组一样”的结论,那需要进行等效性检验,或者是计算置信区间。与假设检验相比,置信区间能提供更为清楚的结果


在非劣效性研究中,并不是以“两组相同”(例如不良反应发生率相等)作为零假设,而是以“治疗组的不良反应发生率比对照组高5%”作为零假设,若拒绝零假设,则认为治疗组与对照组的不良反应发生率的差值不超过5%。

2、仅报告P值,缺乏其他重要信息

“与安慰剂组相比,治疗组更容易发生不良反应(P=0.04)”。在该例子中,P值的含义是什么?针对哪一种不良反应?是将所有不良反应作为整体进行了比较?还是分别对每一种不良反应进行了比较?作者是对不良反应的数量、中位数还是不良反应的构成比进行了比较?


类似上述这种P值,由于不明确用了什么假设以及使用的数据类型,因此并不具备实际意义。


举个例子,假设有两个临床试验[2],其结果见表1。


表1. P值相同、置信区间不同的两个临床试验


根据表1,仅仅依据P值,两个研究得到的结论是一样的,但是由于样本量的不同,两个研究的治疗组和安慰剂组的效应差值是不同的,并且95%置信区间也有较大差异。如果只依靠P值,可能就会忽视样本量对结果带来的影响。


【建议】对于每一个P值,应该清楚说明是针对什么假设以及运用的检验方法。在某些情况下,P值并非是最好的选择,报告效应值大小或者置信区间也许更加有意义,也更加清晰。


相关阅读你真的理解p值么? 一句话解释p值的常见误解相爱相杀的置信区间和p值

3、过度追求P<0.05而忽视医学本身

过分强调统计学方法往往容易忽视医学本身。P<0.05仅仅是一个统计学上的指标,必须建立在满足生物合理性和公认的医学证据的基础上。Fisher强调,研究者应该根据广泛的专业知识对显著性水平进行解释


然而,很多情况下作者用统计学检验方法代替医学解释,更糟糕的是利用有意义的检验结果来美化文章(例如,次要终点成为文章的重点)。实际上应该根据经验和已有的证据建立一个假设,然后通过假设检验的方法来解决这些问题。(相关阅读:为了让论文看起来更有价值,竟玩这些套路?!


从20世纪50年代到70年代,随机临床实验成为了医学研究的金标准。假设检验随之成为随机对照试验中比较治疗效果的有效的、客观的方法。虽然并非所有的试验都满足随机对照试验的条件,但是都需要依靠假设检验,结果导致了过分夸大P值,尤其随意将其与0.05水平进行比较,对统计学在临床实践中的应用产生了很大的影响。


建议】理想的情况是样本可以代表所有患者,但事实上这是不可能的。因此,需要在文中汇报效应值、置信区间,并在医学和生理学基础上对结果进行合理的解释说明,以便帮助其他研究者做出判断。


参考文献

1. Am J Gastroenterol. 2008 Feb;103(2):262-6. 

2. Am J Gastroenterol.2004,99:1638-1640.


更多阅读

1. P接近0.05,可以有100种英文描述方法?!

2. “P<0.05”和“疗效肯定”并不是一回事!

3. 【合集】试验主要结局为阳性,应该思考的11个问题!

4. 【合集】试验主要结局为阴性,应该思考的12个问题!

医咖会微信:medieco-ykh

关注医咖会,涨姿势!


我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。


点击左下角“阅读原文”,看看医咖会既往推送了哪些统计学文章。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存