面对如此多的新冠临床试验,要正确解读治疗的有效率
The following article is from 小白学统计 Author 小白学统计
内容来自:“小白学统计”微信公众号,感谢作者授权。
随着目前疫情的变化,国内据说已经开展了100多项关于病毒治疗的临床试验,而且有的似乎也得出了“有效”的结论。然而,越是在这种情况下,越是应该冷静,要用统计学的思想去解读治疗有效性的含义,而不是简单地去凭字面意思说是否有效。
先举个简单例子,有研究纳入了100例病例,随机分为两组,每组各50人。最后结果发现,试验组治疗有效10人,对照组治疗有效5人。很显然,从数据来看,两组的有效率分别为20%和10%,差值为10%。
这是不是个值得欢欣鼓舞的结果呢?表面来看,的确如此。你可以说,有效率差值达到了10%,试想一下,如果100人,相当于能多治好10人,1000人就可以多治好100人,而10000人就可以多治好1000人。这么一看,还真的很不错。
然而,实际中是不是如此呢?这就需要重提统计学中最基本也是最重要的一个概念:假设检验。
我们这里就直接通过一个模拟的例子来说一下这种情况。
假定有10000人(算作总体),在这总体的10000人中,有5000人在试验组,5000人在对照组,而且这两组的有效率都是20%(1000人有效,4000人无效)。也就是说,试验药是没有任何作用的,两组效果完全相同。
假定这就是实际情况,实际中一共就10000例病例,而且某药的治疗效果无效(两组有效率完全相同)。现实中由于各种条件所限,要做随机对照,总是不大可能把这10000例都获得,通常也就是获得一部分。
假定每个研究都有100例病例(当然也可以是其它例数,此处仅是举例),这100例也是随机分两组,每组50例。采用有放回的随机抽样,总共抽样1000次,每次都是100例(每组50例),让我们看看抽样的这1000次结果,他们的差值情况。
下图是1000次重复抽样的结果,可以看出,虽然总体中两组确实一点差异都没有,然而,在抽样中,总会一不小心出现差异,甚至有时候还会出现偶尔的比较大的差异。
下图中,1000次的重复随机对照试验中,有336次试验两组的有效率差异大于0.1(注意这是在两组实际根本没有任何差异的前提下出现的结果)。也就是说,即使两种药物其实并没有差异,然而,你从总体中随机抽取一部分人进行比较,总是会发现两组的数值还是有差别的。
这种情形下,可以说两组有差异吗?恐怕不好说,因为前提是我们已经知道了两组没有任何差异。
那反过来,实际中我们是不知道总体到底有没有差异的。但是从模拟的数据起码可以看出,即便两组没有任何差异,还是有很大的几率(33.6%)出现两组的有效率达到10%以上。甚至还有比较小的几率差值能达到20%甚至40%(当然,这是极其偶然的情况)。
那么实际中,我们如果只知道100人(每组50人)的研究中,两组有效率差值是10%,能说这种药有效吗?恐怕有点难。为什么?因为正如刚才显示的,即使两种药没有任何差异,也有基本三分之一的可能性出现10%甚至10%以上的差异。
通俗一点说(算不上太严谨,但更容易理解),假定两种药在总体中就是没有任何差异。这种前提下,如果全国做了1000个随机对照试验,每个随机对照试验都是100人,那么,大概会有336个试验出现两组差值大于10%。注意,实际上这1000个试验应该都是没有差异的(因为总体没有差异)。所以这时候如果基于这300多个试验结果说,“这种药有效,差值都达到10%了”。这种说法就很难立住脚。
即使不以10%作为界限,就算做统计学检验,这1000个随机试验仍然会有一部分出现p值小于0.05的情况。比如下图就显示了这种情况。下图中,横坐标是两组率的差值,纵坐标是p值(红色代表p值小于0.05)。
图中没有标注,实际中一共是49个红色的点,也就是说,1000个试验中,有49个甚至都出现了统计学差异。这就叫做假阳性。而且基本接近5%,这不是偶然的。为什么我们习惯以0.05作为有统计学差异,其实是有道理的。
总的来说,本文想表达的思想是:即使疫情严重,我们也要科学开展研究,科学对待研究结果。不能发现好像有差异就着急宣布“好消息”,有时这种所谓的“良药”有可能会带来更多的问题,不仅仅是欲速则不达,而且浪费人力物力,浪费时间。看待这些结果,一定要用统计学的思维去考虑,否则很容易出现误导。
更多阅读
关注医咖会,及时获取最新重磅研究!