查看原文
其他

万众期待的『神药』瑞德西韦,这是要凉凉了吗?| 权威解读

美国西北大学张晖 海上柳叶刀 2022-04-18

专家门诊 | 合理用药 | 热点聚焦 | 手术日 | 医学史



专家门诊

给您权威参照



从专业的角度看,这么明显的结果,反而不能代表什么结论。


















4月23日美东中午的时候,美国医学新闻网站statnews.com报道了WHO“不小心”在其官网上泄漏了由我国中日友好医院曹彬教授主导的瑞德西韦临床试验的结果简报。


马上,华尔街做出反应——吉利德公司(Gilead)股票从中午12:40的83.33美元暴跌到12:50的76.28美元,短短十分钟内跌幅高达8.5%。


这,是不是意味着万众期待的瑞德西韦没戏了?



不知道股市玩手和临床专家怎么看,但是笔者作为统计学家,觉得WHO泄漏的信息不能导致任何科学结论,很多解读者有可能踏入了三个统计的误区。


根据WHO网站泄漏的简短信息,这项瑞德西韦治疗重症 COVID-19 的临床试验原计划入组 453 例,实际入组 237 例,其中瑞德西韦治疗组 158 例,标准治疗对照组 79 例,死亡率分别为 13.9% 和 12.8%,无统计学差异。结果认为,瑞德西韦治疗未明显改善 COVID-19 重症患者临床症状,同时瑞德西韦组中 18 名患者(11.6%)因药物副作用提前中止治疗。


为什么笔者觉得这么明显的结果反而不能代表什么结论呢?需要从临床试验的设计说起。


临床试验的设计是一个高度专业化的科研领域,笔者过去十年中设计过大大小小,各式各样的临床试验近百个,仍然觉得自己有很多不足,还有很多需要学习和提高的空间。对于不从事于这个领域的读者,笔者觉得有些朋友对这份泄漏信息的解读可能会踏入三个统计理解的误区:


1
临床试验的样本量



酒桌上,笔者曾经听说关于样本量有“三拍”工作者:设计临床试验的时候,样本量靠的是拍脑门;领导问怎么样的时候靠的是拍胸脯;最后结果出来后拍大腿……嗨!


虽然这是一个笑话,但是折射出来一个临床试验设计时很重要的问题:怎么确定样本量?这不仅关系到临床试验的时间成本和经济成本,更关系到它的成败。


一般说来,分这样几步:确定该临床试验的主要目的——》确定该临床试验的科学假设——》确定验证该科学假设的统计模型——》预估该统计分析的各项参数——》计算达到一定统计把握度所需要的样本量。


统计把握度(Statistical Power)就是说,如果瑞德西韦有效,我们最后数据分析的时候有多大把握可以得到一个它有效的结论,美国食药总局一般建议80%。也就是说,如果这个试验顺利完成了,瑞德西韦有效的话,我们最后有大约80%的把握会得到它有效的结论。


但是这个试验是设计了453个人,目前只有237个病人,我们的把握度会很小。即使瑞德西韦真的有效,我们也很可能得不到这样的结论,一般就代表p值大于0.05。


那p值大于0.05是不是就表明瑞德西韦无效呢?这就是下一个统计误区。


2
P>0.05的统计含义



很多理工科研究生读书的时候都有这样的经历,辛辛苦苦日以继夜地做实验,最后分析数据的时候电脑在最后一秒给出了一个欢天喜地的结论,p<0.05,顿时恨不得普大喜奔,哼起了“解放区的天是晴朗的天”。这个结论,一般就意味着实验组和对照组有显著区别,意味着可以发论文了,意味着可以毕业了,也可能还意味着可以迎娶白富美,走上灿烂的人生了。好吧,也可能我想多了……



但是等等,如果有倒霉的同学得到了p>0.05,就意味着两组没有区别吗?不是的,当p<0.05一般代表两组有区别的时候,p>0.05其实不能导致任何结论,只是说结果待定。这个没有结论的原因有可能是两组实际上没有区别,也可能是因为实际上有区别但是你的样本量不足导致统计把握度过低,像我们上面解释的。或者其它原因。


所以泄漏的这个结果既不能支持瑞德西韦的效果,也不能否定瑞德西韦的效果。


那泄漏的结果里面说“其中瑞德西韦治疗组 和标准治疗对照组 的死亡率分别为 13.9% 和 12.8%”,是否就代表瑞德西韦有增加死亡率的趋势呢?


表面上看起来是,但是这实际取决于有没有其它因素的影响。


3
临床试验的随机化分组



随机化貌似简单,其实也是临床试验方案设计时的关键点之一。先给大家看一个1986年发表在《British Medical Journal》的一个关于肾结石的例子【注1】。



我们比较A、B两种疗法,当不考虑其它因素的时候,B组在350个病人中治好了289人,比例为83%,高于A组。可是当我们把病人按照肾结石大小不同的情况统计时,A组治疗率却总是高于B组。是不是很惊讶?那为什么呢?所有的数据都在上面,大家仔细考虑一下自然很容易明白。


那对于WHO泄漏的瑞德西韦的这个临床试验,药物组和对照组其它因素一样吗?会不会药物组年龄更大?基础疾病更严重?我们不知道,但是如果是的话,也可能结论就像上面的这个例子不那么直接了。


那在设计临床试验的时候需要怎么样提前避免因为其它混杂因素引起的问题呢?这就需要考虑分层随机,而不是简单随机。比如把男性作为一个小组,在小组内再按照比例分为药物组和对照组;或者把同一个年龄段作为一个小组,在小组内再随机分为药物组和对照组;如此等等。这时候每一个小组就是一层,英文叫strata。


根据clinicaltrials.org的信息,这个临床试验是简单随机的,没有分层【注2】。 


所以我们分析数据的结论的时候,要多个角度考虑,不要轻易的下结论。尤其是设计临床试验的时候,更是要尽量考虑周全。咱们疫情严重的时候,上马了数百项临床试验,最后感觉落了一地鸡毛,从笔者得到的有限信息看来,很多的设计的确有值得商榷的地方。



----------

上面的文章

非专业读者看不懂没关系

知道结论就够了

***

以下视频来自网络

是为了提升大家阅读本文的愉悦感

与原作者无关




注释

1/https://www.ncbi.nlm.nih.gov/pubmed/3083922

2/https://www.clinicaltrials.gov/ct2/show/NCT04257656?term=remdesivir&cond=COVID&draw=2&rank=4





·END·

 


冷静 | 专业 

关键时刻派用场



微信号:SH-scalpel


原创内容 谢绝转载


刀先生(编辑)邮箱:shanghailyd@126.com

QQ:3268131491


更多精彩,敬请阅读——


找到新冠病毒『19个致病性新突变』!李兰娟院士新发表的论文到底意味着什么?


千夫所指『韩某某』,真是导致哈尔滨疫情反弹的『零号病人』?!


对于高福院士『迟到的自证』,网友们纷纷表示:你肯定是被冤枉的!


疫情如此汹涌,真会有哪个国家实现“群体免疫”吗?| 全球疫情展望

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存