如何比较两种方法的灵敏度和特异度?来看实例教程!
在诊断试验或者筛查试验中,一般通过某方法与金标准的比较,计算相应灵敏度、特异度、阳性预测值以及阴性预测值等指标,从而评价这种方法的诊断或筛查价值。有关这部分内容,之前已经推送了非常详细的文章,还在晕头转向的小伙伴可以戳这里:【合集】15篇诊断试验和ROC曲线文章,从理论到操作,要啥有啥!
今天聊聊另外一个经常遇到却总是难倒大家的问题——两种诊断方法的灵敏度和特异度比较(这里也是详细回复小伙伴提出的问题~~~)。
临床上,我们会经常遇到这样一种情况,两种检查方法都可以用于诊断疾病,但都不是金标准,于是乎就想比较一下哪种方法更好。举个栗子,200人参加了某项临床研究,分别进行了CT和超声两种检查,计算CT和超声相对于金标准的灵敏度和特异度(详见表1和表2),然后问题就来了,你怎么衡量两种方法的好坏。
有的小伙伴可能要说,直接用配对资料的卡方检验(或Kappa一致性检验)比较一下CT和超声,不就搞定了吗?但是,这里要解决的是CT和超声相对于金标准的好坏,问题并没有解决。有的小伙伴会想,比较两种方法ROC曲线下面积呀。问题是这里并没有涉及到多个诊断切点,也就不会有ROC曲线下面积的概念。办法总比问题多,我们来换个思路解决这个问题——直接比较两种方法的灵敏度和特异度[1]。
由表1和表2可以得到,超声的灵敏度明显高于CT(72%>58%),而特异度却略低于CT(87%<90%)。这么看好像超声要比CT好,但是不要忘了还有抽样误差,还需要进一步的统计学检验。
我们关注的是两种方法灵敏度和特异度的差别,但无论是灵敏度还是特异度,都是在金标准诊断下的病人或者非病人中计算得到的,那么比较超声和CT的灵敏度,就可以在病人当中进行配对卡方检验,特异度同理。数据可以重新整理为表3和表4。通过配对卡方检验,CT和超声的灵敏度和特异度差异均无统计学意义(P>0.05)。
以上是对灵敏度和特异度分开进行统计检验,实际上,也可以对灵敏度和特异度进行整体统计学检验,这里需要将2*2四格表(表3和表4)整理成4*4列联表的形式(表5)。表5中,在金标准下,一个人不可能同时处于得病和不得病两种状态(听起来还挺有哲理~~~),所以“灰色格子”就没有相应数据;蓝色虚线框、红色虚线框分别对应表3(灵敏度比较)和表4(特异度比较)。
表5. 灵敏度和特异度比较
表5类似于2*2四格表的配对资料设计,这里需要采用拓展的配对资料McNemar检验(如下公式)。经统计学检验,两种方法的灵敏度和特异度也并无统计学差异(P>0.05)。
我们再重新理理整个分析过程。首先,应该对两种方法灵敏度+特异度整体进行统计学检验;如果整体存在统计学差异(P<0.05),然后再对灵敏度、特异度分别进行检验(有没有很像多组独立样本卡方检验→多重比较)。在分析过程中,当然也会遇到多种不同的结果,相应处理见图1。
图1. A和B两种诊断方法灵敏度和特异度比较
针对两种方法灵敏度和特异度比较均有差异,但是方向却不同,比如上述例子中超声的灵敏度明显高于CT(72%>58%),而特异度却略低于CT(87%<90%),这时候就需要用到ROC分析中常用的一个综合评价灵敏度和特异度的指标——约登指数(灵敏度+特异度-1)。
J超声=72%+87%-1=0.59
JCT=58%+90%-1=0.48
当然,这里有一个前提假设,即不考虑诊断试验带来的医疗成本和治疗获益等,对灵敏度和特异度赋予了相同的权重。实际上,某种检测方法的灵敏度和特异度对于疾病而言肯定是具有不同的意义,因而灵敏度和特异度的权重也应该不同,这时候就需要计算加权约登指数[2]。
Jω=2(ω*灵敏度+(1-ω)*特异度)-1
(ω为权重,0≤ω≤1)
假设我们更关注CT或者超声筛选可疑病人的价值(灵敏度),那么可设定ω=0.7。如下,可以看出超声的优势相对扩大。
Jω超声=2*(0.7*72%+(1-0.7)*87%)-1=0.54
JωCT=2*(0.7*58%+(1-0.7)*90%)-1=0.36
本次的分享就到这里,欢迎大家沟通交流~~~
参考文献
1. Br J Radiol. 1997;70:360-6.
2. Chin Med J (Engl). 2013;126:1150-4.
相关阅读
1. 15篇诊断试验和ROC曲线文章,从理论到操作,要啥有啥!
关注医咖会,涨姿势!
我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。