查看原文
其他

了解ROC曲线下面积,有这篇文章就够了

2017-03-24 李侗桐 医咖会

上一篇文章我们讲了“如何绘制ROC曲线”,今天我们来详解一下ROC曲线下面积。ROC曲线下面积(the area under the ROC curve, AUC)是指ROC曲线与x轴、(1,0)-(1,1)围绕的面积,如图1阴影部分。


一般来说,ROC曲线下面积在0到1之间。如果一项诊断试验的灵敏度是1,而假阳性率是0,那么该诊断试验的ROC曲线下面积就是1。但是这样的诊断试验几乎不存在,一个诊断试验往往不能将所有的患者和非患者都准确地识别出来。同时,也不会出现某一项诊断试验的ROC曲线下面积为0的情况,因为基本不会有一项诊断试验错误地识别了所有的患者和非患者。即使真的有这样的诊断试验,我们只需要将所有的诊断结果反过来,就可以得到完美结果。


也因为如此,我们认为ROC曲线下面积不会低于0.5,如果低了,我们只需将诊断翻转,就能得到更好的结果。如果诊断试验的结果完全随机(等同于诊断时,靠投掷硬币,正面向上认为是患者,反面向上认为是非患者),那么我们得到的ROC曲线下面积就是0.5,即ROC曲线下面积的最小值是0.5。


可见,只要ROC曲线下面积大于0.5,就证明该诊断试验具有一定的诊断价值。同时,ROC曲线下面积越接近1,离(0,1)点越近,证明诊断试验的真实性越好。

第一个栗子

仍以甲状旁腺诊断试验为例,现有SPECT、AC SPECT(衰减矫正SPECT)和SPECT/CT三种方法对同一患者群进行诊断。根据诊断试验结果,研究者将患者甲状旁腺的病变情况分为1-5五个等级。1级为完全没有甲状旁腺病变,2级为可能没有甲状旁腺病变,3级为可能存在甲状旁腺病变,4级为疑似甲状旁腺病变,5级为确诊甲状旁腺病变。得到诊断结果后,我们以3-5级为诊断阳性,1、2级为诊断阴性,并根据手术结果统一评价这三项诊断试验的准确性,如表1。


从表1可以看出,在设置相同截点的情况下,不同诊断试验的真实性不同。其中,SPECT/CT的ROC曲线下面积最接近1,相比于SPECT和AC SPECT具有更好的诊断准确性。


那么,SPECT/CT的ROC曲线下面积(0.83)有什么实际含义吗?


如果我们使用SPECT/CT随机检查2位受试者,其中一位患有甲状旁腺病变,而另一位没有,那么SPECT/CT诊断试验正确区分患者和非患者的可能性为0.83。


同时,如果我们只看ROC曲线,也可以比较不同诊断试验的真实性,如图2。其中,SPECT/CT诊断试验的ROC曲线更接近于(0,1)点,所以它比AC-SPECT诊断试验具有更好的准确性。


图2中两个做标记的点是以3级(可能存在甲状旁腺病变)诊断结果为截点进行坐标的,与表1中的情况一致。这是因为拟合后ROC曲线会略有变化,这两个点均与原坐标点的位置会略有差异。


仅仅从表1中的数据来看,我们可能认为AC SPECT诊断试验的灵敏度(0.80)高于SPECT/CT诊断试验的灵敏度(0.70)。但是从图2我们可以看出,无论是在哪一个假阳性率的位置上,SPECT/CT诊断试验的灵敏度都比AC SPECT诊断试验的灵敏度好。可见,在实际临床工作中,仅以某一个截点的数据评价不同试验的灵敏度是不准确的,我们应根据ROC曲线下面积进行综合判断。


那么,我们一定会选择ROC曲线下面积比较大的诊断试验吗?


答案也是否定的。


通过上一讲对ROC曲线绘制方法的介绍,大家应该知道ROC曲线与受试人群的患病率以及漏诊、误诊的危害程度无关,仅仅是综合评价一项诊断试验的灵敏度和特异度两个指标。


现假设我们想通过诊断试验判断无症状人群的心血管病变情况。在临床实际工作中,这些无症状的就诊人群真实患心血管病变的可能性相对较小。为了减少误诊带来的医疗资源浪费和恐慌,我们可能会更倾向于选择特异度较高的诊断试验和截点。在这种情况下,灵敏度指标对诊断试验的整体准确性的影响较小。我们仅会根据ROC曲线中的一部分(特异度较高的区域),而不是全部的ROC曲线下面积来选择诊断试验。


可见,完全依靠ROC曲线下面积评价诊断试验的准确性是容易产生误导的。即使是ROC曲线下面积相同的两个诊断试验也可能存在不同的临床适用范围。

再来一个栗子

下图3中,我们向大家展示了两条相交的ROC曲线。相比之下,曲线A下的面积(0.85)比曲线B下的面积(0.80)大。仅根据ROC曲线下面积,我们应该以A诊断试验为首选。但是,如果在临床应用中,我们需要一个特异度比较好的诊断试验,B诊断试验应该成为我们的首选。因为在特异度高、假阳性率低的区域,诊断试验B的ROC曲线优于诊断试验A。


由此可见,虽然ROC曲线和曲线下面积可以准确地反映诊断试验的真实性,但是在实际工作中,我们必须根据受试人群的特征、诊断结果的临床影响、诊断的经济成本等因素综合选择适合的诊断试验。换言之,只有在适合的受试人群和受试条件下,诊断试验的真实性才能得到保障。


相关阅读

1. 评价诊断试验的两大指标,你都搞清楚了吗?

2. 一文掌握:诊断试验如何设定截点

3. 如何提升诊断的灵敏度或特异度?

4. 多图实例:教你绘制ROC曲线

医咖会微信:medieco-ykh

关注医咖会,你会发现研究方法学没那么可怕


我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。诚邀各位伙伴加入我们创作内容,请和小咖联系,和大家分享你喜爱的临床研究以及有用的研究方法学知识。


点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。还可以到医咖会公众号下方的自定义菜单,点击“直接搜索”,查找你想了解的内容。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存