连载(16):统计图形艺术——生存曲线
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
生存曲线 Survival
图16.1:最早的Kaplan-Meier生存曲线
图16.2:不同ZNF287基因表达水平患者的生存曲线
在生物医学研究中,除关注结局事件(event)之外,还关注至结局事件发生时间的长短(time to event),适合采用生存分析及相关图形展示。
例: 以TCGA数据为例,选取284例宫颈鳞状细胞癌患者组织中GAB1基因表达水,按照中位数分为高(High)和低(Low)两组,绘制KM曲线(图 16.3)。其中左图的y轴为累计存活(或未发生目标事件)率,右图的y轴为累计死亡(目标事件)率。
图16.3:生存曲线(左)和死亡曲线(右)示意图
随着研究时间的延长,失访率逐渐升高,有效样本量将显著减少,统计学效能下降,甚至导致结果偏倚。
例:基于英国生物样本库(UKBiobank)的肺癌预测模型研究中,由于后期失访率过高,将随访时间截尾至8年 [3]。下例通过设置xlim = c(0, 8)
参数来实现将截尾时间控制于8年(图 16.4)。
图16.4:结尾至特定事件的生存曲线示意图
例:续上例,中位生存时间(median survival time),表示刚好有50%的个体其存活时间大于该时间,是生存分析中常用的描述统计量 (图16.5)。注意,和生存时间的中位数不同。用surv.median.line = "hv"
参数来实现。
图16.5:生存曲线标注中位数参考线
例:续上例,生存曲线绘制函数中,有多种参数供我们选择。其中,给生存曲线加上95%可信区间带(95% confidence band),如果区间带无重叠,则提示两组间的生存过程差异有统计学意义。通过conf.int = TRUE
即可实现(图 16.6)。
图16.6:生存曲线增加区间带
累积风险函数含义是所关注事件到t时刻为止发生的概率,相比较风险函数更容易被精确估计,所以较为常用。在生存分析中,为了确定风险函数是否发生变化,我们可以调整参数fun="cumhaz"
来绘制累积风险函数(图 16.7)。
图16.7:累计风险函数图
存在多条生存曲线时,需要比较存曲线之间的差异有无统计学意义。应根据曲线特征,选择合适的方法(图 16.8) [4]。
图16.8:多种方法的生存曲线比较结果
将KM曲线、各时点风险人数表、生存曲线间比较结果等信息合并于一图,一目了然(图 16.9)。
图16.9:生存曲线及组间比较
Cox回归等生存分析模型须要数据满足等比例风险(proportional hazard, PH)假设。可绘制Schoenfeld残差图来判定是否满足等比例风险假设。
若Schoenfeld残差图中,y轴为标准化残差,x轴为时间,实线为样条拟合线,上下两条虚线为+/-2倍标准差参考线。
若点的分布与时间无关,则提示符合PH假设,否则提示残差与时间可能有关,违背等比例风险假设(图 16.10)。
图16.10:Schoenfeld残差图
亦可绘制Deviance残差图来识别异常值。Deviance残差均数为0,标准差为1。残差为正则表示实际结局早于预测结局,为负责表示实际结局晚于预测结果。残差过大或过小(超过上下1.96倍标准差),则为可疑离群值,可检视数据(图 16.11)。
图16.11:Deviance残差图
在观察性研究中,由于研究因素和协变量(很)可能存在关联。在回归模型中,通常通过调整协变量,以使得研究因素的预后效应估计更为准确。
常规生存曲线为单个因素展示形式,或多个因素通过组合而成单个因素进行展示,并未考虑协变量对生存曲线的影响,易误导观众。
建议绘制校正协变量的生存曲线(图 16.12),与未校正协变量的图相比,以观察协变量对生存曲线的影响。
图16.12:校正协变量的生存曲线
KM曲线应包含以下元素:X轴刻度要合适,X轴标签须包含时间单位;Y轴的标签需恰当;多条KM曲线时,应用不同的颜色或线型,并明确标注。
删失会导致生存过程估计偏倚,组间删失情况不一致,会造成组间比较偏倚;因此,生存曲线上应标注删失事件。 建议提供各时点的风险人数(Number at Risk),以便客观评估。 在随访过程中需有足够的事件数发生,方能用曲线直观体现生存过程。
参考文献:
Pearl R, Winsor CP, White FB. The form of the growth curve of the canteloup (cucumis melo) under field conditions. Proceedings of the National Academy of Sciences of the United States of America. 1928;14(12):895–901.
Stalpers LJA, Kaplan EL. Edward l. Kaplan and the kaplan-meier survival curve. 2018;33(2):109–35.
Ji M, Du L, Ma Z, Xie J, Shen H. Circulating c‐reactive protein increases lung cancer risk: Results from a prospective cohort of UK biobank. 2021;
魏良敏, 官锦兴, 张汝阳, 陈峰, 魏永越. 生存曲线比较的方法选择及可视化. 2020;37(05):768–771+775.
写作:魏永越*,朱晨旭,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
连载(9):统计图形艺术——三元图
连载(10):统计图形艺术——QQ图
连载(11):统计图形艺术——概率和统计分析
连载(12):统计图形艺术——曲线平滑
连载(13):统计图形艺术——线性回归
连载(14):统计图形艺术——非线性回归
连载(15):统计图形艺术——回归模型诊断
统计图形艺术——“图形”英文词意辨析