当我们在撰写肿瘤学或一些临床实验(包括一些回顾性研究、动物实验等)相关的论文的时候,无论是一个基因还是一种药物甚至是任何一种条件实验,都会在文末看到类似与上图相似的Figures。这类统计学图我们通常称之为生存曲线图。
所以目前临床或者生命科学领域最常用生存率曲线(也称Kaplan-Meier曲线)来描述各组患者的生存状况或者各组实验动物的存活情况。如果我们去搜一下微信或者百度的话,有大量教程教你如何使用R语言、Prism、OriginLab等一系列相关的统计学/绘图软件来绘制这种图片。除了涉及到要整理代码外,更多的工作来自于对每个样本每个病人临床信息的统计。除了需要整理自己的研究外,部分研究还需要借助TCGA数据库。这就又涉及到TCGA数据下载与整合的工作了。总而言之就是画图一分钟,整理一星期。这绝对不是戏言。那么有没有一款工具专门让懒人也可以像步步高学习机一样,哪里不会点哪里,让老师和同学们能一点就会呢?答案是肯定的!
1. OS/PFS/DFS/DSS各种生存指标的定义
开始今天的课程前,我们还是要捋一捋生存指标的不同定义。不要到时候看到OS/PFS/DFS/DSS各种生存指标傻傻分不清。感谢简书作者白介素2提供的部分资料(https://www.jianshu.com/p/9a62a99d1707 )。
a. OS 总体生存期:Overall Survival定义:Overall survival (OS) is the gold standard primary end point to evaluate the outcome of any drug, biologic, intervention, or procedure that is assessed in oncologic clinical trials. OS is universally recognized as being unambiguous, unbiased, with a defined end point of paramount clinical relevance, and positive results provide confirmatory evidence that a given treatment extends the life of a patient. 结局指标是死亡时间,这个死亡是任何原因导致的死亡都算进去,只关心是否死亡,不关心因为何种原因死亡。优点:能比较方便的记录,因为患者死亡的日期确认没有困难。只要研究结果显示生存有提高,就可认为是是临床有获益。b. PFS 无进展生存期:Progression Free Survival定义:"the length of time during and after the treatment of a disease, such as cancer, that a patient lives with the disease but it does not get worse" ;指的是疾病经过治疗后,没有进一步恶化的生存期,结局指标是 发生恶化或 死亡。优点:增加了发生恶化这一结局指标节点,随访时间短一些,对应的改善是未恶化与未死亡,可以反映临床获益。如果 PFS提高了,可以认为临床有获益。缺点:因为增加了 发生恶化这一结局指标,我们就要问一个问题了,何为发生恶化?有没有明确的标准?相对于记录是否死亡,判断病人是否病情恶化的难度要大得多,因此这就要求对 发生恶化的标准进行明确的定义。发生恶化的定义通常涉及影像学资料(普通X线,CT扫描,MRI,PET扫描,超声)或其他方面:生化进展可以根据肿瘤标志物的增加。c. DFS 无病生存期: Disease Free Survival定义:经过治疗后未发现肿瘤,结局指标为 疾病复发或 死亡,同样不关心死亡原因。The measure of time after treatment during which no sign of cancer is found. 同样 Relapse Free survival的定义也类似。优点:是临床获益的重要反映,随访时间可以缩短,因为增加了疾病复发这一节点。没有复发或没有死亡可以反映临床获益。缺点:同理,因为增加了 疾病复发这一节点,我们就要问了, 何为复发?如何明确有无疾病复发?对于记录死亡,明确是否复发的难度要大得多。记录比较困难。d. DSS 疾病特异性生存期: Disease Free Survival定义:结局指标改变为 由特定疾病导致的死亡,这时候开始关心死亡的原因是否是由特定疾病导致的。如果不是特定疾病导致的则不计入结局指标。"the percent of people who died from a specific disease in a defined period of time. Patients who died from causes other than the disease being studied are not counted. "优点:针对性的反应临床获益,DSS提升能够很好的反应特定疾病的临床获益,特定疾病导致的死亡减少或增加。缺点:同样很明显,相比简单确认患者是否死亡,这时候我们需要明确 何为由疾病导致的死亡?有没有明确的标准?,这个问题需要一个专业的判断。患者的死因经常并不容易明确。
2. GEPIA在线绘制生存曲线图
GEPIA是北京大学著名单细胞测序学者张泽民教授课题组开发的,基于TCGA数据而进行整合的一款集分析和绘图于一体的在线数据库,相关研究论文发表在Nucleic Acids Research杂志上。今天我们就去GEPIA绘制一张生存曲线图。
结直肠癌目前在全球发病率持续升高,我们需要研究结直肠癌患者中哪些阳性表达的基因,患者整体生存时间更长。
今年复旦大学的何睿课题组,在PNAS一项报道报道称,巨噬细胞若增强表达CCRL2能够增强免疫应答。所以我们想要了解下CCRL2在结直肠癌患者中是否生存期更长。
进入GEPIA官网(http://gepia.cancer-pku.cn/ )后,输入CCRL2后,点击Survival Analysis,等待几秒后就会转到下一个界面。
我们点击右侧Cancer name后可以查询各个肿瘤的缩写,我们于是找到了COAD即为Colon adenocarcinoma。于是选中COAD后点击Add,随后再点击Plot,进入绘图阶段。
如上图所示, CCRL2表达High的患者总生存率长于CCRL2表达low的患者。
随后,我们又绘制了FTO在急性髓细胞白血病LAML中总生存曲线,发现FTO高表达的患者总生存率要低于那些FTO低表达的患者。