查看原文
其他

在家抗疫,科研狗如何优雅发paper

The following article is from i生信 Author 豆奶君

最近票群里听到不少科研狗(尤其是临近毕业的)抱怨:这该死的疫情把自己堵在家里,只能望着自己的课题干着急,望着毕业接近真是揪心啊。作为同样临近毕业的豆奶君却一点也不慌,于是就有了这样的对话:

朋友:豆奶君你为何如此淡定?我的毕业课题一点着落都没有呢!

豆奶君:因为我找到了被疫情困在家去能安然做科研的正确姿势(傲娇脸),我在家里写文章了。

朋友:搞笑吗?没有病房病例资源又没有实验室实验资源,怎么可能做自己的课题呢发文章呢?

豆奶君(正经状):我的课题不需要病房的病例也不需要实验,就是公共数据库数据挖掘
朋友(愁眉苦脸):你是说GEO和TCGA数据挖掘吗?好是好,但我等屌丝一不会R语言,更不会linux,挖数据库这不是癞蛤蟆想吃天鹅肉嘛!
豆奶君(偷笑):图样图森破啦,我找到的可以发文章的数据库一不需要R语言,更不需要linux或任何编程基础,而且免费!
朋友:哇怎么可能有这种宝藏!快告诉我吗!
于是就有了这样一篇文章诞生。科研狗们宅家摸鱼之余,课题也不会落下哦!(误)

(零)SEER数据库初识
美国国家癌症研究所(National Cancer Institute)的SEER数据库(Surveillance, Epidemiology, and End Results ),是美国权威的癌症统计数据库,收集了大约30%的美国人口(想想这可是上百万人的数据量呢,折合成一种疾病也得有上万例吧,没有临床数据的小菜鸟们心动ing)的癌症诊断,治疗和生存数据。其肿瘤信息通过分析软件SEERStat进行申请获取部分数据,为全球肿瘤研究者尤其是缺少临床科研数据的临床研究者提供了很好的数据来源(就是我们的福音QAQ)。SEER数据库样本量大,有权威,这使基于SEER数据库的研究具有较高的临床参考价值。

数据内容:人口统计数据,患者ID, 个人信息,原发灶位置,肿瘤大小,肿瘤编码,治疗方案,死亡原因等信息。包括多种肿瘤,按系统划分为9类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确指的类型。其官网网址如下:https://seer.cancer.gov/


我们以一篇5+的文章为例开始介绍吧!《Prognosisof Young Survivors of Gastric Cancer in China and the U.S.: Determining Long‐Term Outcomes Based on Conditional Survival》发表于The Oncologist IF=5.3。本文思路简单粗暴就是纯生存分析。不过机智的作者想到了牵涉到多个人群,于是一篇低级灌水文就可以提升到中级了(误)。首先是中国患者,2000 到2012年本院的572名胃癌患者患者。SEER数据库则作为美国患者,扩大样本量和人群。(什么?你手上没一点病例资料?不如选择一些高级套路,如逆概率加权(IPW)……什么,只会生存分析的基本操作?3分以下的文章可以,6分还是别想了orz)。

(一)方法简介
在数据库中按肿瘤位置可检索囊括所有胃癌患者:下1/3 (C16.3 和C16.4)上1/3(C16.0和C16.1), 中1/3 (C16.2, C16.5, 和C16.6)和重叠区(C16.8)。

选取的分析终点主要是疾病特异性生存(disease‐specific survival,DSS)和3年疾病特异性生存(3‐year conditional DSS,CS3)。运用了Kaplan‐Meier 生存曲线描绘了DSS和CS3,通过COX比例风险回归找到影响因素,很平常的思路。

这里介绍一下:3年疾病特异性生存指某单位时段开始时存活的患者到该时段结束时仍存活的概率。CS3在第x年的生存概率即在初始治疗后,3年后的生存率。公式CS3= DSS(x + 3) / DSS(x)。随着胃癌患者术后生存时间的增加,患者的死亡风险是存在动态变化过程的。相比于传统的生存率,条件生存率则考虑到这一因素,用以动态评价患者的生存情况,为临床医生提供更准确的预后信息。咱先看思路,R语言有专门的生存分析包可以解决这些细节啦!以分析思路为主不做赘述。

(二)生存分析
首先通过生存曲线比较了中美年轻患者生存情况。


在生存率变化曲线中可看出与DSS下降的趋势相比,CS3随术后生存时间的延长而增加。


分别对中美两国患者,根据肿瘤等级、大小、部位、TN分期等预后因素对DSS的影响都分别做了Cox比例风险回归模型;之后基于多个时间点进行单变量和多变量分析,以评估所有预后因素是否均可独立且连续地影响DSS,对相应预后因素做DSS、CS3生存率曲线。值得注意的是,在手术后存活3年的患者中,仅T期仍是独立的预后因素(p<.05)。


再对有统计学意义的预后因素(T分期)做Kaplan-Meier曲线和生存率柱状图,发现中美人群DSS发生率相近,预后较好。


(三)本文思考
  1. 背景:尽管胃癌年轻患者越来越多,尚无评估年轻的胃癌幸存者生存变化的报道,而年轻患者由于身体机能等综合条件更好,其生存率与年迈患者一定是不一样的,有必要探索因素并指导年轻患者预后。
  2. 通过条件生存率(CS3)的方法,分析了年轻胃癌患者术后预后因素的动态变化,有助于临床医生为年轻的幸存者提供更有意义的预后评估。
  3. SEER数据库可以单独分析,也可以成为已有数据的有力补充,扩大适用人群和范围。而如果样本量够大覆盖够广,统计方法的要求就降低了,生存分析都能撑起一片文章。

附上原文网址~
https://theoncologist.onlinelibrary.wiley.com/doi/full/10.1634/theoncologist.2018-0220

欢迎交流分析思路,扫码备注:生信思路你出来


推荐阅读:


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存