为什么不用TCGA数据库来看感兴趣基因的生存情况
我们已经多次介绍过生存分析:
而且使用TCGA数据库来看感兴趣基因的生存情况非常简单,一个网页工具即可,都无需R语言了。即使是这样,仍然是有文章并不使用TCGA数据库来看感兴趣基因的生存情况,比如 Cancer Res. 2016 April 1; 文章:
Phosphatase PTP4A3 promotes triple-negative breast cancer growth and predicts poor patient survival
使用的是发表在 BMC Cancer. 2011 的 文献的数据,文章题目是:Correlation of microarray-based breast cancer molecular subtypes and clinical outcomes: implications for treatment optimization.
这个2011的研究表达矩阵在 GEO database (GSE20685) :Gene expression profiling was conducted on fresh frozen breast cancer tissue collected from 327 patients in conjunction with thoroughly documented clinical data.
虽然说这个2011的研究表达矩阵和临床信息比较齐全,但并不意味着不能使用TCGA数据库。
学徒作业
首先必须是去TCGA数据库看这个PTP4A3基因是否具有显著是生存分析结果咯,网页工具或者自己下载数据文件使用R均可。
然后把这个2011的研究表达矩阵 (GSE20685) 全部的基因批量做生存分析(表达量中位值分组),把具有统计学显著的基因列表拿到。
补充作业cox结果森林图展现
其实下面的表格大家也可以尝试做一下,就是把cox生存分析回归结果整理和理解一下。然后尝试把这个表格变成森林图,比较一下图表到底哪一个更直观。
提示:在R语言里面,使用forestplot 包
最后是友情推广
如果你也对学徒培养或者实习职位感兴趣,想在我们的指导下完成肿瘤外显子等NGS数据分析,可以先看看我是如何培养学徒的:
当然了,学徒培养看缘分!发邮件给我申请:jmzeng1314@163.com