查看原文
其他

单细胞转录组得到的基因集如何看生存效果呢?(不妨试试看GSVA)

生信技能树 单细胞天地 2022-06-06


最近重新看发表于:Cell. 2018 May   :Chemoresistance Evolution in Triple-Negative Breast Cancer Delineated by Single-Cell Sequencing. 有一个附件图表很有趣,值得学徒学习。

使用单细胞多组学探索TNBC病人的新辅助化疗疗效

根据作者的单细胞研究,找到了化疗耐药相关通路, The gene signatures associated with chemore- sistance included EMT, CDH1 targets, AKT1 signaling, hypoxia, angiogenesis, and ECM degradation.

所以就可以挖掘公共数据库,对指定的6个基因集,在表达矩阵里面计算GSVA值,然后把病人分组看生存差异。

首先需要拿到基因集

图中的6个基因集, EMT, CDH1 targets, AKT1 signaling, hypoxia, angiogenesis, and ECM degradation 在中文有描述:

不过,看这么多文献不现实,有一个简单的方法,就是去查询msigdb数据库,通常都是有的。

http://software.broadinstitute.org/gsea/msigdb/index.jsp

http://software.broadinstitute.org/gsea/downloads.jsp

基本上都是在 h.all.v6.2.symbols.gmt ,拿到的基因集如下:

HALLMARK_HYPOXIA    http://www.broadinstitute.org/gsea/msigdb/cards/HALLMARK_HYPOXIA     
HALLMARK_EPITHELIAL_MESENCHYMAL_TRANSITION
HALLMARK_ANGIOGENESIS    http://www.broadinstitute.org/gsea/msigdb/cards/HALLMARK_ANGIOGENESIS    
HALLMARK_PI3K_AKT_MTOR_SIGNALING         

Gene Set: BIOCARTA_ECM_PATHWAY

最后一个基因集,比较曲折,需要看文献:Loss of E-cadherin promotes metastasis via multiple downstream transcriptional pathways

然后下载METABRIC表达矩阵

在我GitHub有详细教程:https://github.com/jmzeng1314/METABRIC

需要注意的是这里要挑选病人,with gene expression data and long-term clinical follow-up data to
determine if any of the chemoresistance-associated signatures correlated with patient survival.

接着使用GSVA算法在METEBRIC数据集计算

同样是在我GitHub有详细教程:https://github.com/jmzeng1314/GEO

最后生存分析

很简单的代码了咯,需要注意的是:apply家族函数和for循环还是有区别的(批量生存分析出图bug)参考:https://mp.weixin.qq.com/s/efI8U2lb3UfMwLp94iqw1Q

这个是我给学徒的一个考核题目,你也可以试试看,欢迎大家提交作业给我邮箱:jmzeng1314@163.com

答案将会在一个月后公布,到时候点击下面的阅读原文就可以跟着学习。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存