PCA都分不开的两个组强行找差异是为何
我在生信技能树的教程:《你确定你的差异基因找对了吗?》, 提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:
左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异
如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释的。
生存分析和差异分析的关键是分组
在肿瘤学研究里面,就是对癌症患者的样本根据某个临床特征或者某些分子的特性来进行分组。但是如果大家分析过TCGA数据库的全部样本的RNA-seq表达矩阵,就应该是明白,首先样本需要按照癌症肿瘤,起源器官等特征进行第一级别分组,然后每个癌症内部表达量分组主要是体现在亚型。比如是乳腺癌,你可以看lumA,lumB,basal,HER2 等亚型,如果是胃癌,也是有4种分子分型,具体如下:
①爱泼斯坦-巴尔(Epstein-Barr)病毒(EBV)阳性型肿瘤:约占胃癌的9%,表现为较高频率的PIK3CA基因突变和DNA极度超甲基化,以及JAK2、CD274(也称PD-L1)和PDCD1LG2(也称PD-L2)基因扩增。
②微卫星不稳定(MSI)型:约占22%,表现为重复DNA序列突变增加,包括编码靶向致癌信号蛋白的基因突变。
③基因稳定(GS)型:约占20%,其组织学变异弥漫且丰富,RHOA基因突变或RHO家族GTP酶活化蛋白基因融合现象多见。
④染色体不稳定(CIN)型:此类肿瘤占胃癌的比例近一半,表现为显著异倍体性及受体酪氨酸激酶的局部扩增。
当然了,这样的肿瘤亚型已经被研究的比较清楚了,很难直接去做它们之间的差异,已经被阐明过了,所以大家会另辟蹊径的对肿瘤病人进行分组。
现在非常多的数据挖掘文章,喜欢使用TMB分组,或者免疫浸润情况分组(包括CIBERSOFT计算的LM22比例分组,以及ESTIMATE计算得到的 immune scores, stromal scores and ESTIMATE scores ),实际上风险很大,因为它们这些指标并不能比较好的区分肿瘤病人。
如果从PCA角度来看,就会发现被你分组的病人在前几个主成分上面基本上是混杂在一起的,如果是看全局热图(比如top500的mad的基因),就会发现病人仍然是混在一起。我前面提到过很多次,这样的混杂,其实对你差异分析的结果具有干扰,会影响我们对差异分析结果的生物学解释。
但是很多文章就喜欢取巧,针对性看top200的差异基因那么两个分组还是可以比较明显,如下:
火山图看起来也会是很正常:
当然了,这些简单图表通常是都不会出现在文献正文里面,因为这样的数据挖掘文章落脚点都是肿瘤免疫,预后模型啥的,所以主要是生存分析模型等等。大家可以组合ESTIMATE关键词加上具体的某个TCGA里面的癌症,就可以发现大量的这样的文章。
或者是组合CIBERSORT关键词,也是加上某个TCGA里面的癌症,成百上千个粗糙的数据挖掘等你去“品鉴”。
数据挖掘的核心是缩小目标基因
各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。
如果大家对数据挖掘的中间过程的合理性不好把握,建议看完我两年前带学徒的时候,安排他们做的文献关键图表复现作业系列笔记分享,如下;
第一期(2018年秋季)
保姆式GEO数据挖掘演示--重现9分文章 GEO数据挖掘-第一期-胶质母细胞瘤(GBM) GEO数据挖掘-第二期-三阴性乳腺癌(TNBC) GEO数据挖掘-第三期-口腔鳞状细胞癌(OSCC),WGCNA GEO数据挖掘-第四期-肝细胞癌(HCC),WGCNA GEO数据挖掘-第五期-肝细胞癌(HCC)-多组分开差异分析 GEO数据挖掘-第六期-RNA-seq数据也照挖不误 TCGA数据库的TP53突变型和TP53野生型BRCA病人的差异分析结果 GEO数据库的耐药与敏感的患者组织内的成纤维细胞比较 TCGA数据库中三阴性乳腺癌在亚洲人群中的差异表达 TCGA数据库的有PIK3CA基因突变的肿瘤病人的转录水平变化 TCGA数据库里面的乳腺癌的芯片表达数据进行差异分析
第二期(2019年全年)
1. 公共数据辅助乳腺癌的免疫治疗机制研究 2. 有生物学意义的复杂热图 3. 干扰MYC‑WWP1通路重新激活PTEN的抑癌活性——3步搞定GSEA分 析 4. 按基因在染色体上的顺序画差异甲基化热图 5. 热图、⻙恩图、GO富集分析图(有了转录组数据不知道该怎么写⽂ 章,看我就对了!) 6. 纯R代码实现ssGSEA算法评估肿瘤免疫浸润程度 7. 肿瘤异质性+免疫浸润细胞数据挖掘(可能是最简单的3分⽂章了) 8. ArrayExpress数据库的基因芯⽚原始数据处理,3D主成分图及聚类热 图 9. 学徒数据挖掘第⼆期汇总之多分组基因注释代码⼤放送 10. TCGA数据辅助甲基化区域的功能研究 11. 你确定你的差异基因找对了吗? 12. 看nature⽂章是如何设计和使⽤普通转录组数据 13. 不⼀定正确的多分组差异分析结果热图展现 14. 如果传统bulk转录组数据队列⾜够⼤也可以使⽤单细胞流程 15. 最简单的芯⽚挖掘也会出错(菜⻦团周⼀数据挖掘专栏第?期) 16. 乳腺癌的IHC分类和PAM50分型的差异情况
文末友情推荐
要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:
如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你