视频课程:TCGA数据免疫浸润的量化方法
尽管人们说TCGA的数据或者GEO的数据已经被挖掘的差不多了。
但是只要一出现新的分组方式,就会立马诞生一大批文章,因为分组后的一系列操作都是现成的。
分组是数据挖掘的关键环节
常规的以癌组织和癌旁组织分类,然后就可以探索这两组数据的差异基因,显著富集通路,想办法讲差异相关的故事。
如果用生存指标来分,样本就会变成以后好的和预后差的,也可以分组了。
如果用某个基因的表达区分,可以把样本分成表达量高的和低的。
如果用两个因素来区分,就有四种情况。
假如这两个都是基因,我们可以提取两基因都高以及两基因都低的样本,这也分组了,意义就是两个基因协同作用。
假如一个基因是miRNA一个是靶基因mRNA,那么同样的可以把样本分为两组,变成miRNA和mRNA协作起作用的组和作用弱的组。
同理,甲基化水平和mRNA水平也是一样的操作
如果两个基因不满足你了,那么就多个基因构建模型,用这个模型给样本打分,也可以分组讲很多故事。
比如,如果signature里面的基因来自于自噬就讲自噬的故事
如果signature的基因来自于m6a,就讲RNA的修饰的故事。
如果你能分析出肿瘤组织的突变负荷(tumor mutational burden,TMB),
那么就可以用这个把这些样本再分一次组,如果分组后发现,对生存还有影响,又是不得了的事情了。
反正,只要有一个新的算法,新的分组的理念产生,这些数据就会立马复制成多篇文章。
所以,如果咋们还有意愿做一做数据挖掘,多学习总是有好处的,现有的数据挖掘不完,新的数据又在井喷。
组织的免疫浸润水平可以量化
在这些分类里面,我比较喜欢的是根据免疫浸润来分(因为免疫深奥而喜欢,仅此而已)。
当我们提取临床癌症组织去测序的时候,这个结果并不是纯肿瘤的结果,在测序结果中我们会发现,一些属于血管的基因,属于免疫系统的基因也有表达。
这时候我们就知道,咋们测的是个混合体,有肿瘤细胞,有免疫细胞,有血管,有细胞外基质。
当有一天,有人说免疫ZL对肿瘤有奇效,而且肿瘤的免疫浸润环境还可以影响疗效的时候,该方面的数据挖掘就会火起来,因为这简直就是紧跟前沿,紧跟诺奖的工作啊。
我今天跟一个免疫实验室的交流,说,我最近在总结量化免疫浸润的算法,她说,这个不准确。但是,不妨碍我们用这个技术去发现新的世界。
比如:
在这篇文章中,作者系统地量化了TCGA 33个癌症的免疫浸润情况,然后竟然把这些肿瘤分成了6个亚型。
这在之前,谁能想到,千奇百怪的肿瘤还能被免疫化繁为简。
而且不同类型的肿瘤,生存也有显著差异。
这个拓展了人们对肿瘤的理解,也有可能指导临床治疗。
量化免疫浸润的方法有很多
那么目前有哪些量化免疫浸润的方法呢?
有一篇题目为"Quantifying tumor-infiltrating immune cells from transcriptomics data"
的综述进行了汇总。
包括了
确实蛮多的,但是那是2018年,现在又有了新的方法啦。
比如,今天华中科技大学郭安源教授团队就发表了ImmuneCellAI,
网址是这个http://bioinfo.life.hust.edu.cn/ImmuCellAI#!/
ImmuCellAI工具能够基于RNA-Seq或芯片的转录组数据准确预测样本中24种免疫细胞的丰度,
其中包括18种T细胞亚型,且适用于多种样本,包括癌症组织、癌旁组织、正常组织、外周血等。
还有个集大成的R包Immunedeconv可以推荐一下,他把这些方法整合到了一起,
只要给一个表达矩阵,指定一种方法就可以计算,十分方便
最后要推荐的是R包immuneSubtypeClassifier
这个包就是一开始immunity那篇作者开发的,主要用途是把任何格式的肿瘤样本区分为6种类型中的一个。
本质上是个分类器,但是他的特定是,不需要限定是FPKM,counts,TPM数据,只要输入就行。
当然推荐他的一个重要原因是,这篇文章还在预印本上,作者提供了原始数据和计算代码,他的中间计算过程都是高度可重复的。
是学习分类的好材料。
鼓吹时间
我把上面的经典方法和新出的方法学习总结了一下大概10种方法,出了个视频课程。
内容包括这些方法的介绍和实操
以R语言project的形式给出。
这么多方法,实际使用的时候并不会全部选择,学习主要还是为了开拓眼界。
课程支持长期更新,更新的视频在答疑群发放。
有兴趣的朋友,扫描下面的图片购买,课程设置一个星期的优惠。周五发货,在自己的微店收取。
感谢各位的支持,我会珍惜每一个课程的制作以匹配你们的信任。