举一反三 | 总结单细胞文章分析框架及软件
The following article is from seqyuan Author ahworld
上一篇我们分享的《一文了解单细胞基因调控网络(GRN)》中有提过:
scRNA-seq数据的表达矩阵之后大多数后续分析的重点是: 确定组织或癌症中细胞亚群的类型或状态,或研究动态变化过程,例如细胞分化、细胞周期或刺激反应。
用于解决上述问题的计算方法主要包括以下两方面:
•使用聚类算法将细胞分为不同的细胞类型或状态•通过轨迹推断方法沿伪时间轴对细胞进行排序
除了以上两点之外还可以通过分析配体(表面或分泌的)和受体表达来探究推测细胞外在相互作用--细胞通讯
纵然大多文章的亚群聚类分析选择了R包Seurat[1],发育轨迹推断分析选择了Monocle2[2],但是我们在《单细胞轨迹分析知多少--拟时间分析比较》这篇文章中也介绍过Monocle2并非做轨迹分析的万金油。要发高分文章有一个不错的选择是:一个吸引人的生物学问题+自己开发的软件算法得到新的发现
。
Cillo A R, Kürten C H L, Tabib T, et al. Immune Landscape of Viral-and Carcinogen-Driven Head and Neck Cancer[J]. Immunity, 2020.
例如2020年发表在Immunity上的这篇文章,在文章DISCUSSION
的第一段结尾写的这样:
在这项研究中,我们使用了
新的生物信息学工具和方法
对HNSCC致癌物介导的(HPV-)或病毒介导的(HPV +)致癌作用的TME患者中所有CD45+免疫细胞进行了深入分析。一般而言,我们的实验和分析方法可用于分析样本组之间细胞组成和转录状态不同的任何异质细胞群体。
瞧瞧,是不是有内味儿了,高分文章的标配。
上面提到的新的生物信息学工具和方法
就是以下几个:
•DRAGON[3]:用于scRNA-seq数据的聚类•singleseqgset[4]:用于基因集富集分析,分群之后可以用它结合marker基因做亚群的功能鉴定等•celltalker[5]:从scRNAseq数据预测配体和受体相互作用
除此之外,文章中用于轨迹推断的方法是不同于一般算法的Diffusion map
,这种算法对于大数据集的项目的处理相较于Monocle2要好太多。
Diffusion map算法做轨迹推断分析在2016年发表的destiny[6]和DPT[7]两篇文章有原理介绍,后续我会做一个使用教程。linux下非root账号通过singularity运行dyno的坑还没有填上 ┗( T﹏T )┛
既然说到了celltalker
,我们就以这篇文章为例看一看scRNA-seq数据分析框架
样品情况
文章分析框架:这块本想做文字介绍,发现做成鱼骨头可能更清晰一些,具体的分析内容就看后文的文章详细解读章节吧。有了这个图在看文章时便会时刻清楚文中分析内容在整体框架中的的定位,不犯迷糊。
想看的更清楚可以从以下网址下载
百度云: https://pan.baidu.com/s/1ZttS8Ezx_ruLswWURpkTyw
密码: hj3c
文章全篇围绕病毒和变异引起的HNSCC,这一发生在相似解剖位置的两种不同癌症病因的免疫状况差异展开。具体的解析请看后面的文章详细解读。
文章1点细节需要改正:
•Figure S2B,中间图的ylabel应该为FItSNE_2
可以借鉴的分析方案或分析方法
1)样本取材
这篇文章的取材及实验对比设计非常经典:致癌物和病毒介导的发生在同一部位的癌症,用来做单细胞免疫环境分析再合适不过了。
2)处理大细胞量项目的降维分群软件
文章要处理的细胞数量非常多,用常规的分析软件处理的话在内存及时间消耗上会很大,作者开发的DRAGON
包在处理大细胞量的项目上在内存和时间的消耗上会比较友好,作者拿DRAGON
和Seurat
的结果做过比较,相差不大。值得注意的是常用的Seurat
用于单独分成一群的细胞需要30个左右;而DRAGON
大约需要300个细胞才能独立成群。
3)大的分析策略
如果分析免疫环境例如筛选过的CD45+细胞,可以先试着分成几个大的免疫细胞群做好大群命名,然后再对每一个大群进行细分小群,一看各样本组的细胞在各小群所占的比例,二看各小群之间的演化发育轨迹。再结合样本组对比设计一起来解读结果,提出假设。
4)单细胞多样本项目剔除离群样本
对于动辄几十个样本的单细胞样本分析,如果某些样本对应的分组label有问题,则可能会对整体分析结果有影响。那怎样检验样本对应的分组信息是否合适呢?作者在文章中使用的Pseudobulk analysis分析方法是一个不错的选择。
5)亚群命名与功能鉴定
对于所有亚群不一定要一个命名,把亚群对应的功能讲清楚即可。作者开发的singleseqgset
用于基因集富集分析,分群之后可以用它结合marker基因做亚群的功能鉴定。
6)Diffusion map做细胞发育轨迹推断分析
Diffusion map算法可以用于做拟时间分析,可以借鉴的软件包有以下几个,后续会有相关教程:
•scanpy[8](python),对应于scanpy.pp.neighbors、scanpy.tl.diffmap、scanpy.tl.dpt等方法组合。•diffusionMap[9](R)•destiny[10](R)
7)配体和受体预测软件
作者开发的celltalker
可用于做预测配体受体分析。
限于篇幅,文章的详细解读会放在同期的另一篇文章。
References
[1]
Seurat: http://www.satijalab.org/seurat[2]
Monocle2: https://www.nature.com/articles/nmeth.4402[3]
DRAGON: https://github.com/arc85/dragonsc[4]
singleseqgset: https://github.com/arc85/singleseqgset[5]
celltalker: https://github.com/arc85/celltalker[6]
destiny: https://academic.oup.com/bioinformatics/article/32/8/1241/1744143[7]
DPT: https://www.nature.com/articles/nmeth.3971[8]
scanpy: https://nbviewer.jupyter.org/github/theislab/scanpy_usage/blob/master/170501_moignard15/moignard15.ipynb[9]
diffusionMap: https://github.com/rcannood/diffusionMap[10]
destiny: http://www.bioconductor.org/packages/release/bioc/html/destiny.html
3大在线分析工具:Enrichr、WebGestalt、gprofiler与R包clusterprofiler的比较
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
生信爆款入门-全球听(买一得五)(第4期) 你的生物信息入门课
数据挖掘第2期(两天变三周,实力加量)医学生/医生首选技能提高课
生信技能树的2019年终总结 你的生物信息成长宝藏
看完记得顺手点个“在看”哦!
长按扫码可关注