单细胞是组织和生物体的基本组成部分。在多细胞物种中,细胞特化以完成高度特定的功能。这种特化是由内部/外部诱导因素,结合特定空间分布和分子信号调节细胞命运和功能。在这种背景下,单细胞测序技术的出现极大地提高了我们解决和理解调节细胞行为(包括命运决定,发育过渡,以及对损伤和疾病的反应)的分子机制的能力。特别是单细胞RNA测序(scRNA-seq),已经彻底改变了生物学研究,并实现了跨多个物种、组织和环境的细胞类型分类。ScRNA-seq数据分析始于降维、聚类和细胞定义,在此基础之上再开展差异分析、富集分析、细胞互作等各种高级和个性化分析。做过单细胞研究的老师,一定了解单细胞聚类分群后,如何定义每一类细胞群是整个单细胞分析的基础,也是重中之重,但同时也是最耗时、最复杂的一步。世上无难事,只要肯学习!虽然单细胞测序细胞类群鉴定虽然具有一定难度,但是您读完此篇文章,掌握了细胞鉴定的规律,完成此部分工作也是可以说so easy的。
首先需要清楚用于单细胞测序的样本中主要包含哪些细胞类型,例如PBMC样本,包含T细胞、B细胞、单核细胞、粒细胞;肿瘤样本可能会包含肿瘤细胞、上皮细胞、内皮细胞、成纤维细胞、T细胞、B细胞、巨噬细胞、树突细胞、肥大细胞,以及不同肿瘤类型对应的组织细胞类型,例如肝癌中的肝细胞、星型细胞,肺癌中的Club细胞、分泌细胞、杯状细胞等。如果对所研究的组织包含哪些细胞类型不是很清楚,可以参考数据库,例如Cellmarker(http://bio-bigdata.hrbmu.edu.cn/CellMarker/),查找组织的细胞构成。
基于了解到的样本细胞构成信息,查看各个细胞类型pan-marker在各个cluster的表达。这一步要求对不同细胞的marker基因比较了解,例如:
若对样本中细胞类型marker 不甚了解,就需要能很好地发挥拿来主义(从单细胞数据库中搜索,或者从已发表的相同样本类型单细胞文章中提取):
常用marker数据库:
Cellmarker:
http://bio-bigdata.hrbmu.edu.cn/CellMarker/
PanglaoDB:
https://panglaodb.se/index.html
HCA:
https://www.humancellatlas.org/
MCA:
http://bis.zju.edu.cn/MCA/atlas2.html
CancerSEA:
http://biocc.hrbmu.edu.cn/CancerSEA/
KIT:
http://humphreyslab.com/SingleCell/
基于pan-marker鉴定完细胞大类后,接下来需要做细胞亚类鉴定。亚群鉴定包含两个层次:层次1:在所有细胞聚类结果中,往往会有多个cluster属同种细胞,如图1,B细胞包含了3个cluster,T细胞6个cluster,可以选择在所有细胞聚类基础上对每个cluster进行细胞注释
图1
层次2:所有细胞聚类基础上不做细胞亚类注释,只是做大类注释(图2左),后续针对目标细胞进行sub_cluster分析,再对sub_cluster后的结果做亚群聚类(图2右)
图2:左,所有细胞聚类;右,T细胞sub_cluster
无论是层次1还是层次2,细胞亚群定义都是单细胞鉴定过程中最为耗时和困难的步骤,举个例子,T细胞按照功能可以分为Navie、Tcm、Tem、Temra、按照状态可分为增殖T细胞、激活T细胞核耗竭T细胞,按照表面抗体可以分为CD4 T细胞和CD8 T细胞,CD4 T又可以分为Treg、Th1、Th2、、Th9、Th17、Tfh,每种细胞亚型均对应不同基因表达模式,在实际细胞亚型鉴定中各种marker基因在不同cluster中均会有不同程度表达,这导致细胞亚型鉴定难以像细胞大类鉴定一样清晰,因此这一步鉴定使用大量基因进行反复尝试。
在实际取样时,获取的肿瘤组织或多或少会混杂一些癌旁细胞,癌旁组织中可能也会有肿瘤细胞的存在,由于肿瘤细胞是正常细胞的恶性状态,通过已有marker基因不一定能很好地区分恶性和非恶性细胞,所以可以对单细胞转录组数据进行CNV分析(inferCNV),通过拷贝数变异进行二者的区分。inferCNV是大名鼎鼎的broad研究所开发的,可以分析体细胞大规模染色体拷贝数变化(copy number alterations, CNA), 例如整条染色体或大片段染色体的增加或丢失(gain or deletions)。工作原理是:以一组"正常"细胞作为参考,分析肿瘤基因组上各个位置的基因表达量强度变化。通过热图的形式展示每条染色体上的基因相对表达量,相对于正常细胞,肿瘤基因组总会过表达或者低表达。
图3
细胞定义时,会出现某个cluster不表达任何已知marker的情况,针对这种未知cluster,可以采用如下方法进行细胞定义:
图4
图5
对同一组数据分别进行tSNE和UMAP降维,UMAP和tSNE都可以较好地把不同细胞分开,但tSNE倾向于把相同细胞群划分为更多的cluster(a);与UMAP相比,t-SNE更加倾向于根据细胞来源来分离总体细胞。而 UMAP则会兼顾细胞群的类别和来源来排列, CD4 T细胞和CD8 T细胞群的排列与来源也会有一定的规律性,都是大致从脐带血和PBMC,到肝脏和脾脏,最后到一端的扁桃,另一端的皮肤、肠道和肺(b)点击下方图片进入云平台资料汇总:
所见即所得,figure有bi格
联川云平台,让科研更自由