手把手教您单细胞测序后如何做细胞类型定义 | 单细胞专题
单细胞是组织和生物体的基本组成部分。在多细胞物种中,细胞特化以完成高度特定的功能。这种特化是由内部/外部诱导因素,结合特定空间分布和分子信号调节细胞命运和功能。在这种背景下,单细胞测序技术的出现极大地提高了我们解决和理解调节细胞行为(包括命运决定,发育过渡,以及对损伤和疾病的反应)的分子机制的能力。特别是单细胞RNA测序(scRNA-seq),已经彻底改变了生物学研究,并实现了跨多个物种、组织和环境的细胞类型分类。ScRNA-seq数据分析始于降维、聚类和细胞定义,在此基础之上再开展差异分析、富集分析、细胞互作等各种高级和个性化分析。做过单细胞研究的老师,一定了解单细胞聚类分群后,如何定义每一类细胞群是整个单细胞分析的基础,也是重中之重,但同时也是最耗时、最复杂的一步。
世上无难事,只要肯学习!虽然单细胞测序细胞类群鉴定虽然具有一定难度,但是您读完此篇文章,掌握了细胞鉴定的规律,完成此部分工作也是可以说so easy的。
知己知彼,百战不殆
首先需要清楚用于单细胞测序的样本中主要包含哪些细胞类型,例如PBMC样本,包含T细胞、B细胞、单核细胞、粒细胞;肿瘤样本可能会包含肿瘤细胞、上皮细胞、内皮细胞、成纤维细胞、T细胞、B细胞、巨噬细胞、树突细胞、肥大细胞,以及不同肿瘤类型对应的组织细胞类型,例如肝癌中的肝细胞、星型细胞,肺癌中的Club细胞、分泌细胞、杯状细胞等。
如果对所研究的组织包含哪些细胞类型不是很清楚,可以参考数据库,例如Cellmarker(http://bio-bigdata.hrbmu.edu.cn/CellMarker/),查找组织的细胞构成。
pan-marker整理
基于了解到的样本细胞构成信息,查看各个细胞类型pan-marker在各个cluster的表达。这一步要求对不同细胞的marker基因比较了解,例如:
若对样本中细胞类型marker 不甚了解,就需要能很好地发挥拿来主义(从单细胞数据库中搜索,或者从已发表的相同样本类型单细胞文章中提取):
常用marker数据库:
Cellmarker:
http://bio-bigdata.hrbmu.edu.cn/CellMarker/
PanglaoDB:
https://panglaodb.se/index.html
HCA:
https://www.humancellatlas.org/
MCA:
http://bis.zju.edu.cn/MCA/atlas2.html
CancerSEA:
http://biocc.hrbmu.edu.cn/CancerSEA/
KIT:
http://humphreyslab.com/SingleCell/
亚群定义
基于pan-marker鉴定完细胞大类后,接下来需要做细胞亚类鉴定。亚群鉴定包含两个层次:
层次1:在所有细胞聚类结果中,往往会有多个cluster属同种细胞,如图1,B细胞包含了3个cluster,T细胞6个cluster,可以选择在所有细胞聚类基础上对每个cluster进行细胞注释
图1
层次2:所有细胞聚类基础上不做细胞亚类注释,只是做大类注释(图2左),后续针对目标细胞进行sub_cluster分析,再对sub_cluster后的结果做亚群聚类(图2右)
图2:左,所有细胞聚类;右,T细胞sub_cluster
无论是层次1还是层次2,细胞亚群定义都是单细胞鉴定过程中最为耗时和困难的步骤,举个例子,T细胞按照功能可以分为Navie、Tcm、Tem、Temra、按照状态可分为增殖T细胞、激活T细胞核耗竭T细胞,按照表面抗体可以分为CD4 T细胞和CD8 T细胞,CD4 T又可以分为Treg、Th1、Th2、、Th9、Th17、Tfh,每种细胞亚型均对应不同基因表达模式,在实际细胞亚型鉴定中各种marker基因在不同cluster中均会有不同程度表达,这导致细胞亚型鉴定难以像细胞大类鉴定一样清晰,因此这一步鉴定使用大量基因进行反复尝试。
补充定义
1、基于CNV区分细胞恶性
在实际取样时,获取的肿瘤组织或多或少会混杂一些癌旁细胞,癌旁组织中可能也会有肿瘤细胞的存在,由于肿瘤细胞是正常细胞的恶性状态,通过已有marker基因不一定能很好地区分恶性和非恶性细胞,所以可以对单细胞转录组数据进行CNV分析(inferCNV),通过拷贝数变异进行二者的区分。
inferCNV是大名鼎鼎的broad研究所开发的,可以分析体细胞大规模染色体拷贝数变化(copy number alterations, CNA), 例如整条染色体或大片段染色体的增加或丢失(gain or deletions)。工作原理是:以一组"正常"细胞作为参考,分析肿瘤基因组上各个位置的基因表达量强度变化。通过热图的形式展示每条染色体上的基因相对表达量,相对于正常细胞,肿瘤基因组总会过表达或者低表达。
图3
2、未知细胞如何定义
细胞定义时,会出现某个cluster不表达任何已知marker的情况,针对这种未知cluster,可以采用如下方法进行细胞定义:
a)直接将未定义cluster定义为Novel细胞(图4,cluster9和cluster16)
图4
b)从未定义cluster中提取出只在此cluster中特异性、高表达的基因(假设为基因A),将未定义cluster定义为A+ 细胞;或者在未定义cluster中不表达,但在其他同属于同一大类细胞的cluster中表达的基因(假设为基因B),将未定义cluster定义为B- 细胞
c)考虑看此cluster与其他已知cluster在UMAP上的位置关系,彼此间是否出现连续性连接,从而辅助判断细胞类型(UMAP 能更好地反映高纬结构,比t-SNE有着更好的连续性,这种连续性能更好的可视化细胞的分化状态)。
图5
对同一组数据分别进行tSNE和UMAP降维,UMAP和tSNE都可以较好地把不同细胞分开,但tSNE倾向于把相同细胞群划分为更多的cluster(a);与UMAP相比,t-SNE更加倾向于根据细胞来源来分离总体细胞。而 UMAP则会兼顾细胞群的类别和来源来排列, CD4 T细胞和CD8 T细胞群的排列与来源也会有一定的规律性,都是大致从脐带血和PBMC,到肝脏和脾脏,最后到一端的扁桃,另一端的皮肤、肠道和肺(b)
点击下方图片进入云平台资料汇总:
所见即所得,figure有bi格
联川云平台,让科研更自由
速看!10X免疫组V2试剂多方面性能再升级 | 单细胞专题
连2021国自然基金委都在推荐的微生物单细胞测序不了解下?| 微生物专题
用于植物单细胞核RNA测序的根细胞核分离方法 | 单细胞专题
植物单细胞核测序-让植物scRNA-seq不再受困于原生质体制备 | 单细胞专题