手把手教您单细胞测序后如何做细胞类型定义 | 单细胞专题

Original 市场部-LYR 联川生物 2022-06-07

收录于合集 #单细胞 348个

单细胞是组织和生物体的基本组成部分。在多细胞物种中，细胞特化以完成高度特定的功能。这种特化是由内部/外部诱导因素，结合特定空间分布和分子信号调节细胞命运和功能。在这种背景下，单细胞测序技术的出现极大地提高了我们解决和理解调节细胞行为（包括命运决定，发育过渡，以及对损伤和疾病的反应）的分子机制的能力。特别是单细胞RNA测序(scRNA-seq)，已经彻底改变了生物学研究，并实现了跨多个物种、组织和环境的细胞类型分类。ScRNA-seq数据分析始于降维、聚类和细胞定义，在此基础之上再开展差异分析、富集分析、细胞互作等各种高级和个性化分析。做过单细胞研究的老师，一定了解单细胞聚类分群后，如何定义每一类细胞群是整个单细胞分析的基础，也是重中之重，但同时也是最耗时、最复杂的一步。

世上无难事，只要肯学习！虽然单细胞测序细胞类群鉴定虽然具有一定难度，但是您读完此篇文章，掌握了细胞鉴定的规律，完成此部分工作也是可以说so easy的。

细胞定义第一步

知己知彼，百战不殆

首先需要清楚用于单细胞测序的样本中主要包含哪些细胞类型，例如PBMC样本，包含T细胞、B细胞、单核细胞、粒细胞；肿瘤样本可能会包含肿瘤细胞、上皮细胞、内皮细胞、成纤维细胞、T细胞、B细胞、巨噬细胞、树突细胞、肥大细胞，以及不同肿瘤类型对应的组织细胞类型，例如肝癌中的肝细胞、星型细胞，肺癌中的Club细胞、分泌细胞、杯状细胞等。

如果对所研究的组织包含哪些细胞类型不是很清楚，可以参考数据库，例如Cellmarker（http://bio-bigdata.hrbmu.edu.cn/CellMarker/），查找组织的细胞构成。

细胞定义第二步

pan-marker整理

基于了解到的样本细胞构成信息，查看各个细胞类型pan-marker在各个cluster的表达。这一步要求对不同细胞的marker基因比较了解，例如：

若对样本中细胞类型marker 不甚了解，就需要能很好地发挥拿来主义（从单细胞数据库中搜索，或者从已发表的相同样本类型单细胞文章中提取）：

常用marker数据库：

Cellmarker：

http://bio-bigdata.hrbmu.edu.cn/CellMarker/

PanglaoDB：

https://panglaodb.se/index.html

HCA：

https://www.humancellatlas.org/

MCA：

http://bis.zju.edu.cn/MCA/atlas2.html

CancerSEA：

http://biocc.hrbmu.edu.cn/CancerSEA/

KIT：

http://humphreyslab.com/SingleCell/

细胞定义第三步

亚群定义

基于pan-marker鉴定完细胞大类后，接下来需要做细胞亚类鉴定。亚群鉴定包含两个层次：

层次1：在所有细胞聚类结果中，往往会有多个cluster属同种细胞，如图1，B细胞包含了3个cluster，T细胞6个cluster，可以选择在所有细胞聚类基础上对每个cluster进行细胞注释

图1

层次2：所有细胞聚类基础上不做细胞亚类注释，只是做大类注释（图2左），后续针对目标细胞进行sub_cluster分析，再对sub_cluster后的结果做亚群聚类（图2右）

图2：左，所有细胞聚类；右，T细胞sub_cluster

无论是层次1还是层次2，细胞亚群定义都是单细胞鉴定过程中最为耗时和困难的步骤，举个例子，T细胞按照功能可以分为Navie、Tcm、Tem、Temra、按照状态可分为增殖T细胞、激活T细胞核耗竭T细胞，按照表面抗体可以分为CD4 T细胞和CD8 T细胞，CD4 T又可以分为Treg、Th1、Th2、、Th9、Th17、Tfh，每种细胞亚型均对应不同基因表达模式，在实际细胞亚型鉴定中各种marker基因在不同cluster中均会有不同程度表达，这导致细胞亚型鉴定难以像细胞大类鉴定一样清晰，因此这一步鉴定使用大量基因进行反复尝试。

细胞鉴定第四步

补充定义

1、基于CNV区分细胞恶性

在实际取样时，获取的肿瘤组织或多或少会混杂一些癌旁细胞，癌旁组织中可能也会有肿瘤细胞的存在，由于肿瘤细胞是正常细胞的恶性状态，通过已有marker基因不一定能很好地区分恶性和非恶性细胞，所以可以对单细胞转录组数据进行CNV分析（inferCNV），通过拷贝数变异进行二者的区分。

inferCNV是大名鼎鼎的broad研究所开发的，可以分析体细胞大规模染色体拷贝数变化(copy number alterations, CNA), 例如整条染色体或大片段染色体的增加或丢失(gain or deletions)。工作原理是：以一组"正常"细胞作为参考，分析肿瘤基因组上各个位置的基因表达量强度变化。通过热图的形式展示每条染色体上的基因相对表达量，相对于正常细胞，肿瘤基因组总会过表达或者低表达。

图3

2、未知细胞如何定义

细胞定义时，会出现某个cluster不表达任何已知marker的情况，针对这种未知cluster，可以采用如下方法进行细胞定义：

a)直接将未定义cluster定义为Novel细胞（图4，cluster9和cluster16）

图4

b)从未定义cluster中提取出只在此cluster中特异性、高表达的基因（假设为基因A），将未定义cluster定义为A+ 细胞;或者在未定义cluster中不表达，但在其他同属于同一大类细胞的cluster中表达的基因（假设为基因B），将未定义cluster定义为B- 细胞

c)考虑看此cluster与其他已知cluster在UMAP上的位置关系，彼此间是否出现连续性连接，从而辅助判断细胞类型（UMAP 能更好地反映高纬结构，比t-SNE有着更好的连续性，这种连续性能更好的可视化细胞的分化状态）。

图5

对同一组数据分别进行tSNE和UMAP降维，UMAP和tSNE都可以较好地把不同细胞分开，但tSNE倾向于把相同细胞群划分为更多的cluster（a）；与UMAP相比，t-SNE更加倾向于根据细胞来源来分离总体细胞。而 UMAP则会兼顾细胞群的类别和来源来排列， CD4 T细胞和CD8 T细胞群的排列与来源也会有一定的规律性，都是大致从脐带血和PBMC，到肝脏和脾脏，最后到一端的扁桃，另一端的皮肤、肠道和肺（b）

点击下方图片进入云平台资料汇总：

所见即所得，figure有bi格

联川云平台，让科研更自由

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

高三女生醉酒后被强奸致死？检方回应

手把手教您单细胞测序后如何做细胞类型定义 | 单细胞专题

您可能也对以下帖子感兴趣

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

高三女生醉酒后被强奸致死？检方回应

生成图片，分享到微信朋友圈

手把手教您单细胞测序后如何做细胞类型定义 | 单细胞专题

您可能也对以下帖子感兴趣