查看原文
其他

新书抢先看:令人头疼的细胞鉴定,原来也没那么难! | 单细胞专题

市场部—JJG 联川生物 2024-03-27


行文的前面,给大家公告一件大事,联川出版社发布的《单细胞测序研究一本通3.0》已经上架预售,欢迎各位登陆微店“联川驿站”,或者扫描以下二维码预购新书:

 









以下内容来源于《单细胞测序研究一本通3.0》

单细胞数据分析始于降维、聚类和细胞定义,如何定义每一类细胞群是整个单细胞分析的基础,也是最重要的一步,但同时也是最耗时、最复杂的一步。细胞注释一般通过人工注释和自动化软件注释得以实现。虽然细胞鉴定具有一定难度,但是掌握了细胞鉴定的规律,完成此部分工作也将得心应手。


一、人工鉴定方法
1. 细胞鉴定第一步:了解样本细胞成分

首先需要清楚用于单细胞测序的样本中主要包含哪些细胞类型,例如PBMC样本,包含T细胞、B细胞、单核细胞、粒细胞;肿瘤样本可能会包含肿瘤细胞、上皮细胞、内皮细胞、成纤维细胞、T细胞、B细胞、巨噬细胞、树突细胞、肥大细胞,以及不同肿瘤类型对应的组织细胞类型,例如肝癌中的肝细胞、星形细胞,肺癌中的Club细胞、分泌细胞、杯状细胞等。

如果对所研究的组织包含哪些细胞类型不是很清楚,可以参考数据库,细胞生物学数据,或者文献,查找组织的细胞构成。


2. 细胞鉴定第二步:pan-marker整理

基于了解到的样本细胞构成信息,查看各个细胞类型pan-marker在各个cluster的表达。这一步要求对不同细胞的marker基因比较了解,例如:



若对样本中细胞类型marker不甚了解,就需要能很好地发挥拿来主义(从单细胞数据库中搜索,或者从已发表的相同样本类型单细胞文章中提取):


常用marker数据库:

Cellmarker

(http://bio-bigdata.hrbmu.edu.cn/CellMarker/)

PanglaoDB

(https://panglaodb.se/index.html)

HCA

(https://www.humancellatlas.org/)

MCA

(http://bis.zju.edu.cn/MCA/atlas2.html)

CancerSEA

(http://biocc.hrbmu.edu.cn/CancerSEA/)

KIT

(http://humphreyslab.com/SingleCell/)



3. 细胞鉴定第三步:亚群定义

基于pan-marker鉴定完细胞大类后,接下来需要做细胞亚类鉴定。亚群鉴定包含几类方法:

方法1:在所有细胞聚类结果中,往往会有多个cluster属同种细胞,如图1,B细胞包含了3个cluster,T细胞6个cluster,可以选择在所有细胞聚类基础上对每个cluster进行细胞注释。

 


图1 细胞鉴定图谱

方法2:所有细胞聚类基础上不做细胞亚类注释,只是做大类注释(图2左),后续针对目标细胞进行sub_cluster分析,再对sub_cluster后的结果做亚群聚类(图2右)。

 


图2:左,所有细胞聚类;右,T细胞sub_cluster

无论是方法1还是方法2,细胞亚群定义都是单细胞鉴定过程中最为耗时和困难的步骤,举个例子,T细胞按照功能可以分为Navie、Tcm、Tem、Temra、按照状态可分为增殖T细胞、激活T细胞核耗竭T细胞,按照表面抗体可以分为CD4 T细胞和CD8 T细胞,CD4 T又可以分为Treg、Th1、Th2、Th9、Th17、Tfh,每种细胞亚型均对应不同基因表达模式,在实际细胞亚型鉴定中各种marker基因在不同cluster中均会有不同程度表达,这导致细胞亚型鉴定难以像细胞大类鉴定一样清晰,因此这一步鉴定使用大量基因进行反复尝试。

方法3:在涉及到数据聚类得到过多的亚型cluster,后续很难对这么多类的亚型进行精细化鉴定,或者需要花费⼤量时间去调研已经报道的大类细胞还有多少种亚型分类,这些工作繁琐而用处甚微,大部分研究不会面面俱到去研究那么多的亚型功能。目前,包括Cell、Nature Medicine等TOP期刊的文章,在生信分析机械分群后,直接通过marker和⽣理学功能对亚型cluster进行注释(图3,图4),减少了繁琐的工作。

 



图3 通过marker/功能对亚型cluster进行注释


4. 细胞鉴定第四步:未知细胞的定义

细胞定义时,会出现某个cluster不表达任何已知marker的情况,针对这种未知cluster,可以采用如下方法进行细胞定义:

a) 直接将未定义cluster定义为Novel细胞(图4,cluster9和cluster16)。

 


图4细胞鉴定图谱

b) 从未定义cluster中提取出只在此cluster中特异性、高表达的基因(假设为基因A),将未定义cluster定义为A+ 细胞;或者在未定义cluster中不表达,但在其他同属于同一大类细胞的cluster中表达的基因(假设为基因B),将未定义cluster定义为B- 细胞。

c) 考虑看此cluster与其他已知cluster在UMAP上的位置关系,彼此间是否出现连续性连接,从而辅助判断细胞类型(UMAP能更好地反映高纬结构,比t-SNE有着更好的连续性,这种连续性能更好的可视化细胞的分化状态)。

如图5所示,对同一组数据分别进行t-SNE和UMAP降维,UMAP和tSNE都可以较好地把不同细胞分开,但t-SNE倾向于把相同细胞群划分为更多的cluster(a);与UMAP相比,t-SNE更加倾向于根据细胞来源来分离总体细胞。而UMAP则会兼顾细胞群的类别和来源来排列, CD4 T细胞和CD8 T细胞群的排列与来源也会有一定的规律性,都是大致从脐带血和PBMC,到肝脏和脾脏,最后到一端的扁桃,另一端的皮肤、肠道和肺(b)。

 


图5 UMAP/t-SNE图谱


二、自动注释方法

除了基于从已发表的paper提取marker基因进行细胞类型注释,利用一些自动注释工具进行辅助注释,也能起到事半功倍的效果。目前已经开发并发表了多种工具来根据单细胞基因表达谱进行自动注释,依照原理不同这些自动注释工具可以分为三种主要的方法:第一种方法依赖于来自公开可用的数据库和描述特定细胞类型标记的本体的信息;第二种方法通过输入查询数据集作为细胞类型识别的输入数据,寻找参考数据集和查询数据集之间的最佳相关性,从而利用最高相关性的参考数据集识别细胞类型。第三种方法,采用监督学习的方法在未标记的数据集中确定细胞类型。

 


图6 自动化细胞注释原理


1. 利用marker基因数据库进行cluster注释

过去几年,多种scRNA-seq平台的广泛应用推动了scRNA-seq数据集数量的快速增长。目前已有数千个scRNA-seq数据集公开,为了统一组织有关细胞类型和状态的信息,CellMarker和PanglaoDB等平台已经手工整理了数千份文献,并对可用的数据集进行了系统地重新分析。CellMarker整理了人和小鼠的不同细胞类型信息,包括13605个基因,映射到了467种人类细胞类型,9148个基因映射到389种小鼠细胞类型。这些数据来源于PubMed特定检索的单细胞测序文章和一些公司(如BD biosciences和R&D Systems)的手册或数据库。PanglaoDB同样是一个细胞类型信息的整合数据库,它收集了不同细胞类型及其基因表达的信息。目前,PanglaoDB收录了6631个marker基因,映射到155种细胞类型。CancerSEA提供的markers(特别是蛋白编码和长非编码转录本),标注了14种癌症相关的功能细胞状态(包括增殖、侵袭和干细胞状态)。

表1:自动注释工具常参考数据库


2. 利用相关性进行cluster注释

相关性是比较不同数据集间基因表达最直接的统计方法,这种方法不再是简单地评分集群中存在的marker基因,而是通过关联一组基因的表达水平,或整个表达谱的相关性来寻找数据集之间的相似性,可以更容易地使用参考数据集揭示关于未知数据集的信息。利用相关性进行细胞鉴定的工具主要执行两种鉴定策略(下表2): single cell-to-reference或cluster-to-reference。例如CIPR和ClustifyR采用cluster-to-reference策略,这些工具将未注释的细胞cluster与已知细胞进行相关性分析,然后将相关性最高的已知细胞类型信息分配给未注释细胞。这种方式的原理是首先将每个未注释细胞cluster视为一个伪细胞(pseudo-cell),其每个基因表达水平等同于该cluster中所有细胞中对应基因的平均表达水平,然后通过Spearman或Pearson相关系数确定细胞类型。而像scmap 、SingleR和 scMatch是将未注释数据集中每个细胞与参考数据集中已知类型的细胞或已知细胞cluster进行相关性分析。


3. 利用监督分类(supervised classification)进行细胞注释

监督分类,即将标签从已知注释数据集转移到未注释数据集。在机器学习领域,“监督学习”(supervised learning)一词是指参考一系列来自并经由已知注释数据库训练的特征(基因)构建标签(细胞类型)的模型分布。随后根据模型的相对特征,使用训练有素的模型将标签分配给未标记数据集。对于scRNA-seq数据集中的自动细胞类型注释,已经开发了使用监督分类的工具(表2)。

表2:自动注释工具信息

 




参考文献

1. Cheng S, et al. A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells. Cell, 2021. 184(3): p. 792-809 e23.

2. Diaz-Mejia J.J, et al. Evaluation of methods to assign cell type labels to cell clusters from single-cell RNA-sequencing data. F1000Res, 2019. 8.

3. Shao X, et al. scCATCH: Automatic Annotation on Cell Types of Clusters from Single-Cell RNA Sequencing Data. iScience, 2020. 23(3): p. 100882.

4. Cao Y, et al. SCSA: A Cell Type Annotation Tool for Single-Cell RNA-seq Data. Front Genet, 2020. 11: p. 490.

5. Butler A, et al. Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat Biotechnol, 2018. 36(5): p. 411-420.

6. Kiselev VY, et al Challenges in unsupervised clustering of single-cell RNA-seq data. Nat Rev Genet, 2019. 20(5): p. 273-282.

7. Mereu E, et al. Benchmarking single-cell RNA-sequencing protocols for cell atlas projects. Nat Biotechnol, 2020. 38(6): p. 747-755.

8. Pasquini G, et al. Automated methods for cell type annotation on scRNA-seq data. Comput Struct Biotechnol J, 2021. 19: p. 961-969.

9. Hou R, et al. scMatch: a single-cell gene expression profile annotation tool using reference datasets. Bioinformatics, 2019. 35(22): p. 4688-4695.

10. Fu R, et al. clustifyr: an R package for automated single-cell RNA sequencing cluster classification. F1000Res, 2020. 9: p. 223.

11. Pliner HA, et al. Supervised classification enables rapid annotation of cell atlases. Nat Methods, 2019. 16(10): p. 983-986.

12. Zhang X, et al. CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res, 2019. 47(D1): p. D721-D728.

13. Franzen O, et al. PanglaoDB: a web server for exploration of mouse and human single-cell RNA sequencing data. Database (Oxford), 2019. 2019.

14. Yuan H, et al. CancerSEA: a cancer single-cell state atlas. Nucleic Acids Res, 2019. 47(D1): p. D900-D908.
























































































关于联川生物



杭州联川生物为全球各地的科研用户提供基因组、转录组、蛋白组、代谢组及最新的单细胞测序服务。单细胞测序作为联川战略发展方向,在组织解离和单细胞生信分析方面充分发挥自身优势,为客户提供优质的服务。目前已经与100多个国家及地区的科研院校、医院、制药公司建立起了长期的合作伙伴关系,累计发表单细胞测序相关的SCI论文近50篇,影响因子平均15+



相关阅读

用户文章|单细胞RNA测序揭示了猪精子发生的动态过程和新标记

18分单细胞用户文章|GSH响应型纳米颗粒增强化疗耐药骨肉瘤中干细胞样祖细胞的联合治疗效果

单细胞产品重大升级:流式细胞仪搭配单细胞抽核实验,科研界的“爱马仕”产品

用户文章 | 三体综合征单细胞测序高分文章解读

用户文章 | 10分+:多组织单细胞图谱揭示奶牛营养吸收和代谢关键细胞功能 | 单细胞专题


点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存