Cell:肿瘤浸润髓系细胞的泛癌单细胞转录图谱 | 单细胞专题
——附肿瘤浸润髓系细胞相关鉴定marker基因及相关单细胞转录组整合数据库
单细胞测序的出现开启了转录组学和基因组研究的新时代,促进了我们对细胞异质性和动力学的认识。在过去五年中,利用大规模并行单细胞转录组测序(比如目前流行的10x Genomics单细胞转录组测序)对多种类型的器官、组织或疾病状态进行细胞鉴定,获得了多物种的开放单细胞转录组测序数据库资源,促进了生殖、发育生物学、肿瘤、神经科学、免疫、传染病、心血管疾病等复杂生物学过程中将不同类型细胞之间的联系与不同细胞命运、状态和功能相关联。近期发表在Cell杂志上的一篇Resource类文章中,研究人员通过整合实验室自己产出的单细胞转录组测序数据及已发表的公共数据(经过严格的质量控制和筛选后,研究人员保留了194例患者、338个样本,共138,161个肿瘤、邻近非癌组织、外周血或淋巴结的髓系细胞),绘制了15种常见癌症类型的髓系细胞图谱,并系统性地比较了各髓系细胞亚群在不同癌症类型中的组成、发育及功能上的异同。该研究在单细胞水平研究全面的肿瘤浸润髓系细胞(tumor-infiltrating myeloid cells, TIMs),为了解肿瘤微环境(tumor microenvironment, TME)的复杂性提供了前所未有的资源,并为靶向不同癌症类型内部髓系细胞的免疫治疗提供了重要依据。此后,感兴趣的读者可以借助论文中使用的marker基因和提供的数据库(肿瘤浸润髓系细胞相关)为自己的研究服务。
论文标题:A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells
刊登日期:2021年02月04日
发表杂志:Cell
五年影响因子:38.620
研究机构:北京大学生物医学前沿创新中心(BIOPIC)、生命科学学院、北京未来基因诊断高精尖创新中心(ICG)张泽民课题组联合北京大学肿瘤医院步召德课题组和季加孚课题组
肿瘤内部和肿瘤之间存在细胞异质性是理解和治疗癌症的主要障碍,单细胞转录组测序作为一种重要的技术手段,已被应用于癌症研究和治疗的许多方面,包括生物标志物的发现,肿瘤新抗原的表征,癌症的异质性、进化、转移、耐药性,以及肿瘤免疫微环境与免疫治疗等。肿瘤其实是一个复杂的生态系统,具有异质性的恶性细胞会与免疫细胞和非免疫细胞相互作用,从而共同形成肿瘤微环境(TME)这一复杂细胞网络。除淋巴细胞外,髓系细胞也是肿瘤浸润免疫细胞的重要组成成分之一,它可以浸润到肿瘤中并调控肿瘤炎症反应和血管生成,因而成为临床研究中癌症治疗的又一热门靶细胞。尽管单细胞转录组测序技术已经被广泛应用于刻画肿瘤浸润免疫细胞特征,并在特定癌症类型内鉴定出新的髓系细胞类群,但是这些新鉴定的髓系细胞类群是否广泛存在于各类癌症内目前仍不可知。
肿瘤浸润髓系细胞(TIMs)由几个主要的谱系组成,包括肥大细胞,浆细胞样树突状细胞(plasmacytoid dendritic cells, pDC),常规树突状细胞(conventional dendritic cells, cDC),单核细胞和巨噬细胞。肿瘤浸润髓系细胞是肿瘤进展中的关键调节因子,但在不同癌症类型中其基本特征的相似性和差异性仍然难以捉摸。该研究通过对15种人类癌症类型的210名患者的单个髓系细胞进行分析,确定了各种癌症类型的TIMs独特特征。发现鼻咽癌中的肥大细胞与更好的预后相关,即高比例的TNF +/ VEGFA +细胞表现出抗肿瘤表型。对cDC1和cDC2衍生的LAMP3 + cDCs的系统比较显示出它们在转录因子和外部刺激方面的差异。此外,促血管生成的肿瘤相关巨噬细胞(tumor-associated macrophages, TAMs)在不同癌症类型中具有不同的标记基因,并且TIMs的组成似乎与体细胞突变和基因表达有关。该研究结果提供了高度异质性TIMs的系统性图谱,并为合理且有针对性的免疫疗法提供了建议(图1)。
图1. 文章图形概要
1.多种癌症类型分析显示肿瘤浸润髓系细胞组成的异质性。
在过去十年中,主要的髓系细胞复杂性借助流式细胞术开始被揭示。其中,单核细胞通常根据表面标记物CD14和CD16的表达来进行分类。巨噬细胞是TME的关键介质,参与肿瘤免疫的多个方面。“经典激活”的M1和“交替激活”的M2巨噬细胞极化系统已被用于描述巨噬细胞体外激活状态。然而,体内的巨噬细胞表现出更复杂的表型。树突状细胞是抗原特异性免疫反应的关键参与者。已经鉴定出两种不同的cDC亚群,XCR1+ CADM1+ cDC1s和CD1A+ CD172A+ cDC2s,它们显示分别与CD8+和CD4+ T细胞相互作用。此外,已鉴定出在人类血液和脾脏中不同的cDC2亚群,而cDC2s在其它不同癌症类型中的复杂性仍未被完全表征。单细胞转录组测序(single-cell RNA sequencing, scRNA-seq)技术已越来越多地用于以单细胞分辨率表征肿瘤微环境。研究人员整合已发布和新生成的scRNA-seq数据,绘制了15种癌症类型(图2)中TIMs的转录组图谱,揭示了TIMs在15种癌症类型中的共同和特异的特征,拓宽了已知的TIMs细胞亚群。此外,研究人员开发了一种基于Web的交互式工具,用于可视化单细胞数据(网址见附录)。
图2. 泛癌分析中包括的15种癌症类型
2.TNF +与VEGFA +肥大细胞的比例揭示了它们癌症类型特异的功能。
在对比各类髓系细胞类群在不同癌症类型中的分布(图3)和功能特征后,研究人员发现鼻咽癌肿瘤浸润的肥大细胞中,TNF +/ VEGFA +肥大细胞比例明显高于其他癌症类型,同时显示出更好的预后,提示鼻咽癌肿瘤中浸润的肥大细胞可能具有更强的抗肿瘤特性。随后,通过细胞间相互作用分析,研究人员推测鼻咽癌肿瘤内部富集的IL1B +巨噬细胞可以通过IL1B-ADRB2间的相互作用诱导肥大细胞的抗肿瘤特性。因此,对靶向肥大细胞的免疫治疗需要在特定癌症类型中进行,而其可能性和机制有待进一步探索。
图3.不同癌症类型中每种主要髓系细胞类群的比例(引导结论产生的主图)
3.LAMP3 +cDCs广泛存在且有多个发育起源和功能。
研究人员发现此前在肝癌内报道的一类新的成熟态树突状细胞(LAMP3 + cDCs)广泛存在于15种癌症类型中,且这类细胞可以根据其发育起源(cDC1和cDC2)(图4)进一步细化其转录组特征。研究人员发现分别由cDC1和cDC2衍生而来的LAMP3 + cDCs受不同的配体-受体对调控,并可能具有多种功能。这与最近的一项研究报道的cDC1衍生的LAMP3 + cDCs对Tregs和CD8 + T细胞具有双向调控功能的结论相一致。研究还证实了cDC1衍生的LAMP3 + cDCs中存在激活分子和抑制分子的复杂共表达模式。此外,在从CXCL9 + cDC2s转变到LAMP3 + cDCs的过程中,研究人员确定了IDO1和CXCL9相反趋势的表达,这暗示了cDC2衍生的LAMP3 + cDCs的免疫抑制能力增强。
图4. cDC亚群的发育轨迹图(说明LAMP3 + cDCs具有多个发育起源)
4.促血管生成的肿瘤相关巨噬细胞在不同癌症类型中具有不同的表达谱。
通过对比不同癌症类型中髓系细胞亚群组成及转录组的相似性,研究人员发现巨噬细胞在不同癌症类型中呈现高度异质性(图5)。尽管不同癌症类型中均存在与肿瘤患者较差预后相关的促血管生成的肿瘤相关巨噬细胞(TAMs)类群,但其在不同癌症类型中呈现不同的特征标记基因。这一结果表明靶向肿瘤相关巨噬细胞的免疫治疗方案尤其需要考虑其在不同癌症类型中的转录特异性。
图5. 单核细胞和巨噬细胞亚群的层级聚类(引导结论产生的主图)
在进行单细胞转录组数据挖掘时,研究人员时刻把握“异”和“同”两个关键词。从异出发,关注不同癌症类型中不同类型细胞的数量变化和基因表达变化。从同出发,探究不同癌症类型中具有的相同表型或细胞类型,从而推测可作为治疗的靶点/靶细胞。在探究不同癌症类型的相同或不同细胞类型过程中,更加全面地刻画了肿瘤浸润髓系细胞组成。该研究利用marker基因进行细胞类型鉴定的同时,也生成了后续可作为参考数据集的开放资源(marker基因及数据库网址见附录)。
细胞是组织和生物体的基本组成成分。在多细胞物种中,细胞特化以完成高度特异的功能。这种专门化的发生是由于内部和外部共同影响导致的,空间位置和分子结构在调控细胞命运和功能上发挥了重要作用。在这种背景下,单细胞测序技术的出现极大地提高了我们解决和理解调控细胞行为的分子机制的能力,包括命运决定,分化发育,以及损伤和疾病应答。到目前为止,Pubmed上已经列出了超过5,300篇在各种组织、器官和环境中利用单细胞转录组测序技术的研究(搜索词“single-cell RNA sequencing”于2021年03月01日)。尽管如此,随着新测序方法的不断发展,数据标准化、数据监管和整合已经成为不同物种、不同发育阶段以及不同损伤和疾病的细胞类型精确和准确分类的重要挑战。在分析单细胞转录组测序数据过程中,细胞类型注释是关键步骤,而人工注释通常非常耗时且有一定的主观性。作为替代方法,目前已经开发出用于自动识别细胞类型的工具。这些工具利用不同策略最终将单个细胞的基因表达谱和细胞类型相联系,这些策略可以通过使用整合的标记基因(marker基因)数据库、相关的表达参考数据、或者通过监督分类方法添加类别标签。前述论文主要基于marker基因来进行细胞大类鉴定,接下来我们对单细胞转录组数据自动化细胞类型注释方法做一个详细的介绍,便于读者了解自动化细胞类型注释的原理。
对单细胞转录组测序数据的分析通常从降维和聚类开始。Clusters表示具有相对相似基因表达谱的细胞群。因此,尽管来源不同,聚集在一起的细胞可能具有相同的特性。当然,细胞也很有可能被分配错误的身份。此外,选择不同的聚类方法和粒度在同一数据集中会产生不同的聚类编号和组成。特别是当聚类不足时会导致识别罕见细胞类型或过渡状态的分辨率不足。因此,确定适当的粒度并为生成的每个cluster分配标识(这个过程称为细胞类型注释)是scRNA-seq数据分析中的关键步骤。目前已经开发了多种工具来根据单个细胞的mRNA表达谱进行自动注释,这些工具可以确定为三种主要的方法(表1)。第一种方法依赖于公开可用的数据库和本体对细胞类型描述的特异性marker基因(图6A)。第二种方法输入查询(query)scRNA-seq数据,找到查询数据集和参考数据集之间的最佳相关性结果,从而利用参考数据集识别细胞类型(图6B)。第三种,许多工具使用监督学习的方法,这种方法涉及到训练分类器学习已标记的参考数据集,此后分类器能够在未标记的数据集中确定细胞类型(图6C)。下面将进一步详细讨论这些方法以及使用它们的信息工具。
表1. 自动化细胞类型注释工具
图6. 单细胞转录组测序数据自动化细胞类型注释方法
1.利用marker基因数据库进行聚类注释
过去几年,多种scRNA-seq平台的广泛应用推动了单细胞转录组数据集数量的快速增长。目前已有数千个scRNA-seq数据集公开,揭示了不同组织和物种的细胞异质性,并逻辑准确地对细胞进行了分类(表2)。为了统一细胞类型和状态的信息,CellMarker和PanglaoDB等平台已经手工整理了数千份文献,并对可用的数据集进行了系统地重新分析。在CellMarker中,人工监管的人类和小鼠细胞类型特异的markers已允许13,605个基因映射到467种人类细胞类型,9,148个基因映射到389种小鼠细胞类型。在这些分析中,marker基因来源于PubMed特定检索的1,000多篇单细胞测序文章,以及一些手册或公司(如BD biosciences和R&D Systems)来源的数据库。CellMarker定义细胞类型先根据它们在这些数据集中的组织来源,然后按照位置、形态和功能层级将它们分组。PanglaoDB同样是一个细胞类型信息的集合,它收集了不同细胞类型及其基因表达的信息。为了建立PanglaoDB平台,首先通过自动抽象挖掘建立一个内部的细胞类型marker数据库,然后手工整理文献。目前,PanglaoDB包含6,631个marker基因映射到155种细胞类型。同样地,CancerSEA提供了14种癌症相关的功能细胞状态(包括增殖、侵袭和干细胞状态)的markers(特别是蛋白编码和长非编码转录本)。总之,这些数据库和在线存储库基于scRNA-seq数据,提供了充足的、随时可用的细胞类型鉴定资源。
表2. 自动化细胞类型注释工具使用的公共可用数据库
为了使用上述描述的用于细胞类型鉴定的数据库而自行开发的工具包括scCATCH和SCSA。这些工具使用的markers参考列表都是通过整合多个数据库来构建的。例如scCATCH组装了一个称为CellMatch的组织特异性细胞分类参考数据库,其中的markers来源于CellMarker,Mouse Cell Atlas project,CancerSEA和CD Marker Handbook。SCSA主要使用CellMarker和CancerSEA合并产生的markers。此外,SCSA允许用户添加自定义参考markers。scCATCH和SCSA都是通过计算输入cluster的marker基因,然后评分系统为每个cluster分配一种细胞类型。当然还有其他此类自动化注释工具(表 1),此处不再一一介绍。
2.利用相关性进行聚类注释
相关性是自动比较基因表达数据的最直接的统计方法。关联一组基因或整个转录组的表达水平来寻找数据集之间的相似性,是一种比评分cluster中存在的marker基因更为精炼的方法。通过结合基因表达水平和相关性分析,可以对线性和非线性相互作用进行评价。不同策略的相关性分析已经在各种工具中得到应用。这些工具主要执行两种类型的比较:single cell-to-reference或cluster-to-reference。例如,CIPR和ClustifyR采用了cluster-to-reference策略。这些工具将未标记的cluster与注释cluster相互关联,并根据相关性最好的cluster类型分配标签。CIPR和ClustifyR以cluster为中心,每个cluster是一个伪细胞(pseudo-cell),其每个基因的表达水平等于该cluster中所有细胞的平均表达水平。随后利用Spearman或Pearson相关系数来确定每个伪细胞的类别。相反,scmap、SingleR和scMatch等工具将查询数据集的每个细胞关联到细胞类型或带注释的cluster(即single cell-to-reference策略)。SingleR和scMatch功能相似,SingleR使用来自Blueprint,Encode和Human Primary Cell Atlas的参考表达数据,而scMatch还使用FANTOM5和UCSC Xena Cancer Browser(https:// xenabrowser.net)数据,从而也可以对与癌症相关的数据集进行分类。还有其他此类自动化注释工具(表 1),此处不再一一介绍。
3.利用监督分类(supervised classification)进行聚类注释
自动细胞类型注释方法试图识别scRNA-seq数据集之间的相似性,从而克服数据的固有噪声和可变性。可变性的主要驱动因素包括所使用的测序平台、为实验选择的测序深度以及样品制备方法。这种特征性的噪声和scRNA-seq数据的多维性使机器学习方法成为完成分析流程中各种任务(包括降维)的不错选择。监督分类,即将标签从标记的数据集转移到未标记的数据集。在机器学习领域,“监督学习”(supervised learning)一词是指根据一系列特征(基因)构建标签(细胞类型)的模型分布,并根据真实数据(先前注释的数据集)对其进行训练。此后,根据模型的相对特征,使用训练有素的模型将标签分配给未标记数据集。对于scRNA-seq数据集中的自动细胞类型注释,已经开发了使用监督分类的工具。比如最近提出的一种用于单细胞分类的工具,名为SingleCellNet。还有其他此类自动化注释工具(表 1),此处不再一一介绍。
前面我们总结了用于scRNA-seq数据自动化细胞类型注释的三种主要方法。第一类工具依赖一组细胞类型特异的marker基因来分配细胞标识。这些marker基因既可以是数据库来源的列表,也可以是手动创建的列表。这种情况下,我们在注释中可以使用的参考细胞类型是全面的/自定的,但如果数据不干净则注释也是不确定的。此外,手动整理的marker基因列表通常在细胞类型覆盖度方面有所缺陷(即是优点也是缺点)。基于相关性的方法需要带注释的bulk或scRNA-seq数据集作为参考。这种方法可以轻松地合并多个参考数据集,从而使注释尽可能全面。最终,当有意义的参考数据集可用于训练时,监督分类方法是一种有效的替代方法,能够克服scRNA-seq特征性噪声和不同测序技术带来的批次效应。每种方法相对于其他方法都具有特定的优势,在单细胞转录组细胞类型鉴定步骤时,可结合多种方法来确定最终细胞类型。联川生物目前使用的自动化细胞类型鉴定软件是利用相关性进行聚类注释的SingleR,此外,联川生物还拥有自建的marker基因数据库Auto Cell Type Marker(LC-ACTM)(图7),多种策略结合帮助细胞类型鉴定,为您的分析结果增加可靠性。
图7. 联川生物自建marker基因数据库Auto Cell Type Marker(LC-ACTM)
1.Marker基因附表
2.论文作者提供的开放数据库网址http://panmyeloid.cancer-pku.cn/
参考文献
1.Cheng, S., et al., A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells. Cell, 2021. 184(3): p. 792-809 e23.
2.Diaz-Mejia, J.J., et al., Evaluation of methods to assign cell type labels to cell clusters from single-cell RNA-sequencing data. F1000Res, 2019. 8.
3.Shao, X., et al., scCATCH: Automatic Annotation on Cell Types of Clusters from Single-Cell RNA Sequencing Data. iScience, 2020. 23(3): p. 100882.
4.Cao, Y., X. Wang, and G. Peng, SCSA: A Cell Type Annotation Tool for Single-Cell RNA-seq Data. Front Genet, 2020. 11: p. 490.
5.Butler, A., et al., Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat Biotechnol, 2018. 36(5): p. 411-420.
6.Kiselev, V.Y., T.S. Andrews, and M. Hemberg, Challenges in unsupervised clustering of single-cell RNA-seq data. Nat Rev Genet, 2019. 20(5): p. 273-282.
7.Mereu, E., et al., Benchmarking single-cell RNA-sequencing protocols for cell atlas projects. Nat Biotechnol, 2020. 38(6): p. 747-755.
8.Pasquini, G., et al., Automated methods for cell type annotation on scRNA-seq data. Comput Struct Biotechnol J, 2021. 19: p. 961-969.
9.Hou, R., E. Denisenko, and A.R.R. Forrest, scMatch: a single-cell gene expression profile annotation tool using reference datasets. Bioinformatics, 2019. 35(22): p. 4688-4695.
10.Fu, R., et al., clustifyr: an R package for automated single-cell RNA sequencing cluster classification. F1000Res, 2020. 9: p. 223.
11.Pliner, H.A., J. Shendure, and C. Trapnell, Supervised classification enables rapid annotation of cell atlases. Nat Methods, 2019. 16(10): p. 983-986.
12.Zhang, X., et al., CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res, 2019. 47(D1): p. D721-D728.
13.Franzen, O., L.M. Gan, and J.L.M. Bjorkegren, PanglaoDB: a web server for exploration of mouse and human single-cell RNA sequencing data. Database (Oxford), 2019. 2019.
14.Yuan, H., et al., CancerSEA: a cancer single-cell state atlas. Nucleic Acids Res, 2019. 47(D1): p. D900-D908.
33分综述:单细胞测序助力肿瘤遗传和非遗传因素研究 | 单细胞专题
连2021国自然基金委都在推荐的微生物单细胞测序不了解下?| 微生物专题
点击下方图片进入云平台资料汇总:
所见即所得,figure有bi格
联川云平台,让科研更自由