Genome Biol︱都仁扎那团队开发单细胞多组学数据整合新方法
The following article is from 岚翰生命科学 Author 苑秋月
来源︱“逻辑神经科学”姊妹号“岚翰生命科学”
撰文︱苑秋月
编辑︱方以一
单细胞测序技术可以提供单个细胞的基因组表达谱、蛋白质组表达谱、染色质开放程度(chromatin accessibility)、甲基化水平以及组蛋白修饰等。最近单细胞多模态(multi-modality)测序技术的出现,实现了同时测同一个细胞上不同组学的数据。例如,single-cell CITE-seq [1]可以同时测基因表达和蛋白质表达;single-cell multiome [2]同时测基因表达和染色质开放程度;single-cell Paired-Tag [3] 可以同时测基因表达和组蛋白修饰。与此不同,传统的单细胞技术将样本分成子样本,分别测序,得到非匹配(unpaired)多组学数据。目前绝大多数的单细胞数据都是非匹配数据,对于某个特定的细胞,只能得到其中一种组学数据。整合非匹配多组学数据的核心是将在多组学数学之间找到一个连接(linking function)。以基因表达和染色质开放程度数据(scRNA-seq和scATAC-seq)为例,常用的两种连接是:(1)调控元件(regulatory element,RE)和靶基因(target gene,TG)之间的调控关系,如Coupled NMF [4]、DC3 [5]和SOMatic [6];(2)用染色质开放程度映射基因表达(活性)。后者广泛应用于单细胞多组学数据的整合分析,一种方法基于基因区和启动子上的scATAC-seq测到序列的数量(read count)或RE上read count的简单加权,如Seurat [7]和SnapATAC [8]、MAESTRO [9] 和Cicero [10]。由于很多统计学模型在这种非匹配数据上的表现直接取决于linking function的有效性,而目前又没有更好的linking function,因此整合非匹配的单细胞多组学数据成为一个具有挑战的任务。
2022年7月19日,克莱姆森大学都仁扎那团队在Genome Biology 上发表了题目为“Integration of single‑cell multi‑omics data by regression analysis on unpaired observations”的方法文章。该方法(UnpairReg)基于回归模型,根据非匹配的单细胞基因表达和染色质开放程度数据预测出那些只测了染色质开放程度的细胞(没有测基因表达)上的基因表达。该模型通过将回归问题转化为求解变量协方差矩阵的二次型问题,解决了自变量和因变量不匹配的回归问题。跟之前的方法比,UnpairReg预测的基因表达与真实值更相似,相关系数比之前的0.11提高到了0.55(5倍)。另外,该方法能够提高细胞聚类的准确度,并且可以提高两种数据的耦合嵌入(co-embedding),使得两种数据的低维表示更加准确。
作者提出了一种整合非匹配单细胞基因表达和染色质开放程度数的整合方法(unpaired regression, UnpairReg),目标是预测仅有染色质开放程度数据的细胞上的基因表达,以及推断调控元件和靶基因之间的调控网络。非匹配的多组学数据在同一个细胞中只有基因表达和调控元件开放程度中的一种,因此不能直接用线性回归模型求解,因此提出新方法UnpairReg。图1用示意图说明UnpairReg方法的思想,假设TG1和TG2是强相关的两个基因,TG1被RE1调控,TG2被RE5调控。非匹配数据上我们不能计算TG和RE的相关性,只能观测到TG1和TG2,RE1和RE5的相关性,因此可以推断RE1和TG1,RE5和TG5可能存在调控关系。UnpairReg通过基因表达(E)和调控元件的开放程度(O)的协方差矩阵表示TG-TG和RE-RE的相关性,将基因表达的协方差矩阵表示成调控元件开放程度的二次型。求解解二次型可以得到RE-TG的调控关系β,预测基因表达为Oβ。
图1 UnpairReg方法示意图
(图源: Yuan, Q, et al, Genome Biology, 2022)
作者将UnpairReg应用在外周血单核细胞(peripheral blood mononuclear cells,PBMC)数据上。为了验证方法的准确性,作者将匹配的PBMC数据分成两部分,用一部分细胞上的scRNA-seq数据和另一部分细胞上的scATAC-seq数据当做非匹配的数,然后用UnpairReg方法预测出scATAC-seq细胞上的基因表达数据。以PBMC数据的基因表达数据作为金标准,作者比较了Seurat方法的Gene activity score(GAS)和UnpairReg预测结果。首先在对每个细胞(跨基因)计算两种方法预测值和真实表达水平的皮尔逊相关性(cell level PCC) 。图1A说明所有细胞上UnpairReg的相关性都比GAS高,且平均相关性是GAS的5倍。其次,对每个基因上(跨细胞)计算预测值和金标准在所有细胞之间的相关性(gene level PCC)。图2B中91.8%的基因在UnpairReg预测基因表达数据的相关性高于GAS,平均值为0.15,是GAS的4倍。
图2 UnpairReg预测的基因表达与匹配数据中的基因表达一致性高
(图源: Yuan, Q, et al, Genome Biology, 2022)
为了进一步说明UnpairReg能够提高细胞类型识别的结果,作者用UnpairReg预测的基因表达,GAS和原始的表达数据对细胞进行聚类,并用10X Genomics R&D team官方细胞类型注释结果作为细胞类型的标签衡量聚类的结果。相比于GAS(图3B)和scRNA-seq(图3C)的聚类结果,UnpairReg能识别出一些微细胞子群(minor population)(图3A)。另外,对于每个细胞,基于基因表达和细胞类型的标签计算衡量基因表达数据能否将不同细胞类型分开的指标Silhouette index(SI)。SI越高,说明不同细胞类型分得越好。84.7%的细胞通过UnpairReg得到的SI高于GAS(图3D),75.6%的细胞上UnpairReg的SI高于scRNA-seq数据得到的SI(图3E)。scRNA-seq观测到的数据由于drop-out从而非常稀疏,从而结果没有UnpairReg预测的好。以上结果进一步说明相比于GAS和原始的基因表达数据,UnpairReg预测的基因表达能更好地识别细胞类型。
图3 UnpairReg提高细胞类型识别
(图源: Yuan, Q, et al, Genome Biology, 2022)
为了实现基因表达和染色质开放程度的耦合嵌入(co-embedding),作者基于UnpairReg和CoupledNMF [4]开发了一套流程。作者将UnpairReg输出的RE-TG调控系数作为CoulpedNMF的输入。从而得到基因表达和染色质开放程度的耦合低维表示,进而得到所有细胞的聚类结果, 并与Seurat co-embedding的结果比较。作者用Graph connectivity(GC)[11] 衡量耦合的结果是否去除了两种数据类型的批次效应, UnpairReg 的GC高于Seurat,说明两种数据中同一个细胞类型距离更小(图4A&C)。UnpairReg的ARI和NMI也高于Seurat,说明能聚类结果与金标准一致性更高(图4B&D)。
图4 UnpairReg提高基因表达和染色质开放程度的耦合嵌入
(图源: Yuan, Q, et al, Genome Biology, 2022)
原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02726-7
【1】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)
【5】PNAS︱许琪团队发现重度抑郁症DNA甲基化生物标志物BICD2并揭示其作用机制【6】Transl Psychiatry︱乔志宏课题组揭示过度暴露于新冠信息会放大情绪困扰【7】eLife︱ɑ-突触核蛋白的突触定位对基底外侧杏仁核病理性谷氨酸能突触传递起决定性作用【8】Nat Commun︱周艺课题组发现内侧视前区感知环境温度后介导摄食行为的拮抗性调控【9】Neurosci Bull 综述︱毛颖/吴雪海团队评述脑损伤后意识障碍的临床决策【10】J Neuroinflammation|雷平课题组发现间充质干细胞通过抑制铁死亡改善反复轻度创伤性脑损伤引起的认知障碍
参考文献(上下滑动阅读)
[1] Stoeckius M, Hafemeister C, Stephenson W, et al. Simultaneous epitope and transcriptome measurement in single cells. Nat Methods. 2017;14:865–8.
[2] Belhocine K, Demare L, Habern O. Single-cell multiomics: simultaneous epigenetic and transcriptional profiling. Genet Eng Biotechnol News. 2021;41:66–8.
[3] Zhu C, Zhang Y, Li YE, et al. Joint profiling of histone modifications and transcriptome in single cells from mouse brain. Nat Methods. 2021;18:283–92.
[4] Duren Z, Chen X, Zamanighomi M, et al. Integrative analysis of single-cell genomics data by coupled nonnegative matrix factorizations. Proc Natl Acad Sci U S A. 2018;115:7723–8.
[5] Zeng W, Chen X, Duren Z, et al. DC3 is a method for deconvolution and coupled clustering from bulk and single-cell genomics data. Nature. Communications. 2019;10(1):1-11.
[6] Jansen C, Ramirez RN, El-Ali NC, et al. Building gene regulatory networks from scATAC-seq and scRNA-seq using linked self organizing maps. PLoS Comput Biol. 2019;15(11): e1006555.
[7] Stuart T, Butler A, Hoffman P, et al. Comprehensive integration of single-cell data. Cell. 2019;177:1888–1902.e21.
[8] Fang R, Preissl S, Li Y, et al. Comprehensive analysis of single cell ATAC-seq data with SnapATAC. Nat Commun. 2021;12(1):1-15.
[9] Wang C, Sun D, Huang X, et al. Integrative analyses of single-cell transcriptome and regulome using MAESTRO. Genome Biol. 2020;21(1):1-28.
[10] Pliner HA, Packer JS, McFaline-Figueroa JL, et al. Cicero predicts cis-regulatory DNA interactions from single-cell chromatin accessibility data. Mol Cell. 2018;71:858–871.e8.
[11] Luecken MD, Büttner M, Chaichoompu K, et al. Benchmarking atlas-level data integration in single-cell genomics. Nature methods. (2022)19(1):41-50.
本文完