查看原文
其他

Genome Biol︱都仁扎那团队开发单细胞多组学数据整合新方法

The following article is from 岚翰生命科学 Author 苑秋月


来源︱“逻辑神经科学”姊妹号“岚翰生命科学”

撰文︱苑秋月

编辑︱方以一


单细胞测序技术可以提供单个细胞的基因组表达谱、蛋白质组表达谱、染色质开放程度(chromatin accessibility)、甲基化水平以及组蛋白修饰等。最近单细胞多模态(multi-modality)测序技术的出现,实现了同时测同一个细胞上不同组学的数据。例如,single-cell CITE-seq [1]可以同时测基因表达和蛋白质表达;single-cell multiome [2]同时测基因表达和染色质开放程度;single-cell Paired-Tag [3] 可以同时测基因表达和组蛋白修饰。与此不同,传统的单细胞技术将样本分成子样本,分别测序,得到非匹配(unpaired)多组学数据。目前绝大多数的单细胞数据都是非匹配数据,对于某个特定的细胞,只能得到其中一种组学数据。整合非匹配多组学数据的核心是将在多组学数学之间找到一个连接(linking function)。以基因表达和染色质开放程度数据(scRNA-seq和scATAC-seq)为例,常用的两种连接是:(1)调控元件(regulatory element,RE)和靶基因(target gene,TG)之间的调控关系,如Coupled NMF [4]、DC3 [5]和SOMatic [6];(2)用染色质开放程度映射基因表达(活性)。后者广泛应用于单细胞多组学数据的整合分析,一种方法基于基因区和启动子上的scATAC-seq测到序列的数量(read count)或RE上read count的简单加权,如Seurat [7]和SnapATAC [8]、MAESTRO [9] 和Cicero [10]由于很多统计学模型在这种非匹配数据上的表现直接取决于linking function的有效性,而目前又没有更好的linking function,因此整合非匹配的单细胞多组学数据成为一个具有挑战的任务。


2022年7月19日,克莱姆森大学都仁扎那团队在Genome Biology 上发表了题目为Integration of singlecell multiomics data by regression analysis on unpaired observations的方法文章。该方法UnpairReg基于回归模型,根据非匹配的单细胞基因表达和染色质开放程度数据预测出那些只测了染色质开放程度的细胞(没有测基因表达)上的基因表达。该模型通过将回归问题转化为求解变量协方差矩阵的二次型问题,解决了自变量和因变量不匹配的回归问题。跟之前的方法比,UnpairReg预测的基因表达与真实值更相似,相关系数比之前的0.11提高到了0.55(5倍)。另外,该方法能够提高细胞聚类的准确度,并且可以提高两种数据的耦合嵌入co-embedding,使得两种数据的低维表示更加准确。



作者提出了一种整合非匹配单细胞基因表达和染色质开放程度数的整合方法(unpaired regression, UnpairReg),目标是预测仅有染色质开放程度数据的细胞上的基因表达,以及推断调控元件和靶基因之间的调控网络。非匹配的多组学数据在同一个细胞中只有基因表达和调控元件开放程度中的一种,因此不能直接用线性回归模型求解,因此提出新方法UnpairReg。图1用示意图说明UnpairReg方法的思想,假设TG1和TG2是强相关的两个基因,TG1被RE1调控,TG2被RE5调控。非匹配数据上我们不能计算TG和RE的相关性,只能观测到TG1和TG2,RE1和RE5的相关性,因此可以推断RE1和TG1,RE5和TG5可能存在调控关系。UnpairReg通过基因表达(E)和调控元件的开放程度O协方差矩阵表示TG-TG和RE-RE的相关性,将基因表达的协方差矩阵表示成调控元件开放程度的二次型。求解解二次型可以得到RE-TG的调控关系β,预测基因表达为


图1 UnpairReg方法示意图

(图源: Yuan, Q, et alGenome Biology, 2022


作者将UnpairReg应用在外周血单核细胞(peripheral blood mononuclear cells,PBMC)数据上。为了验证方法的准确性,作者将匹配的PBMC数据分成两部分,用一部分细胞上的scRNA-seq数据和另一部分细胞上的scATAC-seq数据当做非匹配的数,然后用UnpairReg方法预测出scATAC-seq细胞上的基因表达数据。以PBMC数据的基因表达数据作为金标准,作者比较了Seurat方法的Gene activity score(GAS)和UnpairReg预测结果。首先在对每个细胞(跨基因)计算两种方法预测值和真实表达水平的皮尔逊相关性(cell level PCC) 。图1A说明所有细胞上UnpairReg的相关性都比GAS高,且平均相关性是GAS的5倍。其次,对每个基因上(跨细胞)计算预测值和金标准在所有细胞之间的相关性(gene level PCC)。图2B中91.8%的基因在UnpairReg预测基因表达数据的相关性高于GAS,平均值为0.15,是GAS的4倍。


图2 UnpairReg预测的基因表达与匹配数据中的基因表达一致性高

(图源: Yuan, Q, et alGenome Biology, 2022


为了进一步说明UnpairReg能够提高细胞类型识别的结果,作者用UnpairReg预测的基因表达,GAS和原始的表达数据对细胞进行聚类,并用10X Genomics R&D team官方细胞类型注释结果作为细胞类型的标签衡量聚类的结果。相比于GAS(图3B)和scRNA-seq(图3C)的聚类结果,UnpairReg能识别出一些微细胞子群(minor population)(图3A)。另外,对于每个细胞,基于基因表达和细胞类型的标签计算衡量基因表达数据能否将不同细胞类型分开的指标Silhouette index(SI)。SI越高,说明不同细胞类型分得越好。84.7%的细胞通过UnpairReg得到的SI高于GAS(图3D),75.6%的细胞上UnpairReg的SI高于scRNA-seq数据得到的SI(图3E)。scRNA-seq观测到的数据由于drop-out从而非常稀疏,从而结果没有UnpairReg预测的好。以上结果进一步说明相比于GAS和原始的基因表达数据,UnpairReg预测的基因表达能更好地识别细胞类型。


图3 UnpairReg提高细胞类型识别

(图源: Yuan, Q, et alGenome Biology, 2022)


为了实现基因表达和染色质开放程度的耦合嵌入(co-embedding),作者基于UnpairReg和CoupledNMF [4]开发了一套流程。作者将UnpairReg输出的RE-TG调控系数作为CoulpedNMF的输入。从而得到基因表达和染色质开放程度的耦合低维表示,进而得到所有细胞的聚类结果, 并与Seurat co-embedding的结果比较。作者用Graph connectivity(GC)[11] 衡量耦合的结果是否去除了两种数据类型的批次效应, UnpairReg 的GC高于Seurat,说明两种数据中同一个细胞类型距离更小(图4A&C)。UnpairReg的ARI和NMI也高于Seurat,说明能聚类结果与金标准一致性更高(图4B&D)


图4 UnpairReg提高基因表达和染色质开放程度的耦合嵌入

(图源: Yuan, Q, et alGenome Biology, 2022)


文章结论与讨论,启发与展望
综上所述,作者提出一个自变量和因变量数据不匹配的回归模型UnpairReg,并将其应用于非匹配的单细胞多组学数据中,预测基因表达和推断增强子-靶基因调控。数据分析的结果表示,UnpairReg 准确预测基因表达,与匹配的多组学数据一致。推断调控关系为共嵌入分析提供了准确的调控元件-靶基因(RE-TG)连接。UnpairReg 的一个假设为在给定 REs开放程度的条件下不同基因的表达是独立的。但是一些转录因子可以在不改变 REs 开放程度的情况下调节一些靶基因。对于这些目标基因,这个假设不再成立。文章验证结果表明,独立性假设不会在该方法的应用中造成严重的偏差。


原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02726-7


文章共同第一作者为克莱姆森大学(Clemson University)人类遗传学中心(Center for Human Genetics))博士后苑秋月博士,通讯作者为克莱姆森大学(Clemson University)人类遗传学中心(Center for Human Genetics)都仁扎那教授。这项研究得到NIH grants P20 GM139769基金的资助。都仁老师课题组正在招聘计算生物学博士后,要求是:1)有数学或计算机相关背景,2)有组学数据分析经验,3)已经有博士学位或者在一年之内完成博士学位。感兴趣的学者请联系都仁老师zduren@clemson.edu. 课题组网站:https://durenlab.com/


人才招聘
【1】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)
往期文章精选【1】J Neurosci︱视觉形状通路存在概率依赖的快速双向可塑性,可实现“动态视觉显著性检测”【2】Cereb Cortex︱高利霞/李新建团队揭示清醒狨猴丘脑对声音信息的编码受到听觉皮层的选择性调控【3】eClinicalMedicine︱荟萃分析:重复经颅磁刺激对帕金森病的疗效【4】NSMB | 从药理、结构到配体发现:血清素5A亚型受体的系统研究
【5】PNAS︱许琪团队发现重度抑郁症DNA甲基化生物标志物BICD2并揭示其作用机制【6】Transl Psychiatry︱乔志宏课题组揭示过度暴露于新冠信息会放大情绪困扰【7】eLife︱ɑ-突触核蛋白的突触定位对基底外侧杏仁核病理性谷氨酸能突触传递起决定性作用【8】Nat Commun︱周艺课题组发现内侧视前区感知环境温度后介导摄食行为的拮抗性调控【9】Neurosci Bull 综述︱毛颖/吴雪海团队评述脑损伤后意识障碍的临床决策【10】J Neuroinflammation|雷平课题组发现间充质干细胞通过抑制铁死亡改善反复轻度创伤性脑损伤引起的认知障碍
优质科研培训课程推荐【1】膜片钳与光遗传及钙成像技术研讨会 8月6-7日 腾讯会议【2】宏基因组与代谢组学R语言分析及可视化实操研讨会(8月27日 腾讯会议)

参考文献(上下滑动阅读)

[1] Stoeckius M, Hafemeister C, Stephenson W, et al. Simultaneous epitope and transcriptome measurement in single cells. Nat Methods. 2017;14:865–8.

[2] Belhocine K, Demare L, Habern O. Single-cell multiomics: simultaneous epigenetic and transcriptional profiling. Genet Eng Biotechnol News. 2021;41:66–8.

[3] Zhu C, Zhang Y, Li YE, et al. Joint profiling of histone modifications and transcriptome in single cells from mouse brain. Nat Methods. 2021;18:283–92.

[4] Duren Z, Chen X, Zamanighomi M, et al. Integrative analysis of single-cell genomics data by coupled nonnegative matrix factorizations. Proc Natl Acad Sci U S A. 2018;115:7723–8.

[5] Zeng W, Chen X, Duren Z, et al. DC3 is a method for deconvolution and coupled clustering from bulk and single-cell genomics data. Nature. Communications. 2019;10(1):1-11.

[6] Jansen C, Ramirez RN, El-Ali NC, et al. Building gene regulatory networks from scATAC-seq and scRNA-seq using linked self organizing maps. PLoS Comput Biol. 2019;15(11): e1006555.

[7] Stuart T, Butler A, Hoffman P, et al. Comprehensive integration of single-cell data. Cell. 2019;177:1888–1902.e21.

[8] Fang R, Preissl S, Li Y, et al. Comprehensive analysis of single cell ATAC-seq data with SnapATAC. Nat Commun. 2021;12(1):1-15.

[9] Wang C, Sun D, Huang X, et al. Integrative analyses of single-cell transcriptome and regulome using MAESTRO. Genome Biol. 2020;21(1):1-28.

[10] Pliner HA, Packer JS, McFaline-Figueroa JL, et al. Cicero predicts cis-regulatory DNA interactions from single-cell chromatin accessibility data. Mol Cell. 2018;71:858–871.e8.

[11] Luecken MD, Büttner M, Chaichoompu K, et al. Benchmarking atlas-level data integration in single-cell genomics. Nature methods. (2022)19(1):41-50.


本文完


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存