9篇生信工具文章,让单细胞和空间转录组数据可视化 | 时空简讯25期
时空简讯第25期。
近年来,单细胞测序技术日趋成熟,空间组学技术也取得了较大的突破。生物信息数据迎来爆炸性增长,各种生物信息学工具也应运而生。本期就单细胞和空间转录组数据的整合、去卷积与可视化工具,遴选了9篇纯生信工具文章,以供参考。
数据整合
Data Integration
Tangram利用深度学习和空间比对解析单细胞转录组
Nature Methods [IF: 28.547]
① 开发了一种深度学习框架——Tangram,通过输入sc/snRNAseq数据,以及来自相同区域或组织类型的空间分析数据,计算一个目标函数,该函数模拟sc/snRNAseq数据和空间数据中每个基因之间的空间相关性,然后Tangram在空间上重新排列sc/snRNA-seq表达谱,以最大化数据集共享基因的总空间相关性,完成时映射的sc/snRNA-seq图谱构成了包含单细胞分辨率上所有基因和空间位置的新的空间数据。
② 收集健康成年小鼠大脑的主要运动区(motor area,MOp)160,000个snRNA-seq表达谱,使用包含254个基因的高分辨率MERFISH数据集,将这些snRNA-seq数据映射到4,234个细胞上。使用253个MERFISH基因训练Tangram(有1个基因在小鼠大脑snRNA-seq数据中检测到了),经验证发现,训练后的Tangram模型能很好地预测空间表达模式,可以揭示低表达基因的空间模式。
③ 对来自小鼠脑切片的视觉区(visual area,VISp;包括972个细胞和1,020个基因)的STARmap数据集进行分析,利用STARmap和snRNA-seq数据中都存在的995个训练基因,绘制了VISp区域的11,759个SMART-Seq snRNA-seq谱,发现与Allen Brain Atlas ISH的性能相比,Tangram不仅预测了未被STARmap测量的基因的表达,而且有效地校正了低质量基因的空间表达。
④ 在低分辨率空间转录组(Visium)背景下,对3个小鼠冠状脑进行了切片,对与所有3个Visium切片(section 1、2、3)的解剖区域相对应的MOp snRNA-seq表达谱进行概率映射,结果显示,Tangram的映射产生了更高分辨率、精细定位的细胞类型,同时也正确地预测了映射细胞的空间表达模式。
⑤ 用Tangram分析来自不同物种(人类大脑、小鼠肾脏等)scRNA-seq和空间数据,发现对于大脑,除了人类snRNA-seq中缺少的两种细胞类型外,所有细胞类型都具有高度的同源物种映射,并且在单个基因水平上具有良好但较低的相似性;对于肾脏,细胞类型图正确地捕获了几个结构和共定位模式,但一些免疫细胞类型没有映射,可能是由于免疫细胞中标记物的较低保守性。(DL/Lina)
研究设计示意图与主要发现
Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram.
2021.10.28, DOI: 10.1038/ s41592-021-01264-7
研究文章;生信工具;人,小鼠,大脑,肾脏,Tangram,单细胞,转录组,scRNA-seq,空间;Tommaso Biancalani, Gabriele Scalia, Aviv Regev; Broad Institute of MIT and Harvard; USA.
SpaGE:基于scRNA-seq的空间基因增强
Nucleic Acids Research [IF: 16.971]
① 提出了一种稳健的、可扩展的和可解释的机器学习方法——SpaGE(Spatial Gene Enhancement),通过整合来自统一组织的空间转录组和scRNA-seq数据集,来预测整个转录组在其空间结构中的表达。
② SpaGE依赖于使用PRECISE的域适应来校正两种单细胞技术之间转录本检测灵敏度的差异,然后用K最近邻(k-nearest-neighbor,kNN)预测新的空间基因表达。
③ 利用5个数据集对(STARmap_Allen VISp、osmFISH_Zeisel、osmFISH_AllenSSp、osmFISH AllenVISp、MERFISH_ Moffit),证实了SpaGE的性能优于最先进的多组学集成方法(Seurat、Liger、gimVI),并显示了其对大型数据集的可扩展性。
④ 应用SpaGE,准确预测了小鼠大脑不同区域的各种空间转录组和scRNA-seq数据集对的新的基因表达谱,这些基因表达模式被Allen Mouse Brain Atlas的原位杂交数据所证实。
⑤ SpaGE的实现代码以及基准测试代码可以在GitHub存储库中获取:https://github.com/tabdelaal/SpaGE。(吕玉琦/Lina)
SpaGE原理示意图
SpaGE: Spatial gene enhancement using scRNA-seq.
2020.10.09, DOI: 10.1093/nar/gkaa740
研究文章;生信工具;小鼠,大脑,SpaGE,空间转录组,scRNA-seq,数据集成,基因表达;Tamim Abdelaal, Ahmed Mahfouz, Marcel J.T. Reinders; Delft University of Technology, Leiden University Medical Center; The Netherlands.
MAESTRO整合分析scRNA-seq和scATAC-seq数据
Genome Biology [IF: 13.583]
① 提出了基于模型的转录组与调控组跨平台分析工具——MAESTRO(Model-based Analyses of Transcriptome and RegulOme),可用于整合分析来自多个平台的scRNA-seq与scATAC-seq数据,开放计算工作流程图可从http://github.com/liulab-dfci/ MAESTRO上获取。
② MAESTRO主要功能包括数据预处理、比对、质量控制、表达量与染色体开放可及程度量化、细胞聚类与注释等。
③ 通过单个细胞水平模拟染色体潜在的开放程度进行scRNA和scATAC聚类,MAESTRO的效果胜过现有的其它单细胞聚类工具(如Secrat、scABC等)。
④ 该工具支持预先定义的细胞类型的marker基因自动对细胞类型进行注释,并且能从scRNA的基因与scATAC的特征峰中识别驱动调控。
⑤ 应用MAESTRO,分析来自慢性淋巴细胞白血病患者和一名健康供体的骨髓单核细胞的scRNA-seq和scATAC-seq图谱,在CLL患者和健康供体之间的骨髓微环境中发现了不同的细胞类型组成和转录调控因子,证明了MAESTRO的性能。(胡杰)
MAESTRO工作原理示意图
Integrative analyses of single-cell transcriptome and regulome using MAESTRO.
2020.08.07, DOI: 10.1186/s13059-020-02116-x
研究文章;生信工具;人,骨髓,白血病,MAESTRO,scRNA-seq,scATAC-seq,计算流程框架,整合分析,细胞类型注释,转录调控因子预测; Chenfei Wang, Dongqing Sun, Tao Liu, X. Shirley Liu; Dana-Farber Cancer Institute, Harvard T.H. Chan School of Public Health, Roswell Park Comprehensive Cancer Center; USA.
反卷积
Deconvolution
CARD:一种基于条件自回归的空间转录组反卷积方法
Nature Biotechnology [IF: 54.908]
① 开发了一种基于非负矩阵分解模型、使用 scRNA-seq 数据的细胞类型特异性基因表达信息反卷积空间转录组数据的方法——CARD。CARD能够通过条件自回归(conditional autoregressive,CAR)模型假设来适应不同位置的组织间的空间相关特征,实现在不同分辨率的空间转录组技术和不匹配的scRNA-seq参考数据的情况下,对空间转录组数据进行准确和稳健的反卷积。
② CARD已经被封装为R包,存放到https://github.com/YingMa0107/CARD。
③ 与现有的6种反卷积方法MuSiC、SPOTlight、RCTD、cell2location、spatialDWLS和stereoscope进行比较,通过计算每个位置估计的与真实的细胞类型组成之间的均方根误差来量化反卷积性能。在5种不同的场景下,CARD总体上提升了5%~40%的准确度。
④ 分析4个公开发表的空间转录组/scRNA-seq配对数据集,包括小鼠嗅球(ST/Chromium)、人胰腺导管腺癌(ST/inDrop)、小鼠海马体(Slide-seqV2和Visium/Drop-seq),证明了CARD适用于多种组织、多个物种和各种空间转录组技术。进一步开发了CARDfree模块,可以不依赖scRNA-seq数据对空间转录组数据进行反卷积,并利用Slide-seqV2产生的数据验证了该方法的可用性。(大禹)
CARD工作流程图
Spatially informed cell-type deconvolution for spatial transcriptomics.
2022.05.02, DOI: 10.1038/s41587-022-01273-7
研究文章;生信工具;小鼠,人,脑,胰腺,CARD,空间转录组,反卷积,scRNA-seq, R包; Ying Ma , Xiang Zhou; University of Michigan; USA.
综合评估空间转录组数据反卷积和预测scRNA-seq数据中RNA分子空间位置的方法
Nature Methods [IF: 28.547]
① 利用45个scRNA-seq和空间转录组配对数据集、32个模拟数据集对16种整合scRNA-seq和空间转录组数据的方法进行基准测试,其中空间转录组数据集由FISH、osmFISH、seqFISH、MERFISH、STARmap、ISS、EXseq、BaristaSeq、ST、 Visium、Slide-seq、Seq-scope和HDST产生,scRNA-seq数据集由Drop-seq、Smart-seq和 Chromium平台产生。
② 利用45个配对数据集,通过计算空间转录组数据集中每个基因真实(ground truth)的表达向量(vector)以及软件预测的同一个基因的表达向量的皮尔森相关系数、结构相似度指数、均方根误差和Jensen-Shannon散度,定量分析8种预测空间转录组数据中未检测到的RNA分子空间分布的方法,包括Tangram、gimVI、SpaGE、Seurat、SpaOTsc、novoSpaRc、LIGER和stPlus。尽管Seurat和LIGER运行时间较短,总体上Tangram、gimVI、和SpaGE在预测RNA转录本的空间分布方面优于其他方法。
③ 分析ST和Visium这类单个spot包含多个细胞的数据集,比较了12种分析spot细胞组成的方法,包括Cell2location、SpatialDWLS、RCTD、Stereoscope、DestVI、STRIDE、SPOTlight、Tangram、Seurat、SpaOTsc、novoSpaRc和DSTG,发现Seurat和Tangram速度最快,Stereoscope、Tangram和DestVI消耗内存最小,整体上Cell2location、SpatialDWLS和RCTD是基于spot去卷积推测细胞类型的最佳方法。(大禹)
比较配对空间转录组学和scRNA-seq数据集的集成方法的性能基准测试的工作流程
Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution.
2022.05.16, DOI: 10.1038/s41592-022-01480-9
研究文章;生信工具;scRNA-seq,空间转录组,数据整合,反卷积,细胞类型推断,RNA空间位置预测;Bin Li, Wen Zhang, Ghuang Guo, Kun Qu; 中国科学技术大学第一附属医院,合肥综合国家科学中心;中国
STRIDE:基于scRNA-seq对空间转录组数据进行准确反卷积
Nucleic Acids Research [IF: 16.971]
① 开发了一种名为STRIDE的空间转录组去卷积方法,该方法先用Latent Dirichlet allocation(LDA)算法和贝叶斯定理从scRNA-seq数据获取细胞类型信息,然后通过反卷积分析空间转录组数据的细胞成分。
②STRIDE已经被封装为python模块,存放到https://github.com/wanglabtongji/STRIDE。
③ 使用模拟数据,与现有的7种反卷积方法(SPOTlight、NMFreg、Seurat CCA、RCTD、Cell2location、CIBERSORTx和EPIC)进行比较,通过计算每个位置估计的与真实的细胞类型组成之间的均方根误差(RMSE)来量化反卷积性能,发现STRIDE准确性最高,且在灵敏度与特异性之间保持平衡,在不同测序深度下同样具有很高的稳健性。
④ 分析了3个已经发表的空间转录组/scRNA-seq配对数据集,包括Slide-seqV2小鼠脑切片样本、Visium的人类鳞状细胞癌样本和原位测序(in situ sequencing,ISS)的人类心脏样本,证明STRIDE可以分析不同空间转录组平台的数据。此外,通过分析人类心脏样本连续切片的空间转录组数据,证明STRIDE可以构建组织的3D结构。(大禹)
STRIDE工作流程图
STRIDE: accurately decomposing and integrating spatial transcriptomics using single-cell RNA sequencing.
2022.03.07, DOI:10.1093/nar/gkac150
研究文章;生信工具;人,小鼠,脑,心脏,STRIDE,空间转录组,scRNA-seq,反卷积;Dongqing Sun, Qiu Wu, Chenfei Wang;同济医院,同济大学;中国
可视化
Visualization
单细胞转录组差异可视化方法den-SNE和densMAP
Nature Biotechnology [IF: 25.083]
① 基于t-SNE(t-distributed stochastic neighbor embedding)和UMAP(uniform manifold approximation and projection)算法,保留其密度集,开发出可将scRNA-seq转录组差异表达准确可视化的工具:den-SNE和densMAP。
② 应用于肺癌患者的肿瘤和血液免疫细胞分析,发现与t-SNE分析相比,den-SNE可视化中,肿瘤浸润的中性粒细胞和浆细胞占据更多的空间;对局部半径和不同长度尺度的区域计数间的相关性分析表明,den-SNE局部密度可视化具有高度相关性和准确性。
③ PBMC数据集可视化分析显示,densMAP局部密度可视化的准确性(局部的半径和不同长度尺度的区域计数),较UMAP更准确;densMAP可视化分析单核细胞和树突状细胞,发现免疫细胞亚型之间的转录组变化存在着关键的差异;densMAP分析线虫发育,可以准确描述发育轨迹中转录组变异的持续变化。
④ 针对UK Biobank开放数据集(中老年慢性复杂疾病生物样本库)以及机器学习广泛使用的MNIST图像数据集分析,与t-SNE和UMAP分析相比,den-SNE和densMAP可视化工具分析具有更加平衡的种族代表性,极大地扩大了有色人种群体,缩小了白人群体,提示den-SNE和densMAP可灵活应用于可视化其他学科/领域的高维数据。
⑤ 与t-SNE和UMAP计算相比,den-SNE和densMAP分析所需要的内存基本相同,且同样高效。(姜小花)
密度保持数据可视化概述
Assessing single-cell transcriptomic variability through density-preserving data visualization.
2021.01.18, DOI: 10.1038/s41587-020-00801-7
研究文章;生信工具;人,肺,肺癌,单细胞转录组,den-SNE, densMAP, t-SNE, UMAP; Ashwin Narayan, Bonnie Berger, Hyunghoon Cho; Massachusetts Institute of Technology, Broad Institute of MIT and Harvard; USA.
dotdotdot:一种自动量化复杂组织中多重单分子smFISH图像的方法
Nucleic Acids Research [IF: 16.971]
① 提出了一种用于smFISH数据定量分析的多功能计算工具——dotdotdot(https://github.com/LieberInstitute/dotdotdot),为复杂组织中smFISH数据的量化和生物学解释提供了实验工作流程、成像采集和分析策略,并补充了神经科学领域及其他领域不断增长的单细胞和空间转录组数据集。
② 结合光谱成像工作流程和机器学习策略,证明了dotdotdot在量化小鼠大脑和死后人类大脑的单细胞基因表达方面的稳健性(robustness)。
③ 开发了成像采集和分析策略,用于检测和去除smFISH数据中的组织自发荧光,以提高转录本定量的准确性。此外,还证明了定量分割数据可以与机器学习方法结合使用,以系统和无偏的方式定义细胞类型。
④ 演示了dotdotdot对不同数据文件格式、成像采集参数和多路复用实验的灵活性,增加了其对不同类型smFISH数据的实用性。(孙丰羽/Lina)
Dotdotdot图像处理和数据分析流程示意图
dotdotdot: an automated approach to quantify multiplex single molecule fluorescent in situ hybridization (smFISH) images in complex tissues.
2020.06.19, DOI: 10.1093/nar/gkaa312
研究文章;生信工具;人,小鼠,大脑,dotdotdot,smFISH,定量分析,基因表达,细胞类型;Kristen R. Maynard, Andrew E. Jaffe; Lieber Institute for Brain Development, Johns Hopkins Medical Campus, Johns Hopkins School of Medicine, Johns Hopkins University; UK.
整合空间转录组数据与组织图像的深层特征揭示形态学景观背后的分子特征
Nucleic Acids Research [IF: 11.501]
① 提出了一种通过组织图像的深度学习(deep learning of tissue images,SPADE)来识别空间基因表达模式的方法。SPADE通过结合包含转录组数据的每个spot周围的图像斑块的形态学模式来提取基因表达标记,并采用卷积神经网络(convolutional neural network,CNN)来定义与基因表达相关的图像潜在特征。
② 通过对五个不同空间转录组数据集的分析,表明SPADE可作为一种研究工具来揭示与组织的空间和形态异质性相关的关键基因,并结合基因本体论(GO)分析与此相关的生物过程,例如,在乳腺癌组织中与肿瘤微环境相关的MALAT1基因、嗅球中与蛋白合成相关的NRGN基因、前列腺癌组织中的标记基因MYL9和PDLIM5。
③ 对前列腺和乳腺癌组织图像映射的PC1和PC5数据集进行GO分析,发现SPADE能够在异质癌组织的复制中提取相似的组织学模式和相关基因及功能。
④ SPADE还可应用于H&E染色组织和免疫荧光染色组织,通过将基因簇映射到组织图像上对基因表达情况进行可视化地空间分析。(王泽昊/Lina)
Discovery of molecular features underlying the morphological landscape by integrating spatial transcriptomic data with deep features of tissue images.
2021.06.04, DOI: 10.1093/nar/gkab095
研究文章;生信工具;SPADE,基因本体论(GO), scRNA-seq,基因表达,图像特征; Sungwoo Bae, Hongyoon Choi, Dong Soo Lee; Seoul National University, Seoul National University Hospital; Republic of Korea.
系列导读
● 单细胞水平解析慢性神经退行性疾病的发病机制 | 时空简讯24期
推荐阅读
联系我们
对时空组学或单细胞组学整体解决方案感兴趣的老师,可选择以下方式和我们联系,我们将及时为您进行详细的介绍:
1. 在公众号留言;
2. 发送信息至邮箱:
collaboration@stereomics.com。
3. “阅读原文”了解更多。
让我知道你“在看”