Nature子刊 单细胞分析机器学习—DeepSEM
自然子刊 计算科学的论文“Modeling gene regulatory networks using neural network architectures”,提出的DeepSEM,可以针对单细胞转录组数据,进行基因调控网络推断,数据可视化和聚类,以及模拟数据生成。该方法在小鼠小脑数据中推断得出的基因调控网络,可用甲基化数据验证为真,从而这说明了该方法的准确性。
不同细胞类型中,基因调控网络存在差异,通过单细胞测序,可以找出这些差异。但由于单细胞数据中,不同细胞类型间的噪声大,传统的方法需要复杂校正,而基于深度学习的方法,往往模型是一个黑箱,对其内部运行的细节知之甚少。而DeepSEM,能够只基于单细胞转录组数据,不使用转录因子或单细胞 ATAC数据,就能完成基因调控网络的推断。
DeepSEM的算法架构
DeepSEM的算法架构是一个beta变分自编码器,其中编码器在经过多层感知机降维之后,通过优化编码器的模拟数据和真实数据的误差,训练模型中的参数,经由编码器,可得出基因调控网络,经由对神经网络权重的UMAP。可得出单细胞数据的聚类及可视化;而通过编码器,可生产类似给定训练数据的模拟数据集,生成的模拟数据,可在数据集有限的情况下,通过结合模拟数据,提升细胞类型分类模型的准确性,增强差异基因识别的准确性。
在来自人类和小鼠的五个细胞系中,选取不同大小的基因调控网络中,在已知调控网络时,使用不同的标准集,DeepSEM的表现,都优于其它方法,而当真集变为细胞特异的chip-seq数据时,其相比非特异性chip-seq数据为真集时,效果更好
使用不同数据,将随机预测得出的情况作为最差预测,通过颜色判断推断出的转录网络好坏,图中的数字越小,模型预测的调控网络的边和实际情况越接近。
使用表观数据来验证,发现6个细胞的聚类分开,且不同细胞中,基因Rotb和Syt6预测的调控基因,其表达量都相对较高,这进一步说明了该方法预测的基因调控网络的准确性。
使用DeepSEM预测6435个不同细胞的特定基因及其调控因子的表达量热图
之后,该文论证了使用DeepSEM得出的低维度表征的有效性,相比其它方法得出的低维度表征,在由小鼠大脑,胚胎及外周血组成的数据集中,使用DeepDEM得出的表征,在可视化后细胞间分的更开,且ARI和MNI两个量化指标得分也更高。
原始数据及使用不同算法得出的低维度表征进行聚类的结果
不同算法得出的低纬表征的量化评价
之所以使用DeepSEM得出的低维度表征,能够更好的区分不同细胞类型,是因为该算法得出的表征,描述了不同细胞内的调控网络,去除了不同细胞间捕获率低等测序技术原因带来的差异,相当于对数据进行了降噪,因此可进行更准确的聚类或细胞类型判别。
之前生成模拟数据的方式,是使用对抗神经网络的变种,而验证生成的模拟数据的质量,要看聚类时,真实和模拟的数据是否能够完全混在一起,同时使用Louvain及KNN分类时,分类的准确率很低(分类算法无法区分真实和模拟数据),在这两项检测中,可见DeepSEM在小鼠外周血PBMC上的表现相对两种基于对抗神经网络的方法更好,且量化评价也证实了这一点。
不同方法生成的模拟数据和真实数据整合后的聚类对比
使用聚类及KNN方法,对真实数据和模拟数据分类后的预测对比
由于DeepSEM的运行时间,会随着转录组中基因数目的变化而增大,因此作者推荐输入数据应先筛选出高可变基因,而不是以全部转录组作为输入。考虑到基因调控网络在各类细胞中是相同的,该方法构建的调控网络,可以作为隐空间,用于单细胞数据的批次校正。同时,类似的方法,未来还可能应用于更多类型的数据,例如转录组或染色质开放性的测序数据上。
基于Pytorch的DeepSEM可在https://github.com/HantaoShu/DeepSEM下载,输入支持10x,tsv及Scanpy的h5ad格式。