查看原文
其他

【软件解读】深度清洗单细胞转录组数据的新方法

运营部-CZM 联川生物 2024-03-27
大家好,这里是哲哲的软件小金矿。今天给大家介绍一款scRNA-Seq数据清洗软件——AutoClass。该软件于2022年4月发表于Nature Communications。其基于深度神经网络,对scRNA-Seq数据存在的噪声、技术误差、假零表达和dropout等现象进行清洗或填补,而且由于未对数据作任何分布上的假设,具有通用性。同时,在一定程度上还能帮助发现潜在的差异基因、去除批次效应。接下来,我们一起详细了解这款软件吧~
0 背景
scRNA-Seq作为具有超高分辨率和超高通量的转录组分析技术,在产生大量数据的同时,也对数据分析带来了巨大挑战。一方面是RNA扩增、测序、比对等过程带来的偏差。另一方面,极小的样本量和低RNA捕获率会导致大量假零表达和dropout。还有批次效应对基因表达谱造成的复杂影响。
目前大多数scRNA-Seq去噪方法都基于特定分布假设,如DCA和SAVER都基于负二项分布,sclmpute基于高斯和伽马混合模型。但目前scRNA-Seq数据的分布还未达成共识,阻碍了数据的准确分析和解释,故作者开发了一种基于神经网络、无分布假设的scRNA-Seq数据清洗方法——AutoClass。
1 软件组成
AutoClass是一个复合深度神经网络,集成了两个神经网络组件——一个自动编码器和一个分类器(图1a)。自动编码器能够实现输入数据的压缩与重建,其作为无监督方法,不假定数据分布,故具有纠正宽范围噪声和非信号变化的潜力。加入分类器后则能更有针对性地滤除噪声并保留信号(图1b)。需要说明的是,分类器虽然会对数据进行预聚类,赋予虚拟的类别标签,但是聚类基于数据本身特征,而标签也不是已知的细胞类型,即非人为定义分类。
图1 a. AutoClass的组成;b.分类器大幅度提高了结果的准确性

2 数据清洗效果——基因表达谱恢复
作者用Splatter生成了五组细胞(1000个基因,共500个细胞),并模拟了dropout和常见的五种不同分布(随机均匀分布、高斯分布、伽马分布、泊松分布和负二项分布)的噪声。使用总共7个数据集进行测试后发现,相较于其他同类软件,AutoClass均能很好地恢复原始细胞分布(图2a-c、图3)。且平均轮廓宽度(average Silhouette width, ASW)、均方误差(mean squared error, MSE)均是最接近真实情况(图2d,e),对dropout的填补也最为平衡(图2f)。
图2五款软件的去噪效果。a-c, 分别是添加了dropout、高斯分布和负二项分布噪声的数据集。d, 平均轮廓宽度。e, 均方误差。f, dropout的填补情况。

图3 五款软件对另外三个数据集(第一到第三行,分别添加了随机分布、伽马分布、泊松分布噪声)的去噪效果

3 对差异表达分析的影响
作者重新模拟了新的数据集(分两组,有1000个基因,共500个细胞,已知161个差异表达基因),使用t-statistics中值、ROC曲线、曲线下面积(AUC)评估五款软件对差异表达分析的影响,AutoClass的结果依然最接近真实情况(图4)。
图4 五款去噪软件对差异表达分析结果的影响。a,b 真差异表达基因的t-statistics和中值。c,d ROC曲线和曲线下面积。

4 对聚类分析的影响
作者使用Buettner(182 个细胞)、Usoskin(622 个细胞)、Lake(8592 个细胞)和Zeisel(3005 个细胞)四个数据集进行测试,并用兰德指数 (Rand index, ARI)、杰卡德指数 (Jaccard Index, JI)、标准化互信息 (normalized mutual information, NMI) 和纯度评分 (purity score, PS)进行评估。结果表明,AutoClass在三个数据集中具有最好的聚类结果,另外一个数据集的聚类结果也接近最好(表1)。而且对于Usoskin数据集,AutoClass清洗后,细胞的分群与聚类效果最好,且在组内和组间的相关性是最平衡的(图5)。
表1 五款软件的聚类效果评估

图5 a, 五款软件对Usoskin数据集清洗后的聚类效果。b, 细胞组内和组间相关性
 
5 去除批次效应
作者使用Villani 数据集(人,血液,DC细胞,2批,共768个细胞)和ASW、ARI、NMI、PS四个指标测试批次效应去除效果。AutoClass的结果依然优于其他软件(图6)。
图6 a, 五款软件对Villani数据集清洗后的聚类效果。b, 细胞类型分离(X轴)和批次效应去除(Y轴)效果评估,分数越高越好
 
6 主要超参数的稳定性评估
AutoClass的主要超参数为瓶颈层大小n、预聚类数k和分类器权重w,这三个参数在较大范围内变化时,结果均较稳定(图7-9)。
图7 瓶颈层大小n、预聚类数k对AutoClass(a)和DCA(b)聚类结果的影响。

图8 AutoClass预聚类数k对t-SNE图的影响。

图9 AutoClass分类器权重w对t-SNE图的影响。
 
7 数据规模与运行时间
AutoClass可在普通笔记本电脑上运行,且速度很快——测试时20s处理1000个细胞,119s处理8000个细胞,706s处理32000个细胞,运行时间与细胞数量几乎呈线性关系(图10)。
图10 不同去噪方法的细胞数量与运行时间
 
8 提高特征量与细胞数的影响
作者在Tian数据集中分别添加了dropout和负二项式分布的噪声,并分别使用1000个和5000个高变基因(特征量)进行清洗,发现增大特征量后AutoClass的性能反而有所提升(图11)。而在高细胞数(10000个)和高特征量(10000个)的两个数据集中,AutoClass的表现同样稳定且优于其他软件(图12)。
图11 每行代表不同噪声类型和特征(基因)数量

图12 三款软件对高细胞数、高特征量的两个数据集的去噪效果

(总结)
由于使用了无监督或自监督的复合深度神经网络,加上无分布假设,使得AutoClass具有较高的通用性和稳定性。以上与其他软件的比较,以及诸多数据集的测试、聚类、差异分析等结果都很好地证明了AutoClass的强大。超参数的影响较小也侧面体现了算法本身的稳健。整体上看,AutoClass是个很有潜力的scRNA-seq数据清洗软件。
 
以上就是哲哲对AutoClass文章的解读。如果希望哲哲对软件进行实际测试,麻烦点击“在看”。在看数超20,哲哲将在3个月内公布测试结果,如果在看数超50,则1个月内爆肝测试!

相关阅读
单细胞必学!一文带你读懂单细胞转录组数据分析
北大发表单细胞转录组数据检索新方法和参考数据库 | 单细胞专题
单细胞转录组数据分析 | 界面版数据分析工具简介
点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由




继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存