查看原文
其他

深度神经网络学习对单细胞数据进行清洗去噪

JunJunLab 老俊俊的生信笔记 2023-06-15


走走停停

1前言

scRNAtoolVis 可以给 cluster 添加圆圈, nbin 可以控制拟合度:

# add circle
clusterCornerAxes(object = tmp,reduction = 'umap',
                  noSplit = T,
                  cornerTextSize = 3.5,
                  themebg = 'bwCorner',
                  addCircle = TRUE,
                  cicAlpha = 0.2,
                  nbin = 200)

更多相关参数见:

?clusterCornerAxes

2引言

分享一篇今年 4 月 7 号发表在 NATURE COMMUNICATIONS 上的一篇文章:

摘要:

单细胞 RNA 测序(scRNA-Seq)正在广泛应用于生物医学研究中,产生了大量和多样性的数据。原始数据包含多种类型的噪声和技术工件,需要彻底清理。现有的去噪和计算方法主要集中于单一类型的噪声(dropouts),并具有较强的分布假设,这极大地限制了它们的性能和应用。在这里,我们设计和开发了 AutoClass 模型,集成了 两个深度神经网络组件,一个 自动编码器,和一个 分类器以最大限度地去除噪声和信号保留AutoClass 是分布不可知的,因为它没有对特定的数据分布做出假设,因此可以有效地清理广泛的噪声和伪影。AutoClass 在多种类型的 scRNA-Seq 数据分析中优于最先进的方法,包括 数据恢复差异表达分析聚类分析批效应去除。重要的是,AutoClass 对关键设置超参数具有鲁棒性,包括瓶颈层大小、预聚类数和分类器权重。

github 地址:

https://github.com/datapplab/AutoClass

注意是基于 python 语言编写的。

3Validation of the classifier component

AutoClass 而不是常规的自动编码器能够恢复细胞类型模式,这表明分类器组件对于重建 scRNA-Seq 数据是必要的。

4Gene expression data recovery

多款去噪软件的对比:

AutoClass 和 scImpute 在输入 dropouts 0 和保留真实 0 之间都取得了良好的平衡,但只有前者和后者都能够恢复生物学差异或不同的细胞类型聚类。

5Differential expression analysis

AutoClass 有助于识别更多潜在的标记基因。

6Clustering analysis

AutoClass 是唯一区分组内和组内组间相关性作为信号和噪声的信息指标的方法。

7Batch effect removal

AutoClass 没有被预先的聚类数量所误导,并且正确地恢复了实际的聚类数量,AutoClass 使用默认的预聚类数同时降低了批处理效应,并增加了细胞类型的分离。

8Robustness over major hyperparameters

AutoClass 是分布不可知的,并且其工作原理独立于这里的 p 参数值和噪声类型或分布。我们将p=2(MSE loss)设置为默认值,因为这是最常用的重建错误。

9Scalability

AutoClass 是高效的和可扩展的。它在普通笔记本电脑上运行快速(8 核英特尔酷睿 i5-8265UCPU,1.60 GHz,8G 内存),20 秒处理 1000 个细胞,119 秒处理 8000 个细胞,706 秒处理 32000 个细胞。

10Large feature size and sample size

这些实验一致表明,AutoClass 具有不同的样本大小,特征大小,以及不同的噪声类型和数据分布。

11结论

AutoClass 不依赖于任何分布假设,并完全计算基因之间的非线性相互作用。有了这些特性,自动类有效地建模和清理 scRNA-Seq 数据中广泛的噪声和伪影,包括辍学、随机均匀、高斯、伽马、泊松和负二项噪声,以及批处理效应。这些都是最常见和最具有代表性的噪声和伪影类型。任何没有直接测试的其他类型都可能以同样的效率清洗,因为它们在分布和源上是相似的,而自动类对噪声形式没有假设。这种深入的清理导致了数据质量和下游分析的一致和实质性的改善,包括差异表达和聚类,这通过模拟和真实数据集的一系列实验显示。AutoClass 是高效的和可伸缩的。它很容易安装个人笔记本电脑,并在几分钟或更短的时间内处理数千个 scRNA-Seq 样本。如本研究中使用各种真实和模拟数据集的一系列实验所示,AutoClass 适合各种样本大小、特征大小的数据,或两者都一致。

12结尾

具体细节内容可去看原文。




  老俊俊生信交流群 (微信交流群需收取20元入群费用(防止骗子和便于管理))



老俊俊微信:


知识星球:



今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!




  





ggpie 解决你的所有饼图绘制

Bigwig 可视化用 tackPlotR 试试看?

gggsea 个性化绘制 GSEA 图

scRNAtoolVis 绘制单细胞 Marker 基因均值表达热图

给你 UMAP 坐标重复文章一模一样的图?

genesorteR 快速准确鉴定亚群 Marker 基因

scRNAtoolVis 尝试一下?

Seurat 官网单细胞教程四 (细胞周期矫正)

跟着 Nature medicine 学单细胞数据分析

单细胞亚群分面可视化

◀...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存