查看原文
其他

【源头活水】CoSTA:用于空间转录组分析的无监督卷积神经网络学习方法

The following article is from 国家基因库大数据平台 Author 尐尐呅



“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:国家基因库大数据平台
2021年8月,来自美国研究人员在《BMC Bioinformatics》杂志发表了题为“CoSTA: unsupervised convolutional neural network learning for spatial transcriptomics analysis”的研究论文,提出了CoSTA:一种通过卷积神经网络(ConvNet)聚类学习基因表达矩阵之间空间相似性的新方法。
空间转录组学技术的兴起使人们对基因调控如何在空间环境下发生有了新的认识。确定哪些基因以类似的空间模式表达可以揭示组织中不同类型细胞的基因调控关系。然而,目前许多分析方法没有充分利用数据的空间组织,而是将pixels作为独立的特征。

01

CoSTA是什么?
研究人员提出了一种受计算机视觉和图像分类启发的方法,以寻找不同基因的空间表达模式之间的关系,同时保留完整的空间背景。CoSTA方法包括两个主要部分:通过高斯混合模型(GMM)进行聚类,以及在训练神经网络中通常进行的权重更新。
CoSTA方法使用ConvNet聚类结构,重复(1)通过ConvNet生成特征,(2)通过GMM聚类生成软分配,以及(3)使用软分配来更新ConvNet。一旦完成训练,只保留训练好的ConvNet用于特征提取。由于ConvNet主要由卷积层组成,ConvNet提取的每个基因的最终向量应该是一个空间表示。利用这个空间表示可以在一个空间转录组数据集中量化任何两个基因之间的关系,利用UMAP将这个数据集中的所有SE基因可视化,并通过常见的聚类算法分配模式。

02

CoSTA的功能测试
通过分析模拟和此前发表的空间转录组数据,研究团队证明CoSTA学习基因之间的空间关系的方式是强调更广泛的空间模式而不是pixels级的相关性。CoSTA为每对基因之间的表达模式相似性提供了一个定量的衡量标准,而不仅仅是将基因归类。与其他方法相比,CoSTA识别的范围更窄,但在生物学上是显著相关的基因集。
对合成数据的测试表明,CoSTA具有高度的特异性、对空间关系的依赖性以及区分信号和噪声的能力。
CoSTA 按细胞类型对基因进行分类,并确定MERFISH数据中基因之间的定量关系。
Slide-seq数据的CoSTA分析:CoSTA学习的特征与空间表达模式紧密相关;集成学习确定空间基因表达模式之间的稳定关系。
与SPARK和SpatialDE相比,CoSTA识别出了更小的、但具有特异性和生物学相关性的空间相关基因集。
CoSTA方法可以成功地实现从计算机视觉的深度学习思想来推断空间基因表达关系。这种方法可以应用于任何为每个基因输出基因表达信息的图像类型矩阵的技术,不仅包括本文探讨的Slide-seq和MERFISH,还包括STARmap、10×Visium和HDST。
文中使用的CoSTA代码版本可以在以下网址获取 :
https://doi.org/10.5281/zenodo.3948711
处理过的MERFISH和Slide-seq数据和本研究中所有分析的脚本可在如下网址获取:
https://github.com/rpmccordlab/CoSTA
参考文献
Xu, Y., McCord, R.P. CoSTA: unsupervised convolutional neural network learning for spatial transcriptomics analysis. BMC Bioinformatics 22, 397 (2021).
图片来源于BMC Bioinformatics官网和参考文献,如有侵权请联系删除。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存