查看原文
其他

谁说单细胞工具一定要应用于单细胞数据呢

生信技能树 生信技能树 2022-08-15

最近读文献, 看到了一个有意思的文章,发表在 Nat Commun . 2021 Jan 的文章:《Global computational alignment of tumor and cell line transcriptional profiles 》提到了一个工具,Cellinger,链接是:https://www.nature.com/articles/s41467-020-20294-x

本来呢,我是想介绍这个工具,Cellinger,他可以帮助我们挑选合适的癌症细胞系模型。但是我在读文献的过程,发现了另外一个有意思的点,就是把单细胞数据处理的各个工具算法,应用到了传统的转录组表达量矩阵,就是TCGA和CCLE的表达量矩阵。

开局一个TCGA和CCLE

  • Large datasets such as The Cancer Genome Atlas (TCGA)   the multi-omic features of approximately 10,000 primary tumor biopsy samples
  • the Cancer Cell Line Encyclopedia (CCLE)  more than 1,000 cancer cell lines.

下载方式,以及各个数据库的样本量,基因数量,都如下所示:

 

提到的xena数据库下载tcga的全部癌症样品的表达量矩阵,然后是DepMap数据库下载CCLE的全部表达矩阵,最后两个矩阵仅仅是取了蛋白编码基因。

接下来全部靠单细胞工具

材料和方法如下所示  :

 

大名鼎鼎的seurat无需我多介绍了,更新速度之快,咱们《单细胞天地》的主力小编周运来在《生信菜鸟团》单独开辟了一个专栏,都给它更新了两个月了:

(不要问我为什么《单细胞天地》的主力小编周运来为什么会在《生信菜鸟团》发笔记,而且还是由我在《生信技能树》公布这一新闻!)

另外,文献里面提到了MNN,其实来源于scran这个R包,而scran的介绍就比较少,我们介绍最多的是Cell cycle phase assignment功能,也就是推断细胞周期。要学好它,就是掌握使用scran包的SingleCellExperiment函数即可构建SingleCellExperiment对象。其实多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个单细胞转录组样本的数据整合之CCA-Seurat包 ,但是scran包的 mutual nearest neighbors (MNNs)方法中文介绍确实不多,而且我觉得其实主要就是读文档而已:https://bioconductor.org/packages/release/bioc/vignettes/scran/inst/doc/scran.html

起初表达矩阵的数据库批次效应肉眼可见

如下所示,TCGA和CCLE的表达量矩阵的差异非常大 :

矫正批次效应前

a A 2D projection of combined, uncorrected cell line and tumor expression data using UMAP (n = 1,249 cell lines, n = 12,236 tumors).

单细胞工具整合两个数据集

使用scran包的 mutual nearest neighbors (MNNs)方法,整合了TCGA和CCLE的表达量矩阵后,可以看到这个时候两个数据库的差异基本上被抹平了,各个样品主要是按照癌症或者组织类型的差异来区分远近距离啦。

矫正批次效应后

Fig. 2 Celligner alignment of tumor and cell line samples. UMAP 2D projection of Celligner- aligned tumor and cell line expression data colored by annotated cancer lineage. The alignment includes 12,236 tumor samples and 1,249 cell lines, across 37 cancer types.

全部代码公开可以学习

https://github.com/broadinstitute/Celligner_ms

我看了看,文章里面的每个主图和附图的绘图方式都有,值得follow,如果你足够努力,甚至可以基于这个文献的代码开一个公众号,写个几百篇笔记!

学徒作业

开设自己的公众号,学习这篇文章的代码,尝试写自己的笔记,发出去第一个笔记后,把该笔记的链接或者你的公众号ID发给我,我的邮箱是 jmzeng1314@163.com

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存