查看原文
其他

学习使用各种单细胞R包来处理数据

生信技能树 生信技能树 2022-08-15

号外:中秋节广州3天入门课程报名马上截止:(中秋节一起来学习!)全国巡讲第16站-广州(生信入门课加量不加价)

单细胞R包如过江之卿,这里只考讲解5个R包,分别是: scater,monocle,Seurat,scran,M3Drop ,需要督促或者提醒大家赶紧学完基础课程!全网第一个单细胞课程(基础)满一千份销量就停止发售 我明天会出配套习题!

根据大家对NGS数据处理上游分析的掌握或需求,自行选择是否学习linux,但是需要完全理解我们的单细胞转录组表达矩阵是如何得到的,以及其生物学意义,每个基因比对到的reads数量的counts矩阵,以及去除了每个细胞测序数据量(文库大小)差异后的 rpm 矩阵,以及去除了基因长度效应的 rpkm矩阵,以及最近比较流行的 tpm 矩阵。基础知识教学视频,都是免费在b站给到大家的:

表达矩阵是单细胞转录组课程的开始!

主要数据分析要点分类

完整工具,分析要点的表单见:https://omictools.com/single-cell-rna-seq-category  我还在生信技能树写过推文介绍如何爬去工具列表,并且制作成为思维导图!

normalization

Linnorm,NODES, SAMstrt, SCnorm, scran, DESeq and TMM

feature Selection

  • Detecting highly variable genes

  • correlated gene pairs

  • cell cycle phase

  • tissue specific gene signatures

Dimension Reduction

MDS,PCA,t-SNE

clustering

  • K-means clustering

  • Mixture models

  • Hierarchical clustering

DEG analysis methods

monocle,MAST,SCDE, BASiCS, NODES, SAMstrt, Seurat and DESeq2

Pseudotime

  • Monocle / Monocle 2 / Census

  • Wanderlust / Cycler / Wishbone

  • SCUBA

  • Slingshot

由于课程时间限制,以及我们所介绍的文章的数据限制,这里只能挑选最出名的3个R包来介绍, 它们这些R包或多或少涵盖了上面提到的部分分析内容。

值得注意的是:这里并不是说其它R包就不重要, 其实我在单细胞天地公众号也介绍过不少实用R包,请自行搜索学习,比如 SC3, pcaReduce,SINCERA,M3Drop

学习下面的R包,需要掌握一些对象:一些单细胞转录组R包的对象

关于测试数据

这里我们选择的是scRNAseq R包中的数据集

这个包内置的是 Pollen et al. 2014 数据集,人类单细胞细胞,分成4类,分别是 pluripotent stem cells 分化而成的 neural progenitor cells (“NPC”) ,还有 “GW16” and “GW21” ,“GW21+3” 这3种孕期细胞。

首先我写了一个探索这个数据集的教程:study_scRNAseq.html,链接:http://bio-info-trainee.com/tmp/scRNA/study_scRNAseq.html

关于seurat

学习seurat用法,当然是以官网为主,不过看英文笔记有挑战,简略带领大家一起学习咯:https://satijalab.org/seurat/get_started.html    主要学习:https://satijalab.org/seurat/pbmc3k_tutorial.html

我这里主要演示使用 seurat包来处理 scRNAseq 这个R包内置的是 Pollen et al. 2014 单细胞转录组数据集 。

教程见:study_seurat.html

  • counts矩阵进来后被包装为对象,方便操作。

  • 然后一定要经过 NormalizeDataScaleData 的操作

  • 函数 FindVariableGenes 可以挑选适合进行下游分析的基因集。

  • 函数 RunPCARunTSNE 进行降维

  • 函数 FindClusters 直接就分群了,非常方便 函数 FindAllMarkers 可以对分群后各个亚群找标志基因。

  • 函数 FeaturePlot 可以展示不同基因在所有细胞的表达量

  • 函数 VlnPlot 可以展示不同基因在不同分群的表达量差异情况 函数 DoHeatmap 可以选定基因集后绘制热图

关于scater

学习scater用法,当然是以官网为主,不过看英文笔记有挑战,简略带领大家一起学习咯:https://bioconductor.org/packages/release/bioc/html/scater.html

值得提醒的是 2017年 11 月 这个 scater 包经过了重大变革,所以如果大家看到比较旧的教程需要注意一下,通常是无法成功的。

其GitHub的教程:http://hemberg-lab.github.io/scRNA.seq.course/

我这里主要演示使用 scater 包来处理 scRNAseq 这个R包内置的是 Pollen et al. 2014 单细胞转录组数据集 。

教程见:study_scater.html

关于monocle

学习monocle用法,当然是以官网为主,不过看英文笔记有挑战,简略带领大家一起学习咯:http://cole-trapnell-lab.github.io/monocle-release/monocle3/

我这里主要演示使用 monocle 包来处理 scRNAseq 这个R包内置的是 Pollen et al. 2014 单细胞转录组数据集 。

教程见:study_monocle.html

最后把学习的4个R包应用到文章的数据

扩展阅读

首先需要了解bioconductor:https://bioconductor.github.io/BiocWorkshops/

然后需要了解scRNA课程:https://hemberg-lab.github.io/scRNA.seq.course/index.html

另外一个还在持续制作中的课程:https://osca.bioconductor.org/ 

后记

本文有大量链接,阅读原文去查看就都可以跳转啦!

号外:中秋节广州3天入门课程报名马上截止:(中秋节一起来学习!)全国巡讲第16站-广州(生信入门课加量不加价)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存