10x的单细胞转录组数据就应该这样处理
未知的东西总是让人害怕,即使是花时间看他人做过一遍也好过踟蹰不前,请看好:
首先需要10x仪器出来的fastq数据
这个可以看前面的教程:10X genomics单细胞数据集探索 列出了非常多的官网教程。
比如1k Brain Cells from an E18 Mouse
,最小的测试数据集,如下:
├── [237M] neurons_900_S1_L001_I1_001.fastq.gz
├── [642M] neurons_900_S1_L001_R1_001.fastq.gz
├── [1.8G] neurons_900_S1_L001_R2_001.fastq.gz
├── [238M] neurons_900_S1_L002_I1_001.fastq.gz
├── [646M] neurons_900_S1_L002_R1_001.fastq.gz
└── [1.8G] neurons_900_S1_L002_R2_001.fastq.gz
可以看到左右端测序数据大小不一致,而且每次测序是有3个数据,因为26bp read1 (16bp Chromium barcode and 10bp UMI), 98bp read2 (transcript), and 8bp I7 sample barcode ,只有reads2的fastq里面是真正的转录本序列,另外的两个文件都是barcode!
如果是从SRA数据库下载其他人发表文章的数据,早期大部分都是缺胳膊断腿的,见教程:3500个TNBC单细胞转录组数据重处理 其实是没办法处理对
然后利用官网软件做比对和定量
官网软件我也写过教程:专门分析10x genomic公司的单细胞转录组数据的软件套件 需要下载的软件很简单,就是下载的数据库有点大:
├── [ 10G] refdata-cellranger-hg19-1.2.0.tar.gz
├── [9.6G] refdata-cellranger-hg19-and-mm10-1.2.0.tar.gz
└── [9.6G] refdata-cellranger-mm10-1.2.0.tar.gz
软件及数据库都准备好了,就可以直接用 Cell Ranger 来做分析,代码如下:
/home/jianmingzeng/biosoft/10xgenomic/cellranger-2.1.0/cellranger count --id=neurons \
--localcores 5 \
--transcriptome=/home/jianmingzeng/biosoft/10xgenomic/db/refdata-cellranger-mm10-1.2.0 \
--fastqs=/home/jianmingzeng/data/public/10x/neurons_900_fastqs \
--sample=neurons \
--expect-cells=900
就这么简单的代码就可以完成10x单细胞转录组数据的比对和定量。其中比较重要的就是 filtered_gene_bc_matrices
文件夹下面的表达矩阵了,可以直接被R包Seurat读入进行一系列的处理
R包Seurat进行表达矩阵的下游分析
代码如下:
library(Seurat)
library(dplyr)
library(Matrix)
neurons.data <- Read10X(data.dir = "~/outs/filtered_gene_bc_matrices/mm10/")
neurons <- CreateSeuratObject(raw.data = neurons.data, min.cells = 3, min.genes = 200,
project = "10X_neurons")
neurons
完整笔记见:单细胞转录组3大R包之Seurat
这就是一个完整的10x公司出品的单细胞转录组数据的完整处理流程啦!
是不是很简单啊!
但是,单细胞转录组数据五花八门,仅仅是掌握10x是远不够的,比如single-cell Fluidigm C1 platform
平台的。
见介绍; scRNA芝加哥大学Yoav Gilad lab实验的Tung et al 2017)文章
后续,我们单细胞天地会一一介绍的,敬请期待哈!
这个就不需要原文链接了,因为里面的笔记,都是可以链接的
(*^__^*) 嘻嘻……