系统学习单细胞转录组测序scRNA-Seq(三)
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于19.3.18
看到后台有不少消息了,不过赶上了豆豆和花花毕业最最忙的时候,等过两天再给大家回复吧~今天现学现卖了~10X scRNA的上游处理CellRanger
CellRanger就是基于10X genomics,从fq生成表达矩阵的工具,然后有了表达矩阵,就可以下游利用Seurat等R包分析
CellRangert软件大小有955M,下载地址:https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
官网教程地址:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
第一步 BCL2fastq
cellranger可以直接对illumina每个flowcell的BCLs文件(base call files)操作,使用
cellranger mkfastq
,它整合了illumina平台的bcl2fastq
。虽然我们一般拿到的是fastq文件,但为了从头构建流程,这一步也学一下。
测试文件下载
http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
然后构建一个csv文件,其中包括lane、sample、index信息
这部分内容只是展示,实际分析我们自己是不会用到的
BCL文件
wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
tar zxvf cellranger-tiny-bcl-1.2.0
mv cellranger-tiny-bcl-1.2.0 tiny_bcl
csv文件,例如
cat cellranger-tiny-bcl-simple-1.2.0.csv
Lane,Sample,Index
1,test_sample,SI-GA-A3
cellranger mkfastq --id=tiny-bcl \
--run=tiny_bcl \
--csv=cellranger-tiny-bcl-simple-1.2.0.csv
configured to use 56GB of local memory
对服务器内存有要求,不足的话跑不完
结果文件会存放在之前我们用id参数命名的tiny-bcl
目录中
ls -l tiny-bcl/outs/fastq_path/
H35KCBCXY
Reports
Stats
Undetermined_S0_L001_I1_001.fastq.gz
Undetermined_S0_L001_R1_001.fastq.gz
Undetermined_S0_L001_R2_001.fastq.gz
也可以使用--qc
参数进行质控,这样就会生成一个qc_summary.json
文件,主要包含这些内容
第二步 定量
计数分为两类:
细胞计数:利用输入数据的barcode将每个细胞的reads区分出来
UMI计数:只有比对到转录组可信度高的reads才能用于UMI计数
例如得到的fastq文件如下:
sample_S1_L001_R1_001.fastq.gz
sample_S1_L001_R2_001.fastq.gz
一般来讲R1比R2小是正常的,因为我们要的read1只有二十几bp
一般来讲,read1 为十几或二十几bp(比如:前16bp是barcode,紧接着是12bp的UMI,这样我们需要的read1的有用部分就28bp)【这部分质控效果可能会比较差,因为我们只需要前28bp的序列,却对整条read1进行质控,后面的序列主要是一些重复的poly T】;
read2 为91bp【这部分因为全是需要的转录本,因此质控效果会比较好】
比对要用到基因组和注释文件,因此先要准备这些
wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
大概11G
其他的参考数据下载可以看:https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
cellranger count --id=tiny-bcl \
--transcriptome=refdata-cellranger-GRCh38-3.0.0 \
--fastqs=tiny-bcl/outs/fastq_path \
--sample=sample \
--expect-cells=1000
--localcores指定多线程
--localmem指定内存
结果会创建一个sample123
的目录,其中包括
Outputs:
- Run summary HTML: /opt/tiny-bcl/outs/web_summary.html
- Run summary CSV: /opt/tiny-bcl/outs/metrics_summary.csv
- BAM: /opt/tiny-bcl/outs/possorted_genome_bam.bam
- BAM index: /opt/tiny-bcl/outs/possorted_genome_bam.bam.bai
- Filtered feature-barcode matrices MEX: /opt/tiny-bcl/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5: /opt/sample345/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX: /opt/tiny-bcl/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /opt/tiny-bcl/outs/raw_feature_bc_matrix.h5
- Secondary analysis output CSV: /opt/tiny-bcl/outs/analysis
- Per-molecule read information: /opt/tiny-bcl/outs/molecule_info.h5
- CRISPR-specific analysis: null
- Loupe Cell Browser file: /opt/tiny-bcl/outs/cloupe.cloupe
analysis
是数据分析目录,其中又包含了clustering
聚类(graph-based & k-means聚类);diffexp
差异分析;pca
主成分分析(线性降维);tsne
非线性降维cloupe.cloupe
可以作为可视化软件Loupe Cell Browser输入文件filtered_feature_bc_matrix
是过滤后的barcode信息,其中包含了barcodes.tsv.gz; features.tsv.gz; matrix.mtx.gzfiltered_feature_bc_matrix.h5
是过滤后的barcode信息HDF5 formatmetrics_summary.csv
是csv format数据摘要molecular_infos.h5
是UMI信息raw_feature_bc_matrix
是原始的barcode信息possorted_genome_bam.bam
是比对文件[另外还有配套的索引]
定量过程对内存要求较高,真实项目一般需要1-2d
【可选】多样本整合
如果有多个样本,可将它们的定量结果整合,先将每个样本信息写好
都写在lib.csv中
library_id, molecule_h5
sample1,/sample1/sample1/outs/molecule_info.h5
sample2,/sample2/sample2/outs/molecule_info.h5
然后使用
cellranger aggr --id=sample1vssample2 \
--csv=lib.csv \
--normalize=mapped
输出结果中与上面类似
[可选] 重新调整
对细胞重新分群
因为barcode是区别细胞的,因此需要提供barcodes.csv
barcodes.csv
Barcode
AAACCTGAGCCACGCT-1
AAACCTGAGTGGCGAC-1
AAACCTGAGCGTTACG-1
...
cellranger reanalyze --id=tiny-bcl \
--matrix=filtered_feature_bc_matrix.h5 \
--barcodes=barcodes.csv
适当调整细胞数
计数之前调整
cellranger count --id=tiny-bcl \
--transcriptome=refdata-cellranger-GRCh38-3.0.0 \
--fastqs=tiny-bcl/outs/fastq_path \
--sample=sample \
--force-cells=5000计数之后强制调整
cellranger reanalyze --id=tiny-bcl \
--matrix=raw_feature_bc_matrix.h5 \
--force-cells=5000
kmeans
先将预调整的cluster数量放在一个文件中
para.csv
max_clusters,15
然后
cellranger reanalyze --id=tiny-bcl \
--matrix=filtered_feature_bc_matrix.h5 \
--params=para.csv
第三步 格式转化
cellranger mat2csv filtered_feature_bc_matrix sample_gene_bar.csv
得到的文件就是行为基因,列为细胞的表达矩阵
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步。
我们是生信星球,一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号,竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到jieandze1314@gmail.com,每一条都会看到的哦~