系统学习单细胞转录组测序scRNA-Seq(三)

Original 豆豆花花生信星球 2022-06-07

收录于合集 #和豆豆一起探索单细胞转录组 30个

今天是生信星球陪你的第311天

大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~

就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~

这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！

豆豆写于19.3.18
看到后台有不少消息了，不过赶上了豆豆和花花毕业最最忙的时候，等过两天再给大家回复吧~今天现学现卖了~10X scRNA的上游处理CellRanger

CellRanger就是基于10X genomics，从fq生成表达矩阵的工具，然后有了表达矩阵，就可以下游利用Seurat等R包分析

CellRangert软件大小有955M，下载地址：https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

官网教程地址：https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger

第一步 BCL2fastq

cellranger可以直接对illumina每个flowcell的BCLs文件(base call files)操作，使用cellranger mkfastq ，它整合了illumina平台的bcl2fastq。虽然我们一般拿到的是fastq文件，但为了从头构建流程，这一步也学一下。

测试文件下载

http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz

然后构建一个csv文件，其中包括lane、sample、index信息

这部分内容只是展示，实际分析我们自己是不会用到的

# BCL文件
wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
tar zxvf cellranger-tiny-bcl-1.2.0
mv cellranger-tiny-bcl-1.2.0 tiny_bcl
# csv文件，例如
cat cellranger-tiny-bcl-simple-1.2.0.csv
# Lane,Sample,Index
# 1,test_sample,SI-GA-A3


cellranger mkfastq --id=tiny-bcl \
                     --run=tiny_bcl \
                     --csv=cellranger-tiny-bcl-simple-1.2.0.csv
# configured to use 56GB of local memory
# 对服务器内存有要求，不足的话跑不完

结果文件会存放在之前我们用id参数命名的tiny-bcl目录中

ls -l tiny-bcl/outs/fastq_path/
#H35KCBCXY
#Reports
#Stats
#Undetermined_S0_L001_I1_001.fastq.gz
#Undetermined_S0_L001_R1_001.fastq.gz
#Undetermined_S0_L001_R2_001.fastq.gz

也可以使用--qc参数进行质控，这样就会生成一个qc_summary.json文件，主要包含这些内容

第二步定量

计数分为两类：

细胞计数：利用输入数据的barcode将每个细胞的reads区分出来
UMI计数：只有比对到转录组可信度高的reads才能用于UMI计数

例如得到的fastq文件如下：

sample_S1_L001_R1_001.fastq.gz
sample_S1_L001_R2_001.fastq.gz
#一般来讲R1比R2小是正常的，因为我们要的read1只有二十几bp

一般来讲，read1 为十几或二十几bp(比如：前16bp是barcode，紧接着是12bp的UMI，这样我们需要的read1的有用部分就28bp)【这部分质控效果可能会比较差，因为我们只需要前28bp的序列，却对整条read1进行质控，后面的序列主要是一些重复的poly T】；
read2 为91bp【这部分因为全是需要的转录本，因此质控效果会比较好】

比对要用到基因组和注释文件，因此先要准备这些

wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
# 大概11G
# 其他的参考数据下载可以看：https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

cellranger count --id=tiny-bcl \
                                 --transcriptome=refdata-cellranger-GRCh38-3.0.0 \
                                 --fastqs=tiny-bcl/outs/fastq_path \
                                 --sample=sample \
                                  --expect-cells=1000
# --localcores指定多线程
# --localmem指定内存

结果会创建一个sample123 的目录，其中包括

Outputs:
- Run summary HTML:                         /opt/tiny-bcl/outs/web_summary.html
- Run summary CSV:                          /opt/tiny-bcl/outs/metrics_summary.csv
- BAM:                                      /opt/tiny-bcl/outs/possorted_genome_bam.bam
- BAM index:                                /opt/tiny-bcl/outs/possorted_genome_bam.bam.bai
- Filtered feature-barcode matrices MEX:    /opt/tiny-bcl/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5:   /opt/sample345/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX:  /opt/tiny-bcl/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /opt/tiny-bcl/outs/raw_feature_bc_matrix.h5
- Secondary analysis output CSV:            /opt/tiny-bcl/outs/analysis
- Per-molecule read information:            /opt/tiny-bcl/outs/molecule_info.h5
- CRISPR-specific analysis:                 null
- Loupe Cell Browser file:                  /opt/tiny-bcl/outs/cloupe.cloupe

analysis是数据分析目录，其中又包含了clustering聚类(graph-based & k-means聚类)；diffexp 差异分析；pca主成分分析(线性降维)；tsne 非线性降维
cloupe.cloupe 可以作为可视化软件Loupe Cell Browser输入文件
filtered_feature_bc_matrix 是过滤后的barcode信息，其中包含了barcodes.tsv.gz; features.tsv.gz; matrix.mtx.gz
filtered_feature_bc_matrix.h5 是过滤后的barcode信息HDF5 format
metrics_summary.csv 是csv format数据摘要
molecular_infos.h5 是UMI信息
raw_feature_bc_matrix 是原始的barcode信息
possorted_genome_bam.bam 是比对文件[另外还有配套的索引]

定量过程对内存要求较高，真实项目一般需要1-2d

【可选】多样本整合

如果有多个样本，可将它们的定量结果整合，先将每个样本信息写好

#都写在lib.csv中
library_id, molecule_h5
sample1,/sample1/sample1/outs/molecule_info.h5
sample2,/sample2/sample2/outs/molecule_info.h5

然后使用

cellranger aggr --id=sample1vssample2 \
                              --csv=lib.csv \
                              --normalize=mapped

输出结果中与上面类似

[可选] 重新调整

对细胞重新分群

因为barcode是区别细胞的，因此需要提供barcodes.csv

# barcodes.csv

Barcode
AAACCTGAGCCACGCT-1
AAACCTGAGTGGCGAC-1
AAACCTGAGCGTTACG-1
...

cellranger reanalyze    --id=tiny-bcl \
                                          --matrix=filtered_feature_bc_matrix.h5 \
                                          --barcodes=barcodes.csv

适当调整细胞数

计数之前调整
cellranger count --id=tiny-bcl \ --transcriptome=refdata-cellranger-GRCh38-3.0.0 \ --fastqs=tiny-bcl/outs/fastq_path \ --sample=sample \ --force-cells=5000
计数之后强制调整
cellranger reanalyze --id=tiny-bcl \ --matrix=raw_feature_bc_matrix.h5 \ --force-cells=5000

kmeans

先将预调整的cluster数量放在一个文件中

# para.csv
max_clusters,15

然后

cellranger reanalyze    --id=tiny-bcl \
                                          --matrix=filtered_feature_bc_matrix.h5 \
                                          --params=para.csv

第三步格式转化

$ cellranger mat2csv filtered_feature_bc_matrix sample_gene_bar.csv

得到的文件就是行为基因，列为细胞的表达矩阵

点击底部的“阅读原文”，获得更好的阅读体验哦😻

初学生信，很荣幸带你迈出第一步。

我们是生信星球，一个不拽术语、通俗易懂的生信知识平台。由于是2018年新号，竟然没有留言功能。需要帮助或提出意见请后台留言、联系微信或发送邮件到jieandze1314@gmail.com，每一条都会看到的哦~

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

系统学习单细胞转录组测序scRNA-Seq(三)

第一步 BCL2fastq

测试文件下载

第二步定量

【可选】多样本整合

[可选] 重新调整

对细胞重新分群

适当调整细胞数

kmeans

第三步格式转化

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

系统学习单细胞转录组测序scRNA-Seq(三)

第一步 BCL2fastq

测试文件下载

第二步 定量

【可选】多样本整合

[可选] 重新调整

对细胞重新分群

适当调整细胞数

kmeans

第三步 格式转化

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

第二步定量

第三步格式转化