CeleScope 教程 || 单细胞多样同测CLindex™ 数据分析
🍳 恭喜!当您打开这个文档,说明您已经获得单细胞数据,开启了单细胞数据分析之旅。在您正式使用celescope分析新格元单细胞数据之前,我们希望向您介绍celescope软件的一些基本过程。您可以快速阅读文档,并在您的服务器上完成CLindex™单细胞多样同测的下机数据到样本标签信息拆分并得到各样本的单细胞表达量信息分析。
一、简介
基于高通量测序技术的单细胞技术,使得我们能够在单个细胞水平解析多细胞生物发生发展规律。十余年来,通量与精度的提高一直是海量单细胞技术发展的内在趋势。新格元2021年推出基于化学标记的单细胞多样同测试剂盒:CLindex™ Sample Multiplexing Kit,最高可实现一次实验16个样本的标记混合,搭配GEXSCOPE®高密度芯片可进一步提高细胞通量,从而精细刻画生物发育和疾病中的细胞异质性、鉴定稀有细胞亚型和状态、验证新的biomarker。新格元CLindex™技术基于化学基团标记,对不同物种的细胞具有良好的兼容性。
二、标记流程
结合新格元单细胞系统,CLindex™ 已经拥有样本制备到数据分析的完整流程:
利用CLindex™ 标记不同样本的细胞,使其携带特异的Sample index信息,混合后利用GEXSCOPE® 微流控芯片捕获单细胞。 细胞裂解后, GEXSCOPE®分子标签磁珠通过捕获核酸末尾的poly-A,使细胞内mRNA和Sample index被加上相同的Cell Barcode。 逆转录成cDNA之后,分别进行样本标签文库及单细胞转录组文库的构建,上机测序。 得到下机数据,用开源软件CeleScope™进行样本拆分,定量后得到各样本的单细胞表达量信息。
三、celescope tag 分析流程
tag pipeline (单细胞多样同测数据分析) 包含七个主要指令,可以通过 celescope tag {指令} --help 查看:
具体参数的详细说明,请参考GitHub:https://github.com/singleron-RD/CeleScope/blob/master/docs/tag/multi_tag.md
conda activate celescope
celescope tag --help
usage: celescope tag [-h]
{sample,barcode,cutadapt,mapping_tag,count_tag,analysis_tag,split_tag}
...
Single-cell tag
positional arguments: # 七个主要的指令
{sample,
barcode,
cutadapt,
mapping_tag,
count_tag,
analysis_tag,
split_tag}
optional arguments:
-h, --help show this help message and exit
为了便于测试软件,我们在github上托管了测试数据(请注意,这些数据仅供测试用途。有些数据是人为生成的)。所有的软件DEMO测试数据我们已经在 celescope
rna
的教程中下载过,这里可以看一下tag 数据的结构。
$ tree -L 2
.
|-- fastqs
| |-- tag_1.fq.gz
| `-- tag_2.fq.gz
|-- smk_barcode.fa
|-- tag_barcode.fasta
`-- tag_linker.fasta
下面是测试脚本:
$ tree -L 2
.
|-- run_shell.sh
`-- tag.mapfile
四、CLindex™单细胞多样同测分析实操
CLindex™单细胞多样同测研究在实验过程中会构建一个转录组文库和一个样本标签文库,因此数据分析也就分为两个环节:
(1) 样本标签文库测序
(2) CLindex™单细胞多样同测分析
本篇文章内只介绍 CLindex™单细胞多样同测分析 ,而celescope分析单细胞转录组数据的教程已在上一期中进行介绍。后续的分析流程和单细胞转录组分析保持一致的,不同的就是要进行样本标签进行拆分。
在分析之前我们先要激活我们celescope软件的运行环境,可以使用conda activate celescope
命令进行激活。
(base) singleron 13:20:48 /vdj
$ conda activate celescope
(celescope) singleron 13:21:18 /vdj
然后就是接下来使用的两个重要的配置文件,run_shell.sh
和tag.mapfile.sh
$ tree -L 1
.
|-- run_shell.sh
`-- tag.mapfile
1、用 multi_tag
构建 celescope tag 分析的 shell 脚本
配置 mapfile文件 --mapfile
是multi_tag下的参数,需要提供一个制表符分隔 (tab-delimited) 的文本文件。mapfile 的每一行代表双端 (paired-end) fastq文件。
tag /singleron/celescope_test_data/vdj/fastqs tag_test /singleron/celescope_test_data/rna/shell/rna_test
其中,第一列 tag_fastq_ID:对应 tag_fastq文件的样本标签测序数据前缀
第二列 tag_datapath:对应 tag_fastq样本标签文件的路径
第三列 tag_sample_name:对应质控报告的名称
第四列:对应与其“配对的”单细胞转录组分析multi_rna转录组分析生成路径(写到这些文件夹的上一级目录)
另一个是 shell 脚本文件:run_shell.sh
multi_tag \
--mapfile ./tag.mapfile\
--mod shell\
--barcode_fasta /mnt/sdd/singleron_training_class/resources/celescope_test/tag/smk_barcode.fa\
--fq_pattern L25C45\ # 早期为45,现在多为L25C15
--split_matrix
第一行 --mapfile
用于帮助程序找到测序数据的位置,对应上一步编辑好的 mapfile 的文件位置(写到文件)
第二行 --mod
确定生成的脚本类型
第三行 --barcode_fasta
样本标签 barcode 序列的文件,形式如下,示例采用的是45个碱基的标签barcode
$ cat smk_barcode.fa
>SMK0
GGGCGTCTGTGACCGCGTGATACTGCATTGTAGACCGCCCAACTC
>SMK1
TTCCTCCAGAGGAGACCGAGCCGGTCAATTCAGGAGAACGTCCGG
>SMK2
AGGGCTAGGCGTGTCATTTGGCGAGGTCCTGAGGTCATGGAGCCA
>SMK3
CACTGGTCATCGACACTGGGAACCTGAGGTGAGTTCGCGCGCAAG
第四行 --fq_pattern
对应第三行barcode序列文件的标签模式指定,L 是 Linker,C 是 Barcode,后面的数字指定它们包含的碱基数
第五行 --split_matrix
默认为 True,使用该参数将根据 tag 标签拆分 scRNA-Seq 矩阵文件
2、生成shell脚本
(1)运行刚编辑好的shell脚本run_shell.sh
$ sh run_shell.sh
(2)运行完以后就可以自动生成一个名称为shell
的文件目录。
$ tree -L 1
.
|-- run_shell.sh
|-- shell
`-- tag.mapfile
shell
文件夹中会有一个以tag_test
命名的脚本运行存储数据的目录,以及一个运行的shell脚本tag_test.sh
,tag_test.sh
脚本中的每行指令对应每一步分析(质控报告的每一部分数据)。
3、投递shell脚本
进入到shell目录中,就可以运行shell脚本tag_test.sh
,然后在终端命令行中输入nohup sh tag_test.sh &
。将脚本提交到后台运行,具体细节已在上一期中详细介绍过了,就不过多赘述了。
$ tree -L 1
.
|-- tag_test
|-- tag_test.sh
`-- nohup.out
如果对每一步做了什么感兴趣,可以单独运行查看,tag_test.sh 里面是:
$ cat tag_test.sh
celescope tag sample --outdir .//tag_test/00.sample --sample tag_test --assay tag --thread 4 --chemistry auto --fq1 /mnt/sdd/singleron_training_class/resources/celescope_test/tag/fastqs/tag_1.fq.gz
celescope tag barcode --outdir .//tag_test/01.barcode --sample tag_test --assay tag --thread 4 --chemistry auto --lowNum 2 --fq1 /mnt/sdd/singleron_training_class/resources/celescope_test/tag/fastqs/tag_1.fq.gz --fq2 /mnt/sdd/singleron_training_class/resources/celescope_test/tag/fastqs/tag_2.fq.gz
celescope tag cutadapt --outdir .//tag_test/02.cutadapt --sample tag_test --assay tag --thread 4 --minimum_length 20 --nextseq_trim 20 --overlap 10 --insert 150 --fq .//tag_test/01.barcode/tag_test_2.fq
celescope tag mapping_tag --outdir .//tag_test/03.mapping_tag --sample tag_test --assay tag --thread 4 --fq_pattern L25C45 --barcode_fasta /mnt/sdd/singleron_training_class/resources/celescope_test/tag/smk_barcode.fa --fq .//tag_test/02.cutadapt/tag_test_clean_2.fq
celescope tag count_tag --outdir .//tag_test/04.count_tag --sample tag_test --assay tag --thread 4 --UMI_min auto --dim 1 --SNR_min auto --coefficient 0.1 --match_dir /mnt/sdd/singleron_training_class/resources/celescope_test_resort/rna_test_resorts/shell/rna_test/ --read_count_file .//tag_test/03.mapping_tag/tag_test_read_count.tsv
celescope tag analysis_tag --outdir .//tag_test/05.analysis_tag --sample tag_test --assay tag --thread 4 --match_dir /mnt/sdd/singleron_training_class/resources/celescope_test_resort/rna_test_resorts/shell/rna_test/ --tsne_tag_file .//tag_test/04.count_tag/tag_test_tsne_tag.tsv
celescope tag split_tag --outdir .//tag_test/06.split_tag --sample tag_test --assay tag --thread 4 --split_matrix --match_dir /mnt/sdd/singleron_training_class/resources/celescope_test_resort/rna_test_resorts/shell/rna_test/ --umi_tag_file .//tag_test/04.count_tag/tag_test_umi_tag.tsv
4、结果目录
运行完成后,可以看一下结果文件,其目录如下:
$ tree
.
|-- 00.sample
| `-- stat.txt
|-- 01.barcode
| |-- stat.txt
| `-- tag_test_2.fq
|-- 02.cutadapt
| |-- cutadapt.log
| |-- stat.txt
| `-- tag_test_clean_2.fq
|-- 03.mapping_tag
| |-- stat.txt
| `-- tag_test_read_count.tsv
|-- 04.count_tag
| |-- stat.txt
| |-- tag_test_cluster_count.tsv
| |-- tag_test_cluster_plot.pdf
| |-- tag_test_tsne_tag.tsv
| `-- tag_test_umi_tag.tsv
|-- 05.analysis_tag
| `-- stat.txt
|-- 06.split_tag
| |-- matrix
| | |-- SMK0_matrix_10X
| | | |-- barcodes.tsv
| | | |-- genes.tsv
| | | `-- matrix.mtx
| | |-- SMK3_matrix_10X
| | | |-- barcodes.tsv
| | | |-- genes.tsv
| | | `-- matrix.mtx
| | `-- Undetermined_matrix_10X
| | |-- barcodes.tsv
| | |-- genes.tsv
| | `-- matrix.mtx
| `-- stat.txt
`-- tag_test_report.html
当运行完结束,就可以得到一个单细胞多样同测数据分析的网页报告。
质控报告的样本和软件的基本信息 数据质控信息 样本标签比对信息 细胞按标签拆分后的统计信息 样本标签拆分后的细胞基因表达矩阵
附录1:结果文件和下游文件提取
下游文件提取 04.count_tag
细胞按标签分群后的统计信息,包括 tag 对应的 tSNE 降维图等06.split_tag
下有按样本标签拆分好的细胞基因表达矩阵,SMK0 和 SMK3 是样本标签序列的编号,Undetermined 是未被标签标记的细胞表达矩阵tag_test_repot.html
标准报告的 html 文件
好啦,以上就是一个完整的新格元CLindex™单细胞多样同测试剂盒分析流程,如果您这边用的免疫受体多样同测,也可以使用mul_tag进行分析,基本流程是类似的。
- THE END -