CeleScope 教程 || 软件安装
🍳 恭喜!当您打开这个文档,说明您已经获得单细胞数据,开启了单细胞数据分析之旅。在您正式使用celescope分析新格元单细胞数据之前,我们希望向您介绍celescope软件的一些基本过程。您可以快速阅读文档,并在您的服务器上完成celescope的安装。
CeleScope是一款由新格元生物科技有限公司自主开发的,用于处理新格元单细胞系列产品测序数据的开源生信软件。可从二代测序下机的原始fastq数据开始,经过细胞标签提取、质控与校正,参考基因组比对,完成基因定量,最终得到质控报告和表达矩阵,以用于单细胞下游分析。
随着一系列创新性单细胞试剂盒的推出,CeleScope的分析功能也越来越丰富。截止到版本v1.7.2,已经集成单细胞转录组、免疫组库、转录动态、多样同测、单细胞靶向测序等多种分析流程。集成的分析流程是与新格元新产品推出节奏相匹配,先来看一下2021年新格元上市新产品:
CeleScope作为一个单细胞多组学分析工具箱随之落成:
下面让我们跟着小编一起安装CeleScope,这里我们以v1.7.2为例。
CeleScope 配置要求
CeleScope 硬件需求:Linux服务器运行内存推荐64G,最小内存32G, 硬盘空间建议大于1TB. CeleScope 环境:conda (用于安装软件和环境管理),git (克隆 CeleScope 源代码). 在输入命令前先了解输出结果,规范目录管理并做好记录. 在安装完软件之后先用DEMO数据测试跑一下rna 流程,确保依赖的环境均配置好
CeleScope 测试数据与脚本
软件仓库:https://github.com/singleron-RD/CeleScope DEMO数据:https://github.com/singleron-RD/celescope_test_data 测试脚本:https://github.com/singleron-RD/celescope_test_script
同时,CeleScope也在pip和gitee上有托管:
pip :https://pypi.org/project/celescope/ gitee :https://gitee.com/singleron-rd/celescope
CeleScope 环境配置
1. 从Github上克隆CeleScope仓库
git clone https://github.com/singleron-RD/CeleScope.git
clone完成之后,看一下我们CeleScope源码结构:
cd CeleScope
tree -L 1
.
|-- Dockerfile
|-- LICENSE
|-- MANIFEST.in
|-- README.md # 安装文档,安装时需要读的文档
|-- celescope
|-- celescope.yml
|-- conda_pkgs.txt
|-- data
|-- docs # 软件文档,在使用过程中,需要经常阅读的文件
|-- methods
|-- requirements.txt
|-- scripts
|-- setup.py
|-- tests
`-- wdl
2. 用conda 创建CeleScope环境
# -n 后面是环境的名称,您可以取其他喜欢的名字
conda create -n celescope -y --file conda_pkgs.txt # 最后这个文件里面是环境需要的软件
# 注意python和star版本
如果嫌conda太慢可以用mamba来提高速度,mamba也可以用来创建conda环境。
conda install mamba
mamba create -n celescope -y --file conda_pkgs.txt
3. 安装 celescope
在用 pip install celescope
安装之前,请确认已经激活刚才创建的CeleScope的环境.
conda activate celescope
pip install celescope
如果这里的pip install celescope
过程比较慢,也可以加上对应的镜像:
# 在中国可以给pip加上镜像来提速
which pip # check pip version and environment
pip install celescope --default-timeout=100 -i https://pypi.tuna.tsinghua.edu.cn/simple # You can try other mirrors
4.检查安装版本
软件安装完成之后,可以检查一下:
which celescope
celescope --help
可以看到帮助信息:
usage: celescope [-h] [-v]
{rna,vdj,tag,dynaseq,snp,capture_virus,fusion,hla,capture_rna,citeseq,tcr_fl}
...
CeleScope
positional arguments:
{rna,vdj,tag,dynaseq,snp,capture_virus,fusion,hla,capture_rna,citeseq,tcr_fl}
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
查看安装的celescope的本版
celescope -v
# 1.7.2 我们使用的版本
5. 不同组学分析管线
CeleScope可以分析新格元多种单细胞试剂盒产生的数据,在命令行上的区分主要是 multi_{assay}
,其中assays可以是如下试剂盒之一:
rna
用于分析新格元 GEXSCOPE® 单细胞转录组试剂盒建库测序下机的单细胞(核)转录组数据.vdj
用于分析新格元 GEXSCOPE® 单细胞免疫组试剂盒建库测序下机的单细胞免疫组数据.tag
用于分析单细胞多样同测试剂盒CLindexTM 产生的数据,可以分析单细胞转录组混样数据、单细胞免疫组混样数据.dynaseq
用于分析新格元 DynaSCOPETM转录动态试剂盒建库测序的下机数据.snp
用于分析新格元FocuSCOPETM单细胞肺癌靶向试剂盒建库测序的下机数据.capture_virus
用于分析新格元 FocuSCOPETM 单细胞EBV病毒靶向试剂盒建库测序的下机数据。
运行 multi_{assay} -h
可以查看响应的帮助文档
Note:multi_rna
可以分析单细胞转录组和单细胞核转录组测序数据,如果使用了单核转录组测序(snRNA),需要添加 --gtf_type gene
来比对到内含子区域 (intronic regions) 。
multi_rna -h
usage: rna multi-samples [-h] --mapfile MAPFILE [--mod {sjm,shell}]
[--queue QUEUE] [--rm_files] [--steps_run STEPS_RUN]
[--outdir OUTDIR] [--thread THREAD] [--debug]
[--chemistry {scopeV2.0.0,scopeV2.0.1,scopeV2.1.0,scopeV2.1.1,scopeV2.2.1,scopeV3.0.1,customized,auto,scopeV1}]
[--pattern PATTERN] [--whitelist WHITELIST]
[--linker LINKER] [--lowQual LOWQUAL]
[--lowNum LOWNUM] [--nopolyT] [--noLinker]
[--allowNoPolyT] [--allowNoLinker] [--output_R1]
[--gzip] [--adapter_fasta ADAPTER_FASTA]
[--minimum_length MINIMUM_LENGTH]
[--nextseq_trim NEXTSEQ_TRIM] [--overlap OVERLAP]
[--insert INSERT]
[--outFilterMatchNmin OUTFILTERMATCHNMIN]
[--out_unmapped] [--STAR_param STAR_PARAM]
[--outFilterMultimapNmax OUTFILTERMULTIMAPNMAX]
[--starMem STARMEM] [--gtf_type GTF_TYPE]
[--featureCounts_param FEATURECOUNTS_PARAM]
[--expected_cell_num EXPECTED_CELL_NUM]
[--cell_calling_method {auto,cellranger3}]
--genomeDir GENOMEDIR [--save_rds]
[--type_marker_tsv TYPE_MARKER_TSV]
下次运行celescope之前只需要用conda activate celescope
来激活软件环境就可以使用celescope来分析新格元单细胞数据啦。
下一讲,我们来以单细胞转录组为例来详细讲一下celescope的运行逻辑和结果,期待ing~