查看原文
其他

CeleScope 教程 || 软件安装


🍳 恭喜!当您打开这个文档,说明您已经获得单细胞数据,开启了单细胞数据分析之旅。在您正式使用celescope分析新格元单细胞数据之前,我们希望向您介绍celescope软件的一些基本过程。您可以快速阅读文档,并在您的服务器上完成celescope的安装。

CeleScope是一款由新格元生物科技有限公司自主开发的,用于处理新格元单细胞系列产品测序数据的开源生信软件。可从二代测序下机的原始fastq数据开始,经过细胞标签提取、质控与校正,参考基因组比对,完成基因定量,最终得到质控报告和表达矩阵,以用于单细胞下游分析。

随着一系列创新性单细胞试剂盒的推出,CeleScope的分析功能也越来越丰富。截止到版本v1.7.2,已经集成单细胞转录组、免疫组库、转录动态、多样同测、单细胞靶向测序等多种分析流程。集成的分析流程是与新格元新产品推出节奏相匹配,先来看一下2021年新格元上市新产品:

CeleScope作为一个单细胞多组学分析工具箱随之落成:

下面让我们跟着小编一起安装CeleScope,这里我们以v1.7.2为例。

CeleScope 配置要求

  • CeleScope 硬件需求:Linux服务器运行内存推荐64G,最小内存32G, 硬盘空间建议大于1TB.
  • CeleScope 环境:conda (用于安装软件和环境管理),git (克隆 CeleScope 源代码).
  • 在输入命令前先了解输出结果,规范目录管理并做好记录.
  • 在安装完软件之后先用DEMO数据测试跑一下rna 流程,确保依赖的环境均配置好

CeleScope  测试数据与脚本

  • 软件仓库:https://github.com/singleron-RD/CeleScope
  • DEMO数据:https://github.com/singleron-RD/celescope_test_data
  • 测试脚本:https://github.com/singleron-RD/celescope_test_script

同时,CeleScope也在pip和gitee上有托管:

  • pip   :https://pypi.org/project/celescope/
  • gitee :https://gitee.com/singleron-rd/celescope

CeleScope 环境配置

1. 从Github上克隆CeleScope仓库

git clone https://github.com/singleron-RD/CeleScope.git

clone完成之后,看一下我们CeleScope源码结构:

cd CeleScope
tree  -L 1
.
|-- Dockerfile
|-- LICENSE
|-- MANIFEST.in
|-- README.md # 安装文档,安装时需要读的文档
|-- celescope
|-- celescope.yml
|-- conda_pkgs.txt
|-- data
|-- docs # 软件文档,在使用过程中,需要经常阅读的文件
|-- methods
|-- requirements.txt
|-- scripts
|-- setup.py
|-- tests
`-- wdl

2. 用conda 创建CeleScope环境

#  -n 后面是环境的名称,您可以取其他喜欢的名字
conda create -n celescope -y --file conda_pkgs.txt # 最后这个文件里面是环境需要的软件
# 注意python和star版本

如果嫌conda太慢可以用mamba来提高速度,mamba也可以用来创建conda环境。

conda install mamba
mamba create -n celescope -y --file conda_pkgs.txt

3. 安装 celescope

在用 pip install celescope 安装之前,请确认已经激活刚才创建的CeleScope的环境.

conda activate celescope
pip install celescope

如果这里的pip install celescope过程比较慢,也可以加上对应的镜像:

# 在中国可以给pip加上镜像来提速
which pip #  check pip version and environment 
pip install celescope   --default-timeout=100  -i https://pypi.tuna.tsinghua.edu.cn/simple   # You can try other mirrors 

4.检查安装版本

软件安装完成之后,可以检查一下:

which celescope 
celescope --help 

可以看到帮助信息:

usage: celescope [-h] [-v]
                 {rna,vdj,tag,dynaseq,snp,capture_virus,fusion,hla,capture_rna,citeseq,tcr_fl}
                 ...

CeleScope

positional arguments:
  {rna,vdj,tag,dynaseq,snp,capture_virus,fusion,hla,capture_rna,citeseq,tcr_fl}

optional arguments:
  -h, --help            show this help message and exit
  -v, --version         show program's version number and exit

查看安装的celescope的本版

celescope  -v 
# 1.7.2 我们使用的版本

5. 不同组学分析管线

CeleScope可以分析新格元多种单细胞试剂盒产生的数据,在命令行上的区分主要是 multi_{assay} ,其中assays可以是如下试剂盒之一:

  • rna 用于分析新格元 GEXSCOPE® 单细胞转录组试剂盒建库测序下机的单细胞(核)转录组数据.

  • vdj 用于分析新格元 GEXSCOPE® 单细胞免疫组试剂盒建库测序下机的单细胞免疫组数据.

  • tag 用于分析单细胞多样同测试剂盒CLindexTM 产生的数据,可以分析单细胞转录组混样数据、单细胞免疫组混样数据.

  • dynaseq 用于分析新格元 DynaSCOPETM转录动态试剂盒建库测序的下机数据.

  • snp 用于分析新格元FocuSCOPETM单细胞肺癌靶向试剂盒建库测序的下机数据.

  • capture_virus 用于分析新格元 FocuSCOPETM 单细胞EBV病毒靶向试剂盒建库测序的下机数据。

运行 multi_{assay} -h 可以查看响应的帮助文档

Note:multi_rna 可以分析单细胞转录组和单细胞核转录组测序数据,如果使用了单核转录组测序(snRNA),需要添加 --gtf_type gene 来比对到内含子区域 (intronic regions) 。

 multi_rna -h
usage: rna multi-samples [-h] --mapfile MAPFILE [--mod {sjm,shell}]
                         [--queue QUEUE] [--rm_files] [--steps_run STEPS_RUN]
                         [--outdir OUTDIR] [--thread THREAD] [--debug]
                         [--chemistry {scopeV2.0.0,scopeV2.0.1,scopeV2.1.0,scopeV2.1.1,scopeV2.2.1,scopeV3.0.1,customized,auto,scopeV1}]
                         [--pattern PATTERN] [--whitelist WHITELIST]
                         [--linker LINKER] [--lowQual LOWQUAL]
                         [--lowNum LOWNUM] [--nopolyT] [--noLinker]
                         [--allowNoPolyT] [--allowNoLinker] [--output_R1]
                         [--gzip] [--adapter_fasta ADAPTER_FASTA]
                         [--minimum_length MINIMUM_LENGTH]
                         [--nextseq_trim NEXTSEQ_TRIM] [--overlap OVERLAP]
                         [--insert INSERT]
                         [--outFilterMatchNmin OUTFILTERMATCHNMIN]
                         [--out_unmapped] [--STAR_param STAR_PARAM]
                         [--outFilterMultimapNmax OUTFILTERMULTIMAPNMAX]
                         [--starMem STARMEM] [--gtf_type GTF_TYPE]
                         [--featureCounts_param FEATURECOUNTS_PARAM]
                         [--expected_cell_num EXPECTED_CELL_NUM]
                         [--cell_calling_method {auto,cellranger3}]
                         --genomeDir GENOMEDIR [--save_rds]
                         [--type_marker_tsv TYPE_MARKER_TSV]

下次运行celescope之前只需要用conda activate celescope 来激活软件环境就可以使用celescope来分析新格元单细胞数据啦。

下一讲,我们来以单细胞转录组为例来详细讲一下celescope的运行逻辑和结果,期待ing~

- THE END -
往期推荐







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存