查看原文
其他

单细胞转录组10X数据处理视频课程上游流程代码

生信技能树 单细胞天地 2022-06-06

在华为云服务器可以重现这个分析流程,16核64G内存,不考虑数据下载环节,5天即可完成文章全部分析环节。

背景自学

最先在生信技能树有过一些教程:

我们技能树的学习者为这个项目专门在单细胞天地公众号有非常详细的教程:

本文数据

下面的数据及数据库存放在华为云,两个月内有效(到2019年8月31失效)

文章解读见:(2019年3月份)第12周(总第60周 )- 10个单细胞转录组数据探索免疫治疗机理 http://www.bio-info-trainee.com/4089.html

Patient 2586-4

  • 介绍:https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE117988

  • 存放在:/teach/paper/raw/P2586-4

  • 大小:31G(打包后P2586-4.tar.gz为28G)

Patient 9245-3

  • 介绍:https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE118056

  • 存放在:/teach/paper/raw/P9245-3

  • 大小: 129G(压缩打包108G)

配置cellranger软件及数据库

  • biosoft 存放软件

  • 准备cellranger 2.0.2软件=》分析文章数据

    • https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/2.0/

    • 压缩文件732M,解压后1.8G

  • 准备cellranger 3.0.2软件=》分析测试数据

    • https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/3.0/

    • 压缩文件955M,解压后2.2G

  • database 存放参考数据

  • 为cellranger 2.0准备

    • cd /teach/database/cranger2

    • wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-1.2.0.tar.gz

    • 11G大小,解压后17G

  • 为cellranger 3.0准备

    • cd /teach/database/cranger3

    • wget http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz

    • 11G大小,解压后17G

配置好的软件和数据库如下:

root@singlecell:/home/t1# ls /teach/database/cranger2/refdata-cellranger-GRCh38-1.2.0
README.BEFORE.MODIFYING  fasta  genes  pickle  reference.json  star  version
root@singlecell:/home/t1# ls /teach/biosoft/cellranger-2.0.2/cellranger
/teach/biosoft/cellranger-2.0.2/cellranger
root@singlecell:/home/t1# ls -lh /teach/biosoft/cellranger-2.0.2/cellranger
lrwxrwxrwx 1 t1 teach 34 Sep  8  2017 /teach/biosoft/cellranger-2.0.2/cellranger -> cellranger-cs/2.0.2/bin/cellranger

root@singlecell:/home/t1# ls -lh /teach/paper/raw/P2586-4
total 31G
-rwxr-xr-x 1 t1 teach  2.6G Jul 15 20:53 SRR7722937.sra
-rwxr-xr-x 1 t1 teach  417M Jul 15 21:12 SRR7722937_S1_L001_I1_001.fastq.gz
-rwxr-xr-x 1 t1 teach  889M Jul 15 20:11 SRR7722937_S1_L001_R1_001.fastq.gz
-rwxr-xr-x 1 t1 teach  2.4G Jul 15 20:45 SRR7722937_S1_L001_R2_001.fastq.gz
-rwxr-xr-x 1 t1 teach  3.7G Jul 15 21:05 SRR7722938.sra
-rwxr-xr-x 1 t1 teach  593M Jul 15 21:28 SRR7722938_S1_L001_I1_001.fastq.gz
-rwxr-xr-x 1 t1 teach  1.3G Jul 15 20:36 SRR7722938_S1_L001_R1_001.fastq.gz
-rwxr-xr-x 1 t1 teach  3.4G Jul 15 20:07 SRR7722938_S1_L001_R2_001.fastq.gz
-rwxr-xr-x 1 t1 teach  1.8G Jul 15 21:22 SRR7722939.sra

使用conda安装软件

# https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
# https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc 
## 安装好conda后需要设置镜像。
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes

conda create -n 10x
conda activate 10x
conda install -y -c bioconda   sra-tools

成功进入 10x 软件环境,就可以使用 prefetch和fastq-dump命令进行数据下载

下载sra文件

prefetch SRR7722942
# 自行补充成为批量脚本

转换成为fq文件

fastq-dump --gzip --split-files -A PBMC_Disc  SRR7722942.sra

需要修改名字 (这个非常重要,看PPT操作)

对10X的fq文件运行cellranger的counts流程

拿一个数据集做测试:

ref=/teach/database/cranger2/refdata-cellranger-GRCh38-1.2.0
cr=/teach/biosoft/cellranger-2.0.2/cellranger
id=SRR7722938
## 需要有3个符合规则的fq文件,下面的代码才能运行
$cr count --id=$id \
--transcriptome=$ref \
--fastqs=/teach/paper/raw/P2586-4 \
--sample=$id \
--nosecondary \
--localcores=15 \
--localmem=30

报告解读。

导入R使用seurat分析

看GitHub代码,https://github.com/jmzeng1314/scRNA_10X.git

见下期分解,如果你怕错过我们公众号内容,请根据下面教程进行置顶哦:

没看到通知?是不是五行缺星?

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存