要来杯RNA鸡尾酒吗？

原创 2017-09-08 徐洲更 生信媛

前段时间，估计2个月之前了吧，Nature Commnication 上发了一篇史上最强RNA-Seq数据分析测评文章，本来一直想介绍一下的，但是尴尬的是实验室一直没来RNA-Seq数据让我分析，所以就一直没写文章提供的”RNACocktail”，现在终于能够写一下如何布置RNACocktail的工作环境了。

官方地址：【https://bioinform.github.io/rnacocktail/】

如果你懂docker，并且有管理员权限，那你可以尝试他们提供的docker image, 也就是docker pull marghoob/rnacocktail.

但这里，我们采用的是conda进行软件管理，为了保证环境的一致性和稳定性，我重新建立一个虚拟环境，国内用户可以需要添加清华镜像源提高下载速度（后面提到的配置文件里设置了清华镜像源）。

按照往常，我可能要把每一行下载的代码都要罗列出来才行，但是conda install有一个选项是-file, 通过已有的环境设置参数文件，一步搞定。我的配置文件放在我的GitHub上，下载后用conda install --file fileName.txt进行安装。

注意，RNACocktail是大杂烩的体系，下面不同步骤及其对应的主要软件

比对，align, HISAT2
转录本重建，reconstruct, StringTie
基因定量，quantify, Salmon-SMEM
差异表达，diff, DESeq2
短读长序列从头组装，denovo, Oases
长读长序列矫正，long_correct， loRDEC
长读长序列比对，long_align， STARlong
长读长序列转录本重建，long_reconstruct，IDP
长读长序列转录融合检测，long_fusion, IDP-fusion
变异位点识别，variant，GATK
RNA编辑检测，editing， GIREMI
RNA融合检测，fusion， FusionCatcher

并且，最后以上步骤最后都加入了all豪华套餐。
那么问题来了，我目前不需要三代测序，也不需要做RNA edit 和 fusion的分析，主要工作就是基因定量和差异表达分析，我不需要安装所有的软件。

安装方法：

我提供的requirement.txt文件安装的软件是RNACocktail流程的中配版本，而且我以身试坑，能够运行。大家可以根据需要，在此基础上添加不同口味的软件。

PS：我的requirement.txt文件放在了我的github上，阅读原文直达。

# 方法1，自定义环境名
conda env create -n rnacocktial(名字随意) -f=requiremment.txt
# 方法2， 指定安装路径
crate env create -p $HOME/software/rnacocktail（路径自选） -f=requiremment.txt

如下是我将服务器导出环境配置文件，在我本地电脑上运行的示例图。

最后需要自己安装作者放在GitHub上最新版本的RNACocktial

source activate rnacocktail
pip install https://github.com/bioinform/RNACocktail/archive/v0.2.1.tar.gz

如果不需要可以一键删除,

conda env remove -n rnacocktial

PS：我的requirement.txt文件放在了我的github上，阅读原文直达。

定量流程测试

由于安装的软件版本和官方的未必一样，需要先用quantify这一步探探雷。官方给的推荐命令如下：

run_rnacocktail.py quantify 
    --quantifier_idx salmon_fmd_idx  # 使用salmon index -t reference.fa -i salmon_index_basename --type fmd 构建
    --1 seq_1.fq.gz --2 seq_2.fq.gz #双端测序
    --libtype IU  # 无链特异性，双端
    --salmon_k 19 # salmon教程75bp以上推荐31
    --outdir out # 
    --workdir work  
    --salmon /path/to/salmon #salmon所在位置
    --threads 10 #线程数
    --sample A #表示样本A
    --unzip # 解压

之前写过是时候来一波RNA-Seq差异表达分析实操了用的就是salmon,刚好能派上用场。
下载（拟南芥cDNA)序列，也就是转录组数据库，建立索引

# downlaod data from ensemblgenomes
curl ftp://ftp.ensemblgenomes.org/pub/plants/release-28/fasta/arabidopsis_thaliana/cdna/Arabidopsis_thaliana.TAIR10.28.cdna.all.fa.gz -o athal.fa.gz
# build quasi-mapping-based index
salmon index -t athal.fa.gz -i Athaliana --type fmd

使用run_rancocktail对样本定量

for fn in ERR1698{194..209};ERR1698{194..209};
do
    samp=`basename ${fn}`
    echo "Processin sample ${sampe}"
    run_rnacocktail.py quantify \
    --quantifier_idx /public1/wangjw/database/TAIR10/Athaliana/\
    --1 ${samp}_1.fastq.gz \
    --2 ${samp}_2.fastq.gz \
    --libtype IU  \
    --salmon_k 31\
    --workdir data \
    --salmon $PATH/miniconda3/envs/rnacocktail/bin/salmon \
    --threads 10 \
    --sample ${sampe} \
    --unzip

最后结果会存放在 data/salmon-smem下（截图是目前分析的数据），说明配置没有问题。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…