查看原文
其他

宏基因组实战9. 组装assembly和分箱bin结果可视化—Anvi'o

2017-11-21 朱微金 宏基因组

前情提要

如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章

注:之前分享百度云链接已经失效,大家所需的文件可以从原文链接或尝试翻墙下载。

使用Anvi’o工具箱分析宏基因组

https://2017-cicese-metagenomics.readthedocs.io/en/latest/anvio.html

我们将使用Anvi'o可视化组装结果。Anvi'o是一款非常强大,且可扩展的工具箱,主要用于泛基因组分析,也同样适用于宏基因组分析。这个课题组同时每年还会开办一系列精彩的在线教程,就包括宏基因组分析。同时他们还定期举办线下培训班介绍此软件的使用。

今天我们将此软件应用于本教程的宏基因组数据上。

本教程的主要目标:

  • 安装anvi’o

  • 熟悉anvi’o的工作流程

  • 使用anvi’o可视化组装结果

  • 熟悉anvi’o工作界面

  • 使用anvi’o对分箱结果进行精选和可视化

安装anvi’o及相关程序

使用 Anaconda安装相关程序。如果你安装过conda请跳过。

wd=~/test/metagenome17/ cd $wd wget https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh bash Anaconda3-4.4.0-Linux-x86_64.sh # 当访问是否添加环境变量 `$PATH` 至 `.bashrc`,你需要同意输入 yes source ~/.bashrc

以后可以使用conda安装相关程序,这可以提高安装成功的概率,并解决大部分版本依赖关系,并创建虚拟环境不影响系统的其它软件版本正常使用。

接下来创建anvio工作虚拟环境

conda create -n anvio232 -c bioconda -c conda-forge gsl anvio=2.3.2 source activate anvio232 # 想要退出工作环境可执行,目前不要执行 source deactivate anvio232

Anvi’o安装成功后,需要再次检查是否正常工作。运行程序自带测试数据

anvi-self-test --suite mini

此程序运行会产生图形界面环境,使用浏览器访问电脑IP:8080 即可

安装其它使用到的软件

wget https://downloads.sourceforge.net/project/bowtie-bio/bowtie2/2.3.2/bowtie2-2.3.2-linux-x86_64.zip unzip bowtie2-2.3.2-linux-x86_64.zip echo 'export PATH=~/test/metagenome17/bowtie2-2.3.2:$PATH' >> ~/.bashrc source ~/.bashrc sudo apt-get -y install samtools

软件全部完成,开始工作。

生成Anvi’o格式

Anvi’o输入文件需要原始数据和拼接结果

mkdir $wd/anvio-work cd $wd/anvio-work # 下载,无法连接请翻墙 curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948.abundtrim.subset.pe.fq.gz curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/subset_assembly.fa.gz # 解压 for file in *gz    do    gunzip $file done

转换格式

anvi-script-reformat-fasta subset_assembly.fa -o anvio-contigs.fa --min-len 2000 --simplify-names --report name_conversions.txt

结果报告显示如下:

Input ...............: subset_assembly.fa Output ..............: anvio-contigs.fa Minimum length ......: 2,000 Total num contigs ...: 9,276 Total num nucleotides: 12,786,925 Contigs removed .....: 7481 (80.65% of all) Nucleotides removed .: 4054479 (31.71% of all) Deflines simplified .: True

看一下文件,与之前发生了什么变化吗?主要是短contig被移除,为了便于展示。

bowtie2序列比对

bowtie2比对序列至拼接结果

source deactivate anvio232 # 建索引 bowtie2-build anvio-contigs.fa anvio-contigs # 循环比对每个文件 for file in *fq do ~/test/metagenome17/bowtie2-2.3.2/bowtie2 --threads 8 -x anvio-contigs --interleaved $file -S ${file/.fq/}.sam samtools view -U 4 -bS ${file/.fq/}.sam > ${file/.fq/}.bam done source activate anvio232 # 转换bam为anvi格式 for file in *.bam do    anvi-init-bam ${file} -o ${file/.bam/}.anvio.bam done

产生叠连群contig数据库

产生带有注释信息的contig数据库,可以包括物种、功能等。需要做以下三件事:

1) 将大于20kb的contig分割统计
2) 使用Prodigal鉴定ORF,并估计单拷贝基因含量 (使用hmmer比对指定数据库 bacteria和archaea)
3) 计算kmer频率

产生数据库,预测ORF

anvi-gen-contigs-database -f anvio-contigs.fa -o anvio-contigs.db

hmm搜索和鉴定单拷贝基因

anvi-run-hmms -c anvio-contigs.db --num-threads 28

添加reads覆盖度信息,多线程

for file in *.anvio.bam do    anvi-profile -i $file -c anvio-contigs.db -T 28 done

CONCOCT分箱并生成anvi可视化文件

anvi-merge *ANVIO_PROFILE/PROFILE.db -o MERGED-SAMPLES -c anvio-contigs.db --enforce-hierarchical-clustering

展示可视化结果

anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db

筛选和筛选bins

统计bin结果

anvi-summarize -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -o SAMPLES-SUMMARY -C CONCOCT


查看统计结果,在SAMPLES-SUMMARY目录中有网页报告

网页展示结果

anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -C CONCOCT # Config Error: HMM's were not run for this contigs database :/

人为挑选bins前,需要备份结果

cp -avr SAMPLES-SUMMARY/ SAMPLES-SUMMARY-ORIGININAL/

人为挑选bin,从bin4开始

anvi-refine -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -b Bin_4 -C CONCOCT

在网页中与结果互动吧!

致谢 Meren 为本教程提供材料!

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存