宏基因组实战9. 组装assembly和分箱bin结果可视化—Anvi'o
前情提要
如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章
注:之前分享百度云链接已经失效,大家所需的文件可以从原文链接或尝试翻墙下载。
使用Anvi’o工具箱分析宏基因组
https://2017-cicese-metagenomics.readthedocs.io/en/latest/anvio.html
我们将使用Anvi'o可视化组装结果。Anvi'o是一款非常强大,且可扩展的工具箱,主要用于泛基因组分析,也同样适用于宏基因组分析。这个课题组同时每年还会开办一系列精彩的在线教程,就包括宏基因组分析。同时他们还定期举办线下培训班介绍此软件的使用。
今天我们将此软件应用于本教程的宏基因组数据上。
本教程的主要目标:
安装anvi’o
熟悉anvi’o的工作流程
使用anvi’o可视化组装结果
熟悉anvi’o工作界面
使用anvi’o对分箱结果进行精选和可视化
安装anvi’o及相关程序
使用 Anaconda安装相关程序。如果你安装过conda请跳过。
wd=~/test/metagenome17/
cd $wd
wget https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh
bash Anaconda3-4.4.0-Linux-x86_64.sh
# 当访问是否添加环境变量 `$PATH` 至 `.bashrc`,你需要同意输入 yes
source ~/.bashrc
以后可以使用conda安装相关程序,这可以提高安装成功的概率,并解决大部分版本依赖关系,并创建虚拟环境不影响系统的其它软件版本正常使用。
接下来创建anvio工作虚拟环境
conda create -n anvio232 -c bioconda -c conda-forge gsl anvio=2.3.2
source activate anvio232
# 想要退出工作环境可执行,目前不要执行
source deactivate anvio232
Anvi’o安装成功后,需要再次检查是否正常工作。运行程序自带测试数据
anvi-self-test --suite mini
此程序运行会产生图形界面环境,使用浏览器访问电脑IP:8080 即可
安装其它使用到的软件
wget https://downloads.sourceforge.net/project/bowtie-bio/bowtie2/2.3.2/bowtie2-2.3.2-linux-x86_64.zip
unzip bowtie2-2.3.2-linux-x86_64.zip
echo 'export PATH=~/test/metagenome17/bowtie2-2.3.2:$PATH' >> ~/.bashrc
source ~/.bashrc
sudo apt-get -y install samtools
软件全部完成,开始工作。
生成Anvi’o格式
Anvi’o输入文件需要原始数据和拼接结果
mkdir $wd/anvio-work
cd $wd/anvio-work
# 下载,无法连接请翻墙
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948.abundtrim.subset.pe.fq.gz
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/subset_assembly.fa.gz
# 解压
for file in *gz
do
gunzip $file
done
转换格式
anvi-script-reformat-fasta subset_assembly.fa -o anvio-contigs.fa --min-len 2000 --simplify-names --report name_conversions.txt
结果报告显示如下:
Input ...............: subset_assembly.fa
Output ..............: anvio-contigs.fa
Minimum length ......: 2,000
Total num contigs ...: 9,276
Total num nucleotides: 12,786,925
Contigs removed .....: 7481 (80.65% of all)
Nucleotides removed .: 4054479 (31.71% of all)
Deflines simplified .: True
看一下文件,与之前发生了什么变化吗?主要是短contig被移除,为了便于展示。
bowtie2序列比对
bowtie2比对序列至拼接结果
source deactivate anvio232
# 建索引
bowtie2-build anvio-contigs.fa anvio-contigs
# 循环比对每个文件
for file in *fq
do
~/test/metagenome17/bowtie2-2.3.2/bowtie2 --threads 8 -x anvio-contigs --interleaved $file -S ${file/.fq/}.sam
samtools view -U 4 -bS ${file/.fq/}.sam > ${file/.fq/}.bam
done
source activate anvio232
# 转换bam为anvi格式
for file in *.bam
do
anvi-init-bam ${file} -o ${file/.bam/}.anvio.bam
done
产生叠连群contig数据库
产生带有注释信息的contig数据库,可以包括物种、功能等。需要做以下三件事:
1) 将大于20kb的contig分割统计
2) 使用Prodigal鉴定ORF,并估计单拷贝基因含量 (使用hmmer比对指定数据库 bacteria和archaea)
3) 计算kmer频率
产生数据库,预测ORF
anvi-gen-contigs-database -f anvio-contigs.fa -o anvio-contigs.db
hmm搜索和鉴定单拷贝基因
anvi-run-hmms -c anvio-contigs.db --num-threads 28
添加reads覆盖度信息,多线程
for file in *.anvio.bam
do
anvi-profile -i $file -c anvio-contigs.db -T 28
done
CONCOCT分箱并生成anvi可视化文件
anvi-merge *ANVIO_PROFILE/PROFILE.db -o MERGED-SAMPLES -c anvio-contigs.db --enforce-hierarchical-clustering
展示可视化结果
anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db
筛选和筛选bins
统计bin结果
anvi-summarize -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -o SAMPLES-SUMMARY -C CONCOCT
查看统计结果,在SAMPLES-SUMMARY
目录中有网页报告
网页展示结果
anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -C CONCOCT
# Config Error: HMM's were not run for this contigs database :/
人为挑选bins前,需要备份结果
cp -avr SAMPLES-SUMMARY/ SAMPLES-SUMMARY-ORIGININAL/
人为挑选bin,从bin4开始
anvi-refine -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -b Bin_4 -C CONCOCT
在网页中与结果互动吧!
致谢 Meren 为本教程提供材料!
猜你喜欢
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”