其他
基础006 宏基因组入门理论以及分析环境的部署
一、宏基因组核心思想
鉴定菌群组成
鉴定菌群内基因组成
鉴定功能基因组成
菌群之间的关系
菌群和宿主之间的关系
二、宏基因组的实验思路及流程
参考文献:Shotgun metagenomics, from sampling to analysis
实验设计、取样测序
数据质控(宿主序列过滤)
序列分析
reads组装成contig、scaffold
组装结果评估
组装结果基因注释
不比对估计基因丰度
比对估计基因丰度
Contig分箱
分箱结果评估
分箱结果可视化
4. 深入数据挖掘分析
5. 实验验证
三、宏基因组生信分析环境部署
测序数据过滤的软件:
检测数据质量 Fastqc
合并检测报告 MultiQC
过滤接头、低质量序列 Trimmoatic
过滤高覆盖度低丰度的kmer khmer
参考文献:《k-mer 如何影响宏基因组组装 ?》##安装方式## conda install khmer=2.1.2
序列组装的软件:
==Megahit、 Metaspades==,Minia, Meraga, Ray Meta15,Velour##安装方式## conda install megahit=1.1.3 conda install spades=3.12.0
组装结果评估软件:
Sourmash##安装方式## conda install sourmash=2.0.0a8
组装结果基因注释的软件:
Prokka、Prodigal##安装方式## conda install prokka=1.13 conda install prodigal=2.6.3
不比对估计基因丰度的软件:
conda install salmon=0.7.2
比对估计基因丰度的软件:
bowtie2、samtools、bedtools##安装方式## conda install bowtie2=2.3.4.1 conda install bedtools=2.25.0 conda install samtools=1.3.1
组装结果分箱的软件包括:
基于contig分箱:==Maxbin、MetaBAT==、MetaWatt、CONCOCT、MyCC##安装方式## curl https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz tar xzvf MaxBin-2.2.2.tar.gz cd MaxBin-2.2.2/src make 添加环境变量 curl https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz tar xvf metabatv0.32.4.tar.gz 添加环境变量
分箱后评估的软件:
checkm##安装方式## conda create -n checkm checkm=1.0.11
分箱后可视化软件:
vizbin##安装方式## windows下在浏览器中输入 https://github.com/claczny/VizBin/blob/master/VizBin-dist.jar?raw=true
-估计物种丰度的软件
Metaphlan、Karken##安装方式## Metaphlan wget https://bitbucket.org/biobakery/metaphlan2/get/default.zip tar xzvf biobakery-metaphlan2-<versioned>.tar.gz cd biobakery-metaphlan2-<versioned>/ 添加环境变量 Karken conda create -n kraken=1.0 karken db 下载 wget -c https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
组装和分箱结果的可视化:Anvio
##安装方式## conda create -n anvio anvio=4.0.0
需要的数据库
##eggnog对应的细菌数据库下载##
download_eggnog_data.py bact
##silva原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)##
axel https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz
##nr非冗余数据库##
##结合diamond进行nr库比对##
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz.md5
##https://github.com/bbuchfink/diamond
##diamond makedb --in nr.faa -d nr
##MEGAN注释文件##
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/prot_acc2tax-Mar2018X1.abin.zip
wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/SSURef_NR99_128_tax_silva_to_NCBI_synonyms.map.gz
##kaiju物种注释文件##
##Representative genomes from proGenomes
makeDB.sh -p -v
##Non-redundant protein database nr
makeDB.sh -n
##karken注释文件##
kraken2-build --standard --threads 24 --db kraken