查看原文
其他

基础006 宏基因组入门理论以及分析环境的部署

zhiwen 植物微生物组 2022-03-29

一、宏基因组核心思想

  1. 鉴定菌群组成

  2. 鉴定菌群内基因组成

  3. 鉴定功能基因组成

  4. 菌群之间的关系

  5. 菌群和宿主之间的关系

二、宏基因组的实验思路及流程


参考文献:Shotgun metagenomics, from sampling to analysis

  1. 实验设计、取样测序

  2. 数据质控(宿主序列过滤)

  3. 序列分析

  • reads组装成contig、scaffold

  • 组装结果评估

  • 组装结果基因注释

  • 不比对估计基因丰度

  • 比对估计基因丰度

  • Contig分箱

  • 分箱结果评估

  • 分箱结果可视化

  4. 深入数据挖掘分析

  5. 实验验证

三、宏基因组生信分析环境部署

  • 测序数据过滤的软件:
    检测数据质量 Fastqc
    合并检测报告 MultiQC
    过滤接头、低质量序列 Trimmoatic
    过滤高覆盖度低丰度的kmer khmer

    参考文献:《k-mer 如何影响宏基因组组装 ?》

    ##安装方式## conda install khmer=2.1.2
  • 序列组装的软件:
    ==Megahit、 Metaspades==,Minia, Meraga, Ray Meta15,Velour

    ##安装方式## conda install megahit=1.1.3 conda install spades=3.12.0
  • 组装结果评估软件:
    Sourmash

    ##安装方式## conda install sourmash=2.0.0a8
  • 组装结果基因注释的软件:
    Prokka、Prodigal

    ##安装方式## conda install prokka=1.13 conda install prodigal=2.6.3
  • 不比对估计基因丰度的软件:

    conda install salmon=0.7.2
  • 比对估计基因丰度的软件:
    bowtie2、samtools、bedtools

    ##安装方式## conda install bowtie2=2.3.4.1 conda install bedtools=2.25.0 conda install samtools=1.3.1
  • 组装结果分箱的软件包括:
    基于contig分箱:==Maxbin、MetaBAT==、MetaWatt、CONCOCT、MyCC

    ##安装方式## curl https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz tar xzvf MaxBin-2.2.2.tar.gz cd MaxBin-2.2.2/src make 添加环境变量 curl https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz tar xvf metabatv0.32.4.tar.gz 添加环境变量
  • 分箱后评估的软件:
    checkm

    ##安装方式## conda create -n checkm checkm=1.0.11

    分箱后可视化软件:
    vizbin

    ##安装方式## windows下在浏览器中输入 https://github.com/claczny/VizBin/blob/master/VizBin-dist.jar?raw=true

    -估计物种丰度的软件
    Metaphlan、Karken

    ##安装方式## Metaphlan wget https://bitbucket.org/biobakery/metaphlan2/get/default.zip tar xzvf biobakery-metaphlan2-<versioned>.tar.gz cd biobakery-metaphlan2-<versioned>/ 添加环境变量 Karken conda create -n kraken=1.0 karken db 下载 wget -c https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz

    组装和分箱结果的可视化:Anvio

    ##安装方式## conda create -n anvio anvio=4.0.0

    需要的数据库

##eggnog对应的细菌数据库下载## download_eggnog_data.py bact ##silva原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)## axel https://www.arb-silva.de/fileadmin/silva_databases/release_128/Exports/SILVA_128_SSURef_Nr99_tax_silva_trunc.fasta.gz ##nr非冗余数据库## ##结合diamond进行nr库比对## axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz axel ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz.md5 ##https://github.com/bbuchfink/diamond ##diamond makedb --in nr.faa -d nr ##MEGAN注释文件## wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/prot_acc2tax-Mar2018X1.abin.zip wget http://ab.inf.uni-tuebingen.de/data/software/megan6/download/SSURef_NR99_128_tax_silva_to_NCBI_synonyms.map.gz ##kaiju物种注释文件## ##Representative genomes from proGenomes makeDB.sh -p -v ##Non-redundant protein database nr makeDB.sh -n ##karken注释文件## kraken2-build --standard --threads 24 --db kraken

  • 您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存