查看原文
其他

盘一盘 IGC 人肠道参考基因集

鲍志炜 生信菜鸟团 2022-07-05

当我们需要对多个宏基因组样品进行比较分析的时候,若样本量比较大且计算环境允许的情况下,我们可以先根据每个样品预测得到的基因构建一个去冗余的基因集。过程大概就是先用 MetaGeneMark 等软件来进行基因预测识别宏基因组中的基因编码序列,再用 cd-hit 进行去冗余(相似度大于90%且覆盖度大于95% ),得到一个去冗余的基因集,并以这个参考基因集来进行下游分析,这个过程可以参考之前给大家介绍的 MOCAT2 流程。最后考虑到由于测序数据有限会导致一些低丰度微生物不能被检测到,所以一般也会通过整合已经公布的基因集(比如 IGC),来优化自身数据分析得到的基因集合。另一方面,若是样本量比较少,我们也可以直接使用现有的非冗余参考基因集来进行基因功能注释,定量,进行下游分析。今天就和大家来聊一聊 IGC 人肠道参考基因集的前生今世及其简单的使用方法。

人肠道参考基因集

2010年,人体肠道菌群宏基因组参考基因集的构建工作发表于 Nature 杂志。该研究从124个欧洲人肠道菌群中,一共得到了 14,048,045 个ORF,鉴定到 3.3M 个非冗余的人体肠道宏基因组参考基因。该基因集包含了该人群队列中绝大多数已知的人体肠道微生物基因和大量未知的微生物基因。根据这个基因集预估人肠道中存在约 1000 到 1150 种细菌,平均每个体内约含有 160 种优势菌种。五年后(2014),在新发布的宏基因组测序数据的基础上,研究人员根据来自三个大洲,共1267个人体肠道微生物样本,结合 511 个肠道相关的原核生物基因组信息,构建了一个包含约 9.9M 个基因的高质量人类肠道微生物基因集数据库(Integrated genecatalog, IGC)。

2016年,人们对已有的 9.9M IGC基因集进行了进一步更新。他们通过对 250 名英国成年双胞胎进行粪便菌群宏基因组测序,鉴定到约 5.9M 个非冗余基因,与 9.9M IGC 基因集整合后建立了综合性的肠道菌群参考基因集,发现约 11.4M 个基因。非冗余参考基因集的构建和完善也为大规模宏基因组研究的开展奠定了基础。

接下来我将以 IGC(9.9M) 为例实现一个宏基因组数据的快速注释流程。

  • Human Gut (9.9M):https://db.cngb.org/microbiome/genecatalog/genecatalog_human/

  • Human Gut (11M):https://db.cngb.org/microbiome/genecatalog/genecatalog/?gene_name=Human%20Gut%20(11M)

IGC(9.9M) 的使用 | 宏基因组数据快速注释流程

一些准备

打开链接,下载 IGC 非冗余基因集的核酸序列数据和基因注释表:

使用 bowtie2 对非冗余基因集建立索引:

bowtie2-build --threads 50 IGC.fa IGC

看一下IGC.annotation_OF.summary.gz注释文件:

$ zcat IGC.annotation_OF.summary.gz | head -n1
1       T2D-6A_GL0083352        88230   Complete        CHN     unknown unknown K01824  COG5184 0.224151539068666 0.236448598130841        Lipid Metabolism        Cell cycle control, cell division, chromosome partitioning;Cytoskeleton    EUR;CHN;USA
  • Gene ID:基因的 ID

  • Gene Name:基因的名称

  • Gene Length:核酸序列的长度

  • Gene Completeness Status:根据基因预测软件注释的基因完整程度

  • Cohort Origin:贡献该基因的人群队列

  • Taxonomic Annotation(Phylum Level):该基因的门水平注释

  • Taxonomic Annotation(Genus Level):该基因的属水平注释

  • KEGG Annotation:该基因的 KO 注释

  • eggNOG Annotation:该基因的 eggNOG 注释

  • Sample Occurence Frequency:该基因在样本中的发现频率

  • Individual Occurence Frequency:该基因在个体中的发现频率

  • KEGG Functional Categories:KEGG 功能类别注释

  • eggNOG Functional Categories:eggNOG 功能类别注释

  • Cohort Assembled:组装该基因的人群队列

流程思路

首先使用 Kneaddata 软件进行质控并去除宿主基因组,得到过滤的fq文件,接着用 bowtie2 将fq与 IGC 参考基因组进行比对,使用--sensitive --end-to-end参数为每条reads进行基因注释,.gene文件包括注释的基因名及其个数,.list文件包括注释的基因名,.txt文件包括这些基因的注释信息,countKegg.py 脚本用于计算映射到相同 KEGG ID 的所有基因的reads,并生成 KEGG ID 的丰度列表。

#!/usr/bin/bash
fq1=$1 #test_1.fq
fq2=$2 #test_2.fq
sample=$3
fqname=`basename $fq1 .fq`

# reference
human_reference=/data/Public/bowtie2-hg38-index/hg38
IGC_reference=/data1/zwbao/shared/IGC/IGC

kneaddata -i $fq1 -i $fq2 -o kneaddata_out/ -v -t 50 --remove-intermediate-output \
--trimmomatic-options "SLIDINGWINDOW:4:20 MINLEN:50" \
--bowtie2-options "--very-sensitive --dovetail" \
-db $human_reference

mkdir ./kneaddata_out/contam_seq
mv ./kneaddata_out/*_contam_*fastq ./kneaddata_out/contam_seq

bowtie2 --sensitive --end-to-end -x $IGC_reference -1 kneaddata_out/${fqname}_kneaddata_paired_1.fastq -2 kneaddata_out/${fqname}_kneaddata_paired_2.fastq -p 50 -S ${sample}.sam

mkdir annotation

cut -f 3 ${sample}.sam | sort - | uniq -c - | sort -b -nr -k 1,1 - | grep -v ":" - > ./annotation/${sample}.gene

sed -i 's/^ *//' ./annotation/${sample}.gene;cut -f 2 -d " " ./annotation/${sample}.gene > ./annotation/${sample}.list

grep -Fw -f ./annotation/${sample}.list $IGC_reference/IGC.annotation_OF.summary > ./annotation/${sample}.anno.txt

# py27
# git clone https://github.com/BCIL/MGS-Fast.git
python /data1/zwbao/biosoft/MGS-Fast/countKegg.py ./annotation/${sample}.gene ./annotation/${sample}.kegg.count

Reference

  • A Human Gut Microbial Gene Catalogue Established by Metagenomic Sequencing[J]. Nature, 2010, 464(7285):59-65.

  • An integrated catalog of reference genes in the human gut microbiome[J]. Nature Biotechnology, 2014, 32(8):834-841.

  • Shotgun Metagenomics of 250 Adult Twins Reveals Genetic and Environmental Impacts on the Gut Microbiome[J]. Cell Systems, 2016, 3(6):572-584.e3.

  • MGS-Fast: Metagenomic shotgun data fast annotation using microbial gene catalogs[J]. GigaScience, 2019, 8(4):giz020.

  • 计量宏基因组学数据分析的方法及进展

  • 深圳国家基因库 | 超大规模宏基因组学研究思路

猜你喜欢

Anvi'o 宏基因组分析流程快速指南

宏基因组分析流程 MOCAT2 教程

宏基因组笔记 | 统计学方法

phyloseq | 用 R 分析微生物组数据及可视化(一)

phyloseq | 用 R 分析微生物组数据及可视化(二)

phyloseq | 用 R 分析微生物组数据及可视化(三)

宏基因组笔记 | 基础知识

通过 Python API 使用 QIIME 2

生信基础知识100讲

生信菜鸟团-专题学习目录(5)

生信菜鸟团-专题学习目录(6)

生信菜鸟团-专题学习目录(7)

还有更多文章,请移步公众号阅读

▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存