查看原文
其他

数据库|CAZymes在线注释以及本地化全攻略

曾哥&Young 凌恩生物 2023-06-15
碳水化合物亦称糖类化合物,是自然界存在最多、分布最广的一类重要有机化合物,是一切生物体维持生命活动所需能量的主要来源。作用于各种糖复合物、寡糖和多糖等碳水化合物的酶类构成了地球上结构最多样的蛋白质集合。
碳水化合物活性酶数据库(CAZymeshttp://www.cazy.org/)是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数据库资源,其基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物活性酶类归入不同蛋白质家族。该数据库提供了碳化合物合成、代谢、转运等酶的分类和相关信息。

 

 

01

CAZy数据库概述

  • CAZy数据库目前包括如下六大类家族

Classify

分类

number

Glycoside Hydrolases

(GHs)

糖苷水解酶类

(GHs

755496

GlycosylTransferases

(GTs)

糖苷转移酶类

(GTs

644869

Polysaccharide Lyases

(PLs)

多糖裂解酶类

(PLs

23725

Carbohydrate Esterases

(CEs)

糖水化合物酯酶类

(CEs

77255

Auxiliary Activities

(AAs)

辅助模块酶类

(AAs

13880

Carbohydrate-Binding Modules

(CBMs)

碳水化合物结合模块

(CBMs

203729


  • CAZy数据库中目前已注释的基因组:

Type

number

Bacteria

15626

Viruses

405

Archaea

357

Eukaryota

271

 

数据库注释

dbCAN是一个用于注释碳水化合物活性相关酶的在线服务器和数据库,其基于保守结构域数据库(CDD)搜索和文献精选,为每个CAZymes家族明确定义了一个标签结构域并为此结构域构建隐马尔科夫模型(HMM)。其数据来源主包括CAZy数据库和CAT,并随着CAZy的更新而更新。dbCAN可以进行在线注释,也可以下载本地数据库,本地数据库使用的是HMMs模型数据库,结合hmmer软件进行本地注释。

dbCAN注释基本流程



02

在线注释

1序列提交

打开在线注释平台dbCANhttp://bcb.unl.edu/dbCAN2/),选择Annotate->填写邮箱->勾选注释工具->输入或选择序列->Submit

注意:默认情况下,已选中HMMERDIAMONDHotpep,而未选中CGC-Finder。仅选择HMMER将具有与原始dbCAN服务器相同的结果。选择CGC-Finder将显示基因位置文件上传按钮,您必须上传基因位置文件(如上图右,或者上传GFFBED格式文件),以使CGC-Finder预测CAZyme基因簇(CGC)。


2注释结果展示

该数据库对每条CAZymes序列存在的所有类别的标签结构域进行了详细的起始位置注释及图片展示。

点击Gene ID,例如prot_00088,得到该蛋白的结构域注释结果。


 

03

本地化配置

1数据库和软件下载

数据库

http://bcb.unl.edu/dbCAN2/download/Tools/run_dbcan_v3.tar.gz

http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam.subfam.ec.txt

http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam-activities.txt

 

软件

HMMER3

http://www.hmmer.org/download.html

Anaconda3

https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh



2安装

Anaconda3安装
sh Anaconda3-2019.10-Linux-x86_64.sh -b -p $HOME/anaconda3
左右滑动查看


修改环境变量
export PATH=$HOME/anaconda3/bin:$PATH
左右滑动查看


HMMER3的安装

conda install -c bioconda hmmer=3.0
左右滑动查看



3、数据库使用

数据库建索引
Hmmpress dbCAN-HMMdb-V8.txt
左右滑动查看

 

数据库使用

hmmscan --domtblout xx.out.dm -o xx.out $HOME/dbCAN-HMMdb-V8.txt xx.fa
sh $HOME/hmmscan-parser.sh xx.out.dm > xx.out.dm.ps
左右滑动查看

 


参数说明
-h 显示帮助信息-o <f> 将结果输出到指定的文件中。默认是输出到标准输出。--tblout <f> 将蛋白质序列的结果以表格形式输出到指定的文件中。默认不输出该文件。--domtblout <f> 将蛋白结构域的比对结果以表格形式输出到指定的文件中。默认不输出该文件。--pfamtblout <f> 输出pfam格式的表格和结构域结果--acc 在输出结果中包含蛋白结构域的编号。--noali 在输出结果中不包含比对信息。输出文件的大小则会更小。-E <x> 设定E_value阈值,推荐设置为1e-5。default:10.0。-T <x> 设定Score阈值。--domE <x> 设定E_value阈值。该参数和-E 参数类似,不过是domain 比对设定的值。default:10.0  --domT <x> 设定Score阈值。该参数和-T 参数类似,不过是domain 的score值。--cpu 并行分析的CPU数目[默认全部]






 

输出结果

输出结果说明:

(1) Subject:数据库结构域编号(2) Length:结构域比对长度(3) Query:蛋白序列编号(4) Length:蛋白序列比对长度(5) E-value:比对的E值(6) S-start:结构域起始位置(7) S-end:结构域终止位置(8) Q-start:蛋白序列起始位置(9) Q-end:蛋白序列终止位置(10) Coverage:结构域覆盖度




参考文献

1. dbCAN2: a meta server for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2018.
2. dbCAN: a web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2012.

3. The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics. Nucleic Acids Research, 2009.



· END ·

凌恩生物成立于2014年,专注组学技术在科研领域的应用与研究。公司成立以来,技术团队参与的项目成果成功发表在《Nature》《Cell》《PNAS》等国际顶端学术期刊。

秉承“以客户需求为本,为客户创造价值”的服务宗旨;以高品质、高效率的技术服务,用心打造凌恩品牌,助力您的成功!

长按二维码关注我们

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存