数据库|CAZymes在线注释以及本地化全攻略

Original 曾哥&Young 凌恩生物 2023-06-15

收录于合集

碳水化合物亦称糖类化合物，是自然界存在最多、分布最广的一类重要有机化合物，是一切生物体维持生命活动所需能量的主要来源。作用于各种糖复合物、寡糖和多糖等碳水化合物的酶类构成了地球上结构最多样的蛋白质集合。

碳水化合物活性酶数据库（CAZymes，http://www.cazy.org/）是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数据库资源，其基于蛋白质结构域中的氨基酸序列相似性，将碳水化合物活性酶类归入不同蛋白质家族。该数据库提供了碳化合物合成、代谢、转运等酶的分类和相关信息。

CAZy数据库概述

CAZy数据库目前包括如下六大类家族

Classify

分类

number

Glycoside Hydrolases

(GHs)

糖苷水解酶类

（GHs）

755496

GlycosylTransferases

(GTs)

糖苷转移酶类

（GTs）

644869

Polysaccharide Lyases

(PLs)

多糖裂解酶类

（PLs）

23725

Carbohydrate Esterases

(CEs)

糖水化合物酯酶类

（CEs）

77255

Auxiliary Activities

(AAs)

辅助模块酶类

（AAs）

13880

Carbohydrate-Binding Modules

(CBMs)

碳水化合物结合模块

（CBMs）

203729

CAZy数据库中目前已注释的基因组：

Type	number
Bacteria	15626
Viruses	405
Archaea	357
Eukaryota	271

数据库注释

dbCAN是一个用于注释碳水化合物活性相关酶的在线服务器和数据库，其基于保守结构域数据库（CDD）搜索和文献精选，为每个CAZymes家族明确定义了一个标签结构域并为此结构域构建隐马尔科夫模型（HMM）。其数据来源主包括CAZy数据库和CAT，并随着CAZy的更新而更新。dbCAN可以进行在线注释，也可以下载本地数据库，本地数据库使用的是HMMs模型数据库，结合hmmer软件进行本地注释。

dbCAN注释基本流程

在线注释

1、序列提交

打开在线注释平台dbCAN（http://bcb.unl.edu/dbCAN2/），选择Annotate->填写邮箱->勾选注释工具->输入或选择序列->Submit。

注意：默认情况下，已选中HMMER，DIAMOND和Hotpep，而未选中CGC-Finder。仅选择HMMER将具有与原始dbCAN服务器相同的结果。选择CGC-Finder将显示基因位置文件上传按钮，您必须上传基因位置文件（如上图右，或者上传GFF或BED格式文件），以使CGC-Finder预测CAZyme基因簇（CGC）。

2、注释结果展示

该数据库对每条CAZymes序列存在的所有类别的标签结构域进行了详细的起始位置注释及图片展示。

点击Gene ID，例如prot_00088，得到该蛋白的结构域注释结果。

本地化配置

1、数据库和软件下载

数据库

http://bcb.unl.edu/dbCAN2/download/Tools/run_dbcan_v3.tar.gz

http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam.subfam.ec.txt

http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam-activities.txt

软件

HMMER3：

http://www.hmmer.org/download.html

Anaconda3：

https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh

2、安装

Anaconda3安装

sh Anaconda3-2019.10-Linux-x86_64.sh -b -p $HOME/anaconda3

左右滑动查看

修改环境变量

export PATH=$HOME/anaconda3/bin:$PATH

左右滑动查看

HMMER3的安装

conda install -c bioconda hmmer=3.0

左右滑动查看

3、数据库使用

数据库建索引

Hmmpress dbCAN-HMMdb-V8.txt

左右滑动查看

数据库使用

hmmscan --domtblout xx.out.dm -o xx.out $HOME/dbCAN-HMMdb-V8.txt xx.fa
sh $HOME/hmmscan-parser.sh xx.out.dm > xx.out.dm.ps

左右滑动查看

参数说明：
-h 显示帮助信息-o <f> 将结果输出到指定的文件中。默认是输出到标准输出。--tblout <f> 将蛋白质序列的结果以表格形式输出到指定的文件中。默认不输出该文件。--domtblout <f> 将蛋白结构域的比对结果以表格形式输出到指定的文件中。默认不输出该文件。--pfamtblout <f> 输出pfam格式的表格和结构域结果。--acc 在输出结果中包含蛋白结构域的编号。--noali 在输出结果中不包含比对信息。输出文件的大小则会更小。-E <x> 设定E_value阈值，推荐设置为1e-5。default:10.0。-T <x> 设定Score阈值。--domE <x> 设定E_value阈值。该参数和-E 参数类似，不过是domain 比对设定的值。default:10.0。 --domT <x> 设定Score阈值。该参数和-T 参数类似，不过是domain 的score值。--cpu 并行分析的CPU数目[默认全部]。

输出结果

输出结果说明：

(1) Subject：数据库结构域编号(2) Length：结构域比对长度(3) Query：蛋白序列编号(4) Length：蛋白序列比对长度(5) E-value：比对的E值(6) S-start：结构域起始位置(7) S-end：结构域终止位置(8) Q-start：蛋白序列起始位置(9) Q-end：蛋白序列终止位置(10) Coverage：结构域覆盖度

参考文献

1. dbCAN2: a meta server for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2018.

2. dbCAN: a web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2012.

3. The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics. Nucleic Acids Research, 2009.

· END ·

凌恩生物成立于2014年，专注组学技术在科研领域的应用与研究。公司成立以来，技术团队参与的项目成果成功发表在《Nature》《Cell》《PNAS》等国际顶端学术期刊。

秉承“以客户需求为本，为客户创造价值”的服务宗旨；以高品质、高效率的技术服务，用心打造凌恩品牌，助力您的成功！

长按二维码关注我们

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

数据库|CAZymes在线注释以及本地化全攻略

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

生成图片，分享到微信朋友圈

数据库|CAZymes在线注释以及本地化全攻略

您可能也对以下帖子感兴趣