CD-HIT：一款快速便捷的去冗余工具

Original Wuhe 生信者言 2022-03-29

最近大家提出的关于如何去除冗余序列得到unigene的问题，我结合自己的使用经验，在此给大家推荐一款超快超好用的去冗余工具CD-HIT。

CD-HIT是一款被广泛使用的程序，用于蛋白或者核酸序列的聚类和比较。

该程序使用了启发式算法快速地在序列之间找到高度相似片段，基本思路是首先对所有序列按照其长度进行排序，然后从最长的序列开始，形成第一个序列类，然后依次对序列进行处理。

如果新的序列和已经存在的序列类的代表序列的相似性在设定的 identity threshold以上，则把新序列加到已经存在序列类中，否则形成新的序列类。输入fasta格式的序列，输出结果得到非冗余的代表性序列，以及序列聚类信息。

CD-HIT最大的优点好用、快速，能处理大量数据，它使用了word length过滤方法降低时间消耗和内存消耗。目前CD-HIT 软件包有很多程序，可以对单个数据集进行去冗余操作，包括DNA/RNA序列或蛋白序列，也可以对两个数据集进行比较: cd-hit，cd-hit-2d，cd-hit-est，cd-hit-est-2d，cd-hit-para，cd-hit-2d-para，psi-cd-hit，psi-cd-hit-2d，cd-hit-454。

CD-HIT有网页版和本地Linux版本，方便实用，分别介绍如下：

一、网页版

http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi?cmd=Server%20home

二、Linux版本

安装流程如下：

下载当前CD-HIT版本在http://weizhongli-lab.org/cd-hit/，比如“cd-hit-v4.6.8-2017-0621-source.tar.gz”；

解压缩　“tar xvf cd-hit-v4.6.8-2017-0621-source.tar.gz”；

进入目录“cd cd-hit-v4.6.8-2017-0621”；

编译　"make"。

简单命令如下：

./cd-hit-i inputfile -o outputfile -c threshold -n wordLength

-i 输入序列文件名　(fasta格式序列)
-o　输出序列文件名

-c 聚类阈值

-n word 长度：

-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5

网页版举例

１、点击选择想要运行的程序，输入需要去除冗余的fasta格式的序列文件，如下图所示：

２、根据需要设置相应的参数：

３、提交任务等待结果，下载结果

Linux 版本举例

1、输入命令行进入程序所在目录

2、输入命令行执行程序

3、输出结果如下：

根据结果，我们将得到两个文件，一个文件包含了non-redundant (nr)序列，一个文件记录了聚类信息。

任何软件既有长处也有不足，希望各位在学习使用中能根据自己的研究目的，配合其他软件进行相应的处理，得出的结果会更加精确！

／End.

推荐阅读

点击下方图片即可阅读

扫码关注，获取更多精彩内容

我

是

彩

蛋

喜马拉雅FM搜索并订阅：生信者言；收听内容：

《一分钟听懂NGS基础概念》，让生信分析不再遥不可及

《亲爱的姑娘，你值得被温柔以待》，11个真实的人物故事

《众病之王：癌症传》，一起聆听人类对抗癌症的斗争史

回复文字：果然科学，看一篇好玩的科普文。

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

CD-HIT：一款快速便捷的去冗余工具

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

生成图片，分享到微信朋友圈

CD-HIT：一款快速便捷的去冗余工具

您可能也对以下帖子感兴趣