查看原文
其他

CD-HIT:一款快速便捷的去冗余工具

Wuhe 生信者言 2022-03-29


最近大家提出的关于如何去除冗余序列得到unigene的问题,我结合自己的使用经验,在此给大家推荐一款超快超好用的去冗余工具CD-HIT。


CD-HIT是一款被广泛使用的程序,用于蛋白或者核酸序列的聚类和比较。


该程序使用了启发式算法快速地在序列之间找到高度相似片段,基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理。


如果新的序列和已经存在的序列类的代表序列的相似性在设定的 identity threshold以上,则把新序列加到已经存在序列类中,否则形成新的序列类。输入fasta格式的序列,输出结果得到非冗余的代表性序列,以及序列聚类信息。


CD-HIT最大的优点好用、快速,能处理大量数据,它使用了word length过滤方法降低时间消耗和内存消耗。目前CD-HIT 软件包有很多程序,可以对单个数据集进行去冗余操作,包括DNA/RNA序列或蛋白序列,也可以对两个数据集进行比较: cd-hit,cd-hit-2d,cd-hit-est,cd-hit-est-2d,cd-hit-para,cd-hit-2d-para,psi-cd-hit,psi-cd-hit-2d,cd-hit-454。


CD-HIT有网页版和本地Linux版本,方便实用,分别介绍如下:


一、网页版  


http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi?cmd=Server%20home



二、Linux版本  


安装流程如下:

1

下载当前CD-HIT版本在http://weizhongli-lab.org/cd-hit/,比如“cd-hit-v4.6.8-2017-0621-source.tar.gz”;

2

解压缩 “tar xvf cd-hit-v4.6.8-2017-0621-source.tar.gz”;

3

进入目录“cd cd-hit-v4.6.8-2017-0621”;

4

编译 "make"。



简单命令如下:

./cd-hit-i inputfile -o outputfile -c threshold -n wordLength

-i      输入序列文件名 (fasta格式序列)
-o 输出序列文件名

-c    聚类阈值

-n  word 长度:

-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5



 网页版举例 



1、点击选择想要运行的程序,输入需要去除冗余的fasta格式的序列文件,如下图所示:


 

2、根据需要设置相应的参数:



3、提交任务等待结果,下载结果




 Linux 版本举例 



1、输入命令行进入程序所在目录



2、输入命令行执行程序



3、输出结果如下:

 


根据结果,我们将得到两个文件,一个文件包含了non-redundant (nr)序列,一个文件记录了聚类信息。


任何软件既有长处也有不足,希望各位在学习使用中能根据自己的研究目的,配合其他软件进行相应的处理,得出的结果会更加精确!



/End.





推荐阅读

点击下方图片即可阅读

扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存