CD-HIT:一款快速便捷的去冗余工具
最近大家提出的关于如何去除冗余序列得到unigene的问题,我结合自己的使用经验,在此给大家推荐一款超快超好用的去冗余工具CD-HIT。
CD-HIT是一款被广泛使用的程序,用于蛋白或者核酸序列的聚类和比较。
该程序使用了启发式算法快速地在序列之间找到高度相似片段,基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理。
如果新的序列和已经存在的序列类的代表序列的相似性在设定的 identity threshold以上,则把新序列加到已经存在序列类中,否则形成新的序列类。输入fasta格式的序列,输出结果得到非冗余的代表性序列,以及序列聚类信息。
CD-HIT最大的优点好用、快速,能处理大量数据,它使用了word length过滤方法降低时间消耗和内存消耗。目前CD-HIT 软件包有很多程序,可以对单个数据集进行去冗余操作,包括DNA/RNA序列或蛋白序列,也可以对两个数据集进行比较: cd-hit,cd-hit-2d,cd-hit-est,cd-hit-est-2d,cd-hit-para,cd-hit-2d-para,psi-cd-hit,psi-cd-hit-2d,cd-hit-454。
CD-HIT有网页版和本地Linux版本,方便实用,分别介绍如下:
一、网页版
http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi?cmd=Server%20home
二、Linux版本
安装流程如下:
1
下载当前CD-HIT版本在http://weizhongli-lab.org/cd-hit/,比如“cd-hit-v4.6.8-2017-0621-source.tar.gz”;
2
解压缩 “tar xvf cd-hit-v4.6.8-2017-0621-source.tar.gz”;
3
进入目录“cd cd-hit-v4.6.8-2017-0621”;
4
编译 "make"。
简单命令如下:
./cd-hit-i inputfile -o outputfile -c threshold -n wordLength
-i 输入序列文件名 (fasta格式序列)
-o 输出序列文件名
-c 聚类阈值
-n word 长度:
-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5
网页版举例
1、点击选择想要运行的程序,输入需要去除冗余的fasta格式的序列文件,如下图所示:
2、根据需要设置相应的参数:
3、提交任务等待结果,下载结果
Linux 版本举例
1、输入命令行进入程序所在目录
2、输入命令行执行程序
3、输出结果如下:
根据结果,我们将得到两个文件,一个文件包含了non-redundant (nr)序列,一个文件记录了聚类信息。
任何软件既有长处也有不足,希望各位在学习使用中能根据自己的研究目的,配合其他软件进行相应的处理,得出的结果会更加精确!
/End.
推荐阅读
点击下方图片即可阅读
扫码关注,获取更多精彩内容
我
是
彩
蛋
喜马拉雅FM搜索并订阅:生信者言;收听内容:
《一分钟听懂NGS基础概念》,让生信分析不再遥不可及
《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事
《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史
回复文字:果然科学,看一篇好玩的科普文。