凌波微课|基因家族分析(一)——如何高效筛选基因组家族成员
基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。同一家族基因可以紧密排列在一起,形成一个基因簇;但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。
基因家族成员的归类
第一,序列高度相似的序列,互为同源基因,即归属为一个基因家族(即拷贝数目多于一)。
基因家族成员鉴定方法
方法一,针对已经收录在Pfam数据库(http://pfam.xfam.org/)中的基因家族(例如NBS基因家族)。从Pfam数据库下载获取基因家族隐马可夫(hmm)模型,根据结构域通过Hmmer3软件(http://eddylab.org/software/hmmer3/)进行基因家族成员筛选。具体筛选方法可参考往期视频(凌波微课|蛋白结构域如何分析?试试Pfam在线注释)。
NBS类基因属于植物抗病基因家族中最大的一类。本次课程中以NBS基因为例,筛选拟南芥(Arabidopsis thaliana)中抗病基因家族。具体操作方法猛戳以上视频~
环境变量设置
e_family\hmmer-3.0-windows)添加到PATH路径之后,在任何地方都可以直接使用程序名运行程序,而不必使用完整的路径名。
基因家族成员筛选命令参数
hmmsearch.exe .\NB-ARC.hmm .\GCF_000001735.4_TAIR10.1_protein.faa > At_NBS.out.txt
2、通过blast进行蛋白序列比对,关于blast软件具体使用方法请参考以前的微课(本地blast和本地blast+)。
#构建参考蛋白序列格式化,构建比对数据库
formatdb -i .\NBS_ref_protein.fasta -p T -o F
#blastp蛋白序列比对
blastall -p blastp -i .\GCF_000001735.4_TAIR10.1_protein.faa -d .\NBS_ref_protein.fasta -e 1e-5 -m 8 -o blast_out.txt
3、通过hmmer软件构建蛋白序列hmm模型,再进行蛋白结构域比对(建议在linux系统下进行)。
#隐马可夫模型hmm之前首先进行参考蛋白序列比对
#通过mafft软件精选序列比对,具体使用方法请参考以前的微课(进化树构建之多重序列比对利器——mafft软件)
#通过hmmbuild构建hmm模型
hmmbuild NBS_ref_example.hmm NBS_ref_example.align.fasta
#通过hmmsearch软件进行蛋白结构域比对
hmmsearch NBS_ref_example.hmm GCF_000001735.4_TAIR10.1_protein.faa > out.txt
再次感谢@东林桃花心木老师的宝贵建议,欢迎大家加入“凌波微课交流群”,有实用的软件或者分析内容推荐给我们,我们会筛选并准备相应的实操课程哦~独乐乐不如众乐乐~
往期精彩
凌波微课|TBtools系列课程——火山图绘制技能,Get!
凌波微课|TBtools系列课程——Venn图、花瓣图,任你选择!
凌波微课|TBtools系列课程——解锁Heatmap绘制新姿势
凌波微课|一节课让你学会MEGA构建系统发育进化树并美化(二)
凌波微课|一节课让你学会MEGA构建系统发育进化树并美化(一)
END
凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。
凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。凌波微课,用心服务科研用户,打造专业培训品牌,助力科研提升。关注我
发现更多精彩
关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!