【直播】我的基因组 32:使用annovar注释vcf
ANNOVAR软件用法看我以前的博客:
ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器的多种操作系统上执行。允许多种输入文件格式,包括最常被使用的VCF格式。输出文件也有多种格式,包括注释过的VCF文件、用tab或者逗号分隔的txt文件。ANNOVAR能快速注释遗传变异并预测其功能。类似的variants注释软件还有VEP,snpEff,VAAST,AnnTools等等。
这是annovar的第一讲,照例我们先简单试用一下它的基础功能,因为这样的遗传变异位点的注释软件,功能实在是太多了,但是它最基础的东西是根据变异位点的坐标已经现有研究已知基因结构坐标的信息来将变异进行分类,类别如下:
其中位于外显子上面的突变是尤为重要的,所以会重点分析:
两个步骤即可:
~/biosoft/ANNOVAR/annovar/convert2annovar.pl -format vcf4old realign.vcf >realign.annovar
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -buildver hg19 --geneanno --outfile realign.anno realign.annovar ~/biosoft/ANNOVAR/annovar/humandb/
annovar默认的注释方式是:
Done with 50914 transcripts (including 11516 without coding sequence annotation) for 26271 unique genes
这个是最基础的注释,几分钟就完成了480万个位点的注释。
其中有31741个variation位点在外显子上面,是指的我们重点关注的,其中外显子的variation又可以分成下面几种情况:
一般公司会把上面的数据画成一个好看的饼图,但这不是我们的重点,分析自己的基因组数据是为了探究本质的东西,而不是浮于表面。
文:Jimmy、吃瓜群众
图文编辑:吃瓜群众