vcf格式文件处理大全（四）

Original 王通基因学苑 2023-08-18

前面介绍过fasq，fastq，bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列，fastq为测序数据，将fastq比对到fasta则生成bam文件，对bam进行排序建立索引，就可以直接输出为vcf格式，这个系列我们来详细介绍一下vcf格式的操作。

vcf格式文件处理大全（一）

vcf格式文件处理大全（二）

vcf格式文件处理大全（三）

13 Annovar注释

annovar也是一款比较有名的变异位点注释工具，使用起来也非常容易，使用vcf格式就可以进行注释，软件会首先对其进行格式转换，然后进行注释。

#生成annovar格式  
convert2annovar.pl -format vcf4old A1.snps.indel.VQSR.vcf.gz >A1.annovar.input    
#gene-based注释  
annotate_variation.pl --geneanno -buildver hg38 --outfile A1.geneanno.anno A1.annovar.input humandb/

14 clinvar临床数据库注释

clinvar是收集了与人类疾病相关突变位点的数据库，将得到的突变位点与clinvar数据库进行比对即可根据突变情况进行疾病的预测。使用clinvar数据库首先需要下载clinvar数据库，下载之后可以使用snpEFF后者annovar软件进行注释。

#clinvar注释  
convert2annovar.pl -format vcf4old A1.HC.snps.indel.VQSR.vcf.gz >A1.annovar.input  
annotate_variation.pl --filter -buildver hg38 --outfile A1.clinvar.anno A1.annovar.input -dbtype clinvar_20180603 humandb/

15 一致性序列

所谓一致性序列，就是一条与参考序列长度一致，但是仅将突变位点进行替换的序列，一致性序列完全根据参考序列为模板生成，是并不存在的序列，主要用于后面构建系统发育树。

bcftools consensus -f ref.fna -s Sample1 -o Sample1_consensus.fa file.vcf.gz

16 VQSR

VQSR是Variant Quality Score Recalibration，是GATK的核心功能，也就是利用机器学习算法对vcf进行过滤。利用机器学习算法对突变位点进行过滤比采用“一刀切”对所有位点处理的方式准确性更高。进行VQSR，首要要准备的已知变异集作为训练集，可以是Hapmap、OMNI，1000G，dbsnp，瓶中基因组计划等这些国际性项目的数据，然后利用训练集对每一个位点进行过滤。利用VariantRecalibrator工具进行机器学习，ApplyVQSR工具进行处理。VQSR过滤SNP和InDel分别进行，首先处理SNP，得到结果后，在进行InDel处理。具体方法可以参加gatk软件的VQSR说明部分。

https://gatkforums.broadinstitute.org/gatk/discussion/39/variant-quality-score-recalibration-vqsr

---------- END ----------

（添加作者微信，请注明单位姓名）

您可能还会感兴趣的

生物信息暑期班（北京站）开始报名
 基因学苑文章列表（201906）
上传数据，直接分析，1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程，如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

vcf格式文件处理大全（四）

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

生成图片，分享到微信朋友圈

vcf格式文件处理大全（四）

您可能也对以下帖子感兴趣