查看原文
其他

vcf格式文件处理大全(二)

定时发送 基因学苑 2023-08-18

前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。

vcf格式文件处理大全(一)

5 查看固定区域  

建立索引之后就可以快速查看固定区域,如果只有一起区域,可以在命令行书写如果一次要看很多区域,则可以输入一个bed文件。

#查看20号染色体1000-20000之间的突变位点
bcftools view A1.bcf.gz 20:1000-20000
bcftools view A1.bcf.gz -R region.bed

注意基因组区域写法:染色体名字:起始位点-终止位点

6 统计

如果想知道文件中包含多少突变的记录,以及每种突变具体的数据,可以使用bcftools的 stats功能进行统计。统计完了可以直接进行绘图。

bcftools stats A1.bcf.gz >view.stats  
plot-vcfstats view.stats -p output  

7 查看固定内容信息

vcf里面包含的信息非常多,比较混乱,如果只想从中筛选出需要的内容,例如只需要Genotype信息,可以使用bcftools的query功能实现。

bcftools query -f '%CHROM\t%POS\t%REF\t%ALT[\t%SAMPLE=%GT]\n'  A1.bcf.gz  

注意格式的熟悉,每个关键字前面使用%,“\t”或者“\n”代表制表符与换行符。

8 合并多个结果

vcf中不仅可以包含单个样品,也可以同时包含多个样品的信息,只需要将多个样品的vcf合并即可。注意合并之前需要对每个样品创建索引。

bcftools merge A1.vcf.gz B1.vcf.gz -O b -o merge.bcf.gz 


---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存