查看原文
其他

bam格式文件处理大全(六)

王通 基因学苑 2023-08-18

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。

bam格式文件处理大全(一)
bam格式文件处理大全(二)
bam格式文件处理大全(三)
bam格式文件处理大全(四)
bam格式文件处理大全(五)

26 利用GATK进行snp检测

利用GATK可以直接检测SNP,输入数据为排序建立索引的bam,如果是人全基因组,则为排序,标记Duplication并经过BQSR的bam,并建立索引。

 gatk HaplotypeCaller \  
   --emit-ref-confidence GVCF \  
   -R ref.fna \
   -I A1.sorted.bam \  
   -O  A1.g.vcf.gz 

gatk GenotypeGVCFs \  
 -R ref.fna  \  
A1.g.vcf.gz \  
 -O A1.HC.vcf.gz  

27 利用delly进行SV检测

delly软件可以非常方便的检测到基因组上的SV信号,即所谓的breakpoint,输入数据为排序后的bam即可。

delly call -g ref.fna -o A11.delly.sv.bcf -n A11.sorted.bam  
delly filter -f germline -p -q 20 A1.delly.sv.bcf -o A1.delly.sv.filter.bcf  

28 利用lumpy行SV检测

lumpy也可以检测SV,输入数据为首先从bam中筛选出flag值为1294的比对reads。也就是非正常范围内的pairend比对。然后在筛选出一条reads切开后比对上的结果。最后将这些异常reads输入给lumpy。

#1 挑选flag值为1294的reads
samtools view -b -F 1294A1.sorted.bam  | samtools sort - > A1.discordants.sorted.bam  
#2 挑选split比对的reads
samtools view -h A1.sorted.bam | extractSplitReads_BwaMem -i stdin | samtools view -Sb - | samtools sort -> A.splitters.sorted.bam  
#3 利用lumpy找SV
lumpyexpress -BA1.sorted.bam -S A1.discordants.sorted.bam -D A1.splitters.sorted.bam -o A1.lumpu.sv.vcf  

29 利用CNVnator进行CNV检测

利用CNVnator可以筛选CNV突变,软件运行起来比较麻烦,需要对排序建立索引的bam进行各种处理,最后才能得到突变的结果。

#1.提取mapping信息  
cnvnator -root A1.root -tree A1.sorted.bam -unique     
#2.生成质量分布图HISTOGRAM  
cnvnator -root A1.root -his 100  -d ref.fna    
#3.生成统计结果  
cnvnator -root A1.root -stat 100   
#4.RD信息分割partipition  
cnvnator -root A1.root -partition 100   
#5.变异检出  
cnvnator -root A1.root -call 100 > A1.cnvnator.vcf  

30 利用IGV可视化数据

IGV工具可以可视化bam文件,并且支持同时输入多个bam进行比较,此外,还支持输入参考序列fasta格式,突变vcf格式,区间bed格式。


---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存