其他
bam格式文件处理大全(六)
sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。
26 利用GATK进行snp检测
利用GATK可以直接检测SNP,输入数据为排序建立索引的bam,如果是人全基因组,则为排序,标记Duplication并经过BQSR的bam,并建立索引。
gatk HaplotypeCaller \
--emit-ref-confidence GVCF \
-R ref.fna \
-I A1.sorted.bam \
-O A1.g.vcf.gz
gatk GenotypeGVCFs \
-R ref.fna \
A1.g.vcf.gz \
-O A1.HC.vcf.gz
27 利用delly进行SV检测
delly软件可以非常方便的检测到基因组上的SV信号,即所谓的breakpoint,输入数据为排序后的bam即可。
delly call -g ref.fna -o A11.delly.sv.bcf -n A11.sorted.bam
delly filter -f germline -p -q 20 A1.delly.sv.bcf -o A1.delly.sv.filter.bcf
28 利用lumpy行SV检测
lumpy也可以检测SV,输入数据为首先从bam中筛选出flag值为1294的比对reads。也就是非正常范围内的pairend比对。然后在筛选出一条reads切开后比对上的结果。最后将这些异常reads输入给lumpy。
#1 挑选flag值为1294的reads
samtools view -b -F 1294A1.sorted.bam | samtools sort - > A1.discordants.sorted.bam
#2 挑选split比对的reads
samtools view -h A1.sorted.bam | extractSplitReads_BwaMem -i stdin | samtools view -Sb - | samtools sort -> A.splitters.sorted.bam
#3 利用lumpy找SV
lumpyexpress -BA1.sorted.bam -S A1.discordants.sorted.bam -D A1.splitters.sorted.bam -o A1.lumpu.sv.vcf
29 利用CNVnator进行CNV检测
利用CNVnator可以筛选CNV突变,软件运行起来比较麻烦,需要对排序建立索引的bam进行各种处理,最后才能得到突变的结果。
#1.提取mapping信息
cnvnator -root A1.root -tree A1.sorted.bam -unique
#2.生成质量分布图HISTOGRAM
cnvnator -root A1.root -his 100 -d ref.fna
#3.生成统计结果
cnvnator -root A1.root -stat 100
#4.RD信息分割partipition
cnvnator -root A1.root -partition 100
#5.变异检出
cnvnator -root A1.root -call 100 > A1.cnvnator.vcf
30 利用IGV可视化数据
IGV工具可以可视化bam文件,并且支持同时输入多个bam进行比较,此外,还支持输入参考序列fasta格式,突变vcf格式,区间bed格式。
---------- END ----------
(添加作者微信,请注明单位姓名)
您可能还会感兴趣的
基因学苑文章列表(201906)
上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X