查看原文
其他

bam格式文件处理大全(三)

王通 基因学苑 2023-08-18

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。

9 统计  

排序建立索引之后就可以对bam文件进行各种操作了。首先要做的就是进行统计,例如统计有多少数据比对上了,一对一比对有多少,一对多比对有多少;如果是双末端测序,还需要统计双端比对上的占比多少。这些都可以通过samtools的 Statistics功能实现,里面包含各种统计的功能。

-- Statistics
   bedcov         read depth per BED region
   depth          compute the depth
   flagstat       simple stats
   idxstats       BAM index stats
   phase          phase heterozygotes
   stats          generate stats (former bamcheck)

10 比对结果统计

如果想从全局对bam进行统计,可以使用samtools stats功能,后面直接接排序后的bam文件即可。

samtools stats A1.sorted.bam

11 flagstat

bam文件中的第二列为比对标记,这些标记,表示reads比对情况,想查看具体数字代表的含义,可以使用samtools flags进行解释,例如83代表:

$ samtools flags 83
0x53    83  PAIRED,PROPER_PAIR,REVERSE,READ1

可以对这些标识符进行统计使用samtools flagstat功能即可。

samtools flagstat A1.sorted.bam

12 idxstats

stats默认是对所有数据进行统计,如果想单独计算每一条染色体的比对情况,可以使用idxstats功能,对单条染色体进行计算还是非常有意义的,例如产前诊断的计算。

$ samtools idxstats /ifs1/Sequencing/NIPT/male.sorted.bam | head 
chr1    248956422   401271  0
chr2    242193529   390303  0
chr3    198295559   320018  0
chr4    190214555   303107  0
chr5    181538259   286490  0
chr6    170805979   268553  0
chr7    159345973   254938  0
chr8    145138636   232020  0
chr9    138394717   199101  0
chr10    133797422   222764  0

13 统计目标区域

如果只对某个区域感兴趣,例如目标基因的比对情况进行统计,则可以给定一个目标区域文件,这种文件就是bed格式文件,使用bedcov进行统计。

samtools bedcov cancer_panel.bed A1.sorted.bam

14 depth统计

如果想计算参考序列每个位点的比对情况,例如每个位点被覆盖了多少倍,也就是测序深度depth,可以使用samtools depth功能进行统计。

samtools depth A1.sorted.bam

以上所有案例可以在我们服务器中直接练习。



---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存