查看原文
其他

bam格式文件处理大全(四)

王通 基因学苑 2023-08-18

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。

16 统计bam并绘图  

samtools stats  A1.sorted.bam  >A1.stats  
plot-bamstats -p test  A1.stats 

17 过滤数据

sam或bam文件包含了所有测序数据与参考序列的比对情况,包括没有比对上的,有时候需要比对完,将数据进行过滤,例如,将没有比对上的reads输出出来,或者将比对上的reads输出出来,这些操作都可以通过samtools view功能进行处理。view功能中包含了-f与-F选项,可以对比对进行过滤,给定flag值即可。

#将没有比对上的reads筛选出来
samtools view -f 4 A1.sorted.bam
#将比对上的reads输出出来
samtools veiw -F 4 A1.sorted.bam

18 输出比对fq或fa  

samtools view过滤输出的是sam或者bam格式,有时候需要输出fastq或者fasta格式,samtools可以很方便的进行处理。samtools fastq可以直接输出fastq格式,这样数据可以直接进行拼接,samtools fasta直接输出fasta,这样可以直接进行blastn比对。注意,如果输出的不是成对比对的结果,就无法进行转化为reads1与reads2,而只能是一个文件。

samtools fastq A1.sorted.bam -1 A.1.fq.gz -2 A.2.fq.gz -c 6  

19 tview  

samtools 也可以通过自带的tview功能查看每个位点的细节,使用起来并不难,首先需要排序建立索引的reads,然后是建立索引的参考序列。

samtools tview A1.sorted.bam  
samtools tview A1.sorted.bam ref.fna  

20 tablet 可视化

tablet可以可视化bam文件,输入文件为排序建索引的bam以及建立索引的参考序列,和samtools tview输入文件一致。tablet工具支持windows,Linux,macos等多个版本。





---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

生物信息暑期班(北京站)开始报名
基因学苑文章列表(201906)

上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存