查看原文
其他

肿瘤外显子数据处理系列教程(番外篇)bam文件载入igv可视化

Nickier 生信菜鸟团 2022-06-06

上一节我们讲到了,肿瘤外显子数据处理系列教程(四)比对结果的质控,接下来我们将通过igv可视化的方式,对bam文件进行一个深入的了解,同样也是以这个样本case1_biorep_A_techrep为例。

bam文件格式

bam(或者是sam,cram)文件,是比对后拿到的文件,sam文件是纯文本,非常占用存储空间,bam是sam的二进制格式,cram则是进一步压缩后的格式,这三者所记录的内容是一致的,但是bam文件是最常用的。记录了每一条reads比对到参考基因组的结果,主要有11列比较重要的信息(每一列以制表符分开):

列名简介举例
1QNAMEreads的名称case1_biorep_A_techrep.89335031
2FLAG由二进制数表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和,如75=1+2^1^ +2^3^+2^6^129
3RNAME参考序列,一般是染色体chr17
4POS比对到染色体位置42852401
5MAPQmapping质量60
6CIGARMIDNSHP=XB这10个字符代表不同的含义,M比对成功,I插入,D删除76M3D
7RNEXT配对reads比对到的参考序列(染色体)chr11
8PNEXT配对reads比对到染色体的位置96427099
9TLEN可以理解为测序是文库插入片段长度0
10SEQ序列,fq文件的第二行GCTTC…CCAGC
11QUAL质量值,fq文件第四行@@@?D…CA@DD

更多的说明可以查看官方教程:

https://samtools.github.io/hts-specs/SAMv1.pdf

提取小bam

由于原bam文件特别大,下载到本地载入igv非常耗资源,所以我们就提取一个小的bam进行演示。首先,要构建索引,提取小bam,这里我们提取17号染色体的信息:chr17。再对小bam文件构建索引,因为igv要求bam文件需要带索引才能载入。

samtools index case1_biorep_A_techrep.bam
samtools view -h case1_biorep_A_techrep.bam chr17 | samtools view -Sb - > small.bam
samtools index small.bam

对比一下大小,如果还觉得太大,上面提取的参数chr17可以改为类似chr17:42850000-42950000

12G 8月   29 05:46 case1_biorep_A_techrep.bam
694M 8月  29 12:15 small.bam

载入IGV

然后把小bam文件及其索引下载到本地,打开IGV,加载hg38参考基因组,然后把bam文件拖到IGV窗口中。

点击17和右上角的+

直到标尺显示的尺度小于30kb,igv默认小于30kb才会显示reads的信息。

定位到感兴趣的位置

也可以在搜索框中输入感兴趣的位置或者基因,比如chr17:42,850,644-42,853,784或者AOC3

这里我们可以看到有5条轨道:

  • 第一条是Coverage即覆盖深度,可以直观的看出染色体的每一处reads的覆盖情况,因为我们是外显子捕获测序,所以极大部分的reads都覆盖到了参考基因组的外显子区域及其侧翼区域。值得注意的是在这一行开头有峰的高度范围,且默认是随覆盖深度动态变化的。

  • 第二条是Junctions,一般用于转录组数据,可以看可变剪切,默认是不显示的,这里是我之前设置。

  • 第三条是bam文件中reads详细信息,每一块代表一条reads,将鼠标放到某一条reads上,就会呈现该reads的详细比对信息,与bam文件的中信息相对应。而且可以通过鼠标右键,调出设置菜单,方便进一步探索。

  • 第四条是sequence,参考基因组的序列碱基信息,当放大至一定程度时就会显示出来。

  • 第五条是参考基因组注释信息,可以看到有基因、外显子、内含子、5'UTR、3'UTR等,还可以右键选择显示基因的各个转录本。

颜色代表的含义

可以看到,这些reads大多数是灰色的,部分是透明,少部分是红色、蓝色、棕色等等,不同的颜色有不同的含义。

灰色:指的是比对成功,没有其他特别的含义

白色:指的是比对失败,对应的是bam文件中第5列,MAPQ比对质量值,我们把鼠标放到透明的reads上就可以看到

红色蓝色:igv会根据配对的两条reads的距离,即bam的第9列TLEN,可以理解为测序时文库插入片段长度,来判断是否存在染色体的结构变异deletions,insertions,inter-chromosomal rearrangements。红色代表插入片段大于期望值,可能是deletions的证据,蓝色代表插入片段小于预期,可能是insertions的证据。我们可以通过右键选择view as pairs来进一步理解这个含义。蓝色的两条reads重叠,而红色的reads距离都比较大

其他颜色:指的是这条reads所配对的另一条reads没有比对到同一条染色体,不同颜色代表不同染色体,具体看下图:

比如下面棕色的reads,代表与之配对的reads比对到了11号染色体上了:

我们可以通过bam文件来检验一下,因为是pair-end,所以id号相同,可以grep 89335031
$ samtools view -h case1_biorep_A_techrep.bam chr11 | grep 89335031
case1_biorep_A_techrep.89335031    65  chr11   96427099    60  76M chr17   42852401    0   AAATTGAATCTGCAATTTCTCAACCCATTAAATTGTTCATCAATGCTGAACTAATACAAGAGTTACATTAATAAGC    @>>??G?@AEDEDCAAAADCECADBBCAAABA?@FAAECAEBA@EEDCAADDABAADCBEAF@A@EC@@=A@>@DD    NM:i:0  MD:Z:76 MC:Z:76M    AS:i:76 XS:i:19 RG:Z:case1_biorep_A_techrep

$
 samtools view -h case1_biorep_A_techrep.bam chr17 | grep 89335031
case1_biorep_A_techrep.89335031    129 chr17   42852401    60  76M chr11   96427099    0   GCTTCCAAGGAGAAAGACTAGTTTATGAGATAAGCCTCCAAGAGGCCTTGGCCATCTATGGTGGAAATTCCCCAGC    @@@?DDCAFCAEABAE@DC@E@@@@ADAFAAAAEEBCDCBAFAFDECDAFDEDBAEDBBFD@GD@AAA@E@CA@DD    NM:i:0  MD:Z:76 MC:Z:76M    AS:i:76 XS:i:0  RG:Z:case1_biorep_A_techrep

关于颜色更多的介绍,请参考igv官方文档:
http://software.broadinstitute.org/software/igv/interpreting_insert_size

写在最后

不同组学的测序策略不同,这里展示的是外显子组的bam文件,还有其他组学的bam文件也可以在igv中可视化,对此推荐大家看一下不同组学测序数据拿到的bam文件在igv可视化结果的区别:各种NGS组学数据分析异同点视频讲解

介绍到这里只讲了一部分,还有bam文件载入igv也可以看变异位点,SNP和INDEL,这部分我们留到后面分析拿到vcf文件后再继续讨论。

下一期我们将走gatk最佳实践流程,并且会详细介绍每一步分析的原理以及需要注意的细节。

然后提一个小问题给读者:

如果你的测序数据qc结果如上所示,你会怎么处理?

如果想知道我们的答案,请继续关注这个系列: 肿瘤外显子数据处理系列教程(四)比对结果的质控

如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存