肿瘤外显子数据处理系列教程(番外篇)bam文件载入igv可视化
上一节我们讲到了,肿瘤外显子数据处理系列教程(四)比对结果的质控,接下来我们将通过igv可视化的方式,对bam文件进行一个深入的了解,同样也是以这个样本case1_biorep_A_techrep
为例。
bam文件格式
bam(或者是sam,cram)文件,是比对后拿到的文件,sam文件是纯文本,非常占用存储空间,bam是sam的二进制格式,cram则是进一步压缩后的格式,这三者所记录的内容是一致的,但是bam文件是最常用的。记录了每一条reads比对到参考基因组的结果,主要有11列比较重要的信息(每一列以制表符分开):
列 | 列名 | 简介 | 举例 |
---|---|---|---|
1 | QNAME | reads的名称 | case1_biorep_A_techrep.89335031 |
2 | FLAG | 由二进制数表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和,如75=1+2^1^ +2^3^+2^6^ | 129 |
3 | RNAME | 参考序列,一般是染色体 | chr17 |
4 | POS | 比对到染色体位置 | 42852401 |
5 | MAPQ | mapping质量 | 60 |
6 | CIGAR | MIDNSHP=XB这10个字符代表不同的含义,M比对成功,I插入,D删除 | 76M3D |
7 | RNEXT | 配对reads比对到的参考序列(染色体) | chr11 |
8 | PNEXT | 配对reads比对到染色体的位置 | 96427099 |
9 | TLEN | 可以理解为测序是文库插入片段长度 | 0 |
10 | SEQ | 序列,fq文件的第二行 | GCTTC…CCAGC |
11 | QUAL | 质量值,fq文件第四行 | @@@?D…CA@DD |
更多的说明可以查看官方教程:
https://samtools.github.io/hts-specs/SAMv1.pdf
提取小bam
由于原bam文件特别大,下载到本地载入igv非常耗资源,所以我们就提取一个小的bam进行演示。首先,要构建索引,提取小bam,这里我们提取17号染色体的信息:chr17。再对小bam文件构建索引,因为igv要求bam文件需要带索引才能载入。
samtools index case1_biorep_A_techrep.bam
samtools view -h case1_biorep_A_techrep.bam chr17 | samtools view -Sb - > small.bam
samtools index small.bam
对比一下大小,如果还觉得太大,上面提取的参数chr17
可以改为类似chr17:42850000-42950000
。
12G 8月 29 05:46 case1_biorep_A_techrep.bam
694M 8月 29 12:15 small.bam
载入IGV
然后把小bam文件及其索引下载到本地,打开IGV,加载hg38参考基因组,然后把bam文件拖到IGV窗口中。
点击17
和右上角的+
直到标尺显示的尺度小于30kb,igv默认小于30kb才会显示reads的信息。
定位到感兴趣的位置
也可以在搜索框中输入感兴趣的位置或者基因,比如chr17:42,850,644-42,853,784
或者AOC3
这里我们可以看到有5条轨道:
第一条是Coverage即覆盖深度,可以直观的看出染色体的每一处reads的覆盖情况,因为我们是外显子捕获测序,所以极大部分的reads都覆盖到了参考基因组的外显子区域及其侧翼区域。值得注意的是在这一行开头有峰的高度范围,且默认是随覆盖深度动态变化的。
第二条是Junctions,一般用于转录组数据,可以看可变剪切,默认是不显示的,这里是我之前设置。
第三条是bam文件中reads详细信息,每一块代表一条reads,将鼠标放到某一条reads上,就会呈现该reads的详细比对信息,与bam文件的中信息相对应。而且可以通过鼠标右键,调出设置菜单,方便进一步探索。
第四条是sequence,参考基因组的序列碱基信息,当放大至一定程度时就会显示出来。
第五条是参考基因组注释信息,可以看到有基因、外显子、内含子、5'UTR、3'UTR等,还可以右键选择显示基因的各个转录本。
颜色代表的含义
可以看到,这些reads大多数是灰色的,部分是透明,少部分是红色、蓝色、棕色等等,不同的颜色有不同的含义。
灰色:指的是比对成功,没有其他特别的含义
白色:指的是比对失败,对应的是bam文件中第5列,MAPQ比对质量值,我们把鼠标放到透明的reads上就可以看到
红色和蓝色:igv会根据配对的两条reads的距离,即bam的第9列TLEN,可以理解为测序时文库插入片段长度,来判断是否存在染色体的结构变异deletions
,insertions
,inter-chromosomal rearrangements
。红色代表插入片段大于期望值,可能是deletions的证据,蓝色代表插入片段小于预期,可能是insertions的证据。我们可以通过右键选择view as pairs
来进一步理解这个含义。蓝色的两条reads重叠,而红色的reads距离都比较大
其他颜色:指的是这条reads所配对的另一条reads没有比对到同一条染色体,不同颜色代表不同染色体,具体看下图:
比如下面棕色的reads,代表与之配对的reads比对到了11号染色体上了:
samtools view -h case1_biorep_A_techrep.bam chr11 | grep 89335031
case1_biorep_A_techrep.89335031 65 chr11 96427099 60 76M chr17 42852401 0 AAATTGAATCTGCAATTTCTCAACCCATTAAATTGTTCATCAATGCTGAACTAATACAAGAGTTACATTAATAAGC @>>??G?@AEDEDCAAAADCECADBBCAAABA?@FAAECAEBA@EEDCAADDABAADCBEAF@A@EC@@=A@>@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:19 RG:Z:case1_biorep_A_techrep
samtools view -h case1_biorep_A_techrep.bam chr17 | grep 89335031
case1_biorep_A_techrep.89335031 129 chr17 42852401 60 76M chr11 96427099 0 GCTTCCAAGGAGAAAGACTAGTTTATGAGATAAGCCTCCAAGAGGCCTTGGCCATCTATGGTGGAAATTCCCCAGC @@@?DDCAFCAEABAE@DC@E@@@@ADAFAAAAEEBCDCBAFAFDECDAFDEDBAEDBBFD@GD@AAA@E@CA@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:0 RG:Z:case1_biorep_A_techrep
关于颜色更多的介绍,请参考igv官方文档:
http://software.broadinstitute.org/software/igv/interpreting_insert_size
写在最后
不同组学的测序策略不同,这里展示的是外显子组的bam文件,还有其他组学的bam文件也可以在igv中可视化,对此推荐大家看一下不同组学测序数据拿到的bam文件在igv可视化结果的区别:各种NGS组学数据分析异同点视频讲解
介绍到这里只讲了一部分,还有bam文件载入igv也可以看变异位点,SNP和INDEL,这部分我们留到后面分析拿到vcf文件后再继续讨论。
下一期我们将走gatk最佳实践流程,并且会详细介绍每一步分析的原理以及需要注意的细节。
然后提一个小问题给读者:
如果你的测序数据qc结果如上所示,你会怎么处理?
如果想知道我们的答案,请继续关注这个系列: 肿瘤外显子数据处理系列教程(四)比对结果的质控
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程