详解GATK突变硬过滤 | 群体遗传专题
对于联川的重测序组来说,每天都会和许许多多的SNP打交道(什么是SNP?),经手处理过的SNP位点何止上亿。而在他们手中,GATK(Genome analysis toolkit)是一柄锋利无比的雕刻刀,原始数据经过GATK的处理之后才能去伪存真,显出本色,进入后续的挖掘过程。
GATK(不是GANK也不是GTA!)这款软件是变异检测的常用软件,但是它不仅可以从比对信息中挖掘出大量的SNP和INDEL,还可以对挖掘出的变异进行质量检测和过滤。因为从比对信息中挖掘变异数据,就好像考古发掘的过程,最初的挖掘结果难免会真假混杂,泥沙俱下,如何对它们进行质量判断,从而为下游分析呈现出最好的数据便成了重中之重。
对于每一个SNP或者INDEL位点,GATK都会在鉴定出的同时给它们加上不同的质量标签,同时GATK官方也会推荐质量值过滤的标准。例如推荐的SNP过滤标准如下:
QD > 2.0
FS > 60.0
MQ > 40.0
MQRankSum > -12.5
ReadPosRankSum > -8.0
SOR > 3.0
不过光看这个,我们可能很难理解这些缩写背后究竟代表什么含义,下面我们就来具体看一下:
Qual:即quality质量值,以Phred格式存储,这个值越大,代表这里存在variant的可能性越高(计算方法与测序质量值Q20/Q30等类似)。
QD:QualByDepth,即经过深度校正的质量值,是使用Qual值除以位点过滤前的深度。因为Qual值会和深度成正相关关系,QD可以消除测序深度的影响,判断位点的真实质量值。
FS:FisherStrand,即经过fisher精确检验判断当前变异是否存在链特异的倾向。
MQ:RMSMappingQuality,所有比对reads比对质量的均方根,用来判断一个位点平均的比对质量。
MQRankSum:MappingQualityRankSumTest,对杂合位点进行的不同碱基之间比对质量的曼惠特尼秩和检验结果,通过ref和alt碱基的比对质量差异来评估位点的可信度。
ReadPosRankSum:ReadPosRankSumTest,仍然是对杂合位点进行的秩和检验,看不同的碱基是否倾向于出现在reads上的特定位置(例如接近reads的起始或者终止)。
SOR:StrandOddsRatio,使用OR值来判断变异位点链特异的程度,值越大链特异程度越高。
通过以上的指标进行过滤之后,我们就基本可以得到一个统计学上可信的变异数据集。如果是群体重测序数据,我们后续可以再进行MAF、变异完整度等指标的过滤,即可进行高质量的群体结构分析。
相关阅读
最新项目文章|菊花高密度遗传图谱构建和花瓣性状QTL定位|群体遗传专题