查看原文
其他

如何进行SNP/InDel检测及其影响因素?

枫玲 生信者言 2022-03-29

阅读用时全文共4小节,约4100字,约10分钟

关键词SNP/InDel、准确性、验证





当不同个体的基因组序列被测序后,相对人基因组参考序列而言,肯定存在差异:


  • SNP若只是序列上有一个碱基的不同,如参考基因组上某位置是A,而被测的人该位置是C,则该位点存在Single Nucleotide PolymorphismsSNP,即在人群中该位点存在单个核苷酸的多态性。


  • MNPMultiple Nucleotide Polymorphisms是相对于SNP而言的,连续多个碱基与人基因组参考序列不一致;


  • InDel存在一个或多个碱基对相对参考基因组序列被插入或删除,则称为INsertion and DELetion;长度一般在1kb以内;


  • SV相对人基因组基因组序列存在1kb到3Mb长度的插入、缺失、倒位、易位,并会导致出现特殊的现象:如融合基因 Fusion gene,即两个基因置于同一套调控序列下,构成的嵌合基因;如拷贝数变异 Copy number variation/CNV,即某基因组片段的拷贝数增加或减少(当然也会存在其他机制导致融合基因和CNV的出现)。

 

今天我们主要来看看SNP/InDel的特点及其如何对它们进行检测。


SNP相关的特征或概念:


  • 分子遗传标记物:在人基因上约1000nt就会存在一个SNP,一般频繁出现在CG序列上,并多数为C脱氨为T;


  • 转换transition/颠换transversion:转换是指嘌呤与嘌呤之间或嘧啶与嘧啶之间的变异;颠换是指嘌呤与嘧啶之间的变异;


  • 从氨基酸角度来定义分为三种:Synonymous同义突变(对应的氨基酸序列没有发生变化)、Missense错义突变(在一个密码子中一个碱基的变化导致编码出了另一个氨基酸,即对应的氨基酸序列发生了变化)、Nonsense无义突变(在一个密码子中一个碱基的变化导致出现终止密码子);


  • 从进化角度来讲:在人基因组上同义突变的比例会相对错义或无义突变较高;虽是同义突变或非基因区的突变,不会改变氨基酸的序列,但是可能会影响转录因子、基因剪切、mRNA的降解等,因此也不可忽视它们的存在哦。


  • SNP多态性:一般在人群中某个位点只存在两种碱基形式,但也存在三种或四种的情况;

 

InDel相关的特征或概念:


  • 移码突变:当插入或缺失的碱基个数不是3的倍数时,并使得DNA的读码框发生改变,导致插入或缺失位置之后的所有密码子都跟着发生变化。


  • 非移码突变:当插入或缺失的碱基个数是3的倍数时,并在开放阅读框内,则读码框不会发生改变;相对移码突变,该种Indel比较常见。


从遗传角度来看,SNP/INDEL还可划分为种系突变germline mutation和体细胞突变somatic mutation两种。简单的来说,种系突变是从父母那遗传得到,因此突变频率理论上应该是100%或50%或为野生型;体细胞突变可以理解为在日后生活中,接受某些外在影响的条件下,发生了DNA序列的改变。


从突变频率来讲,SNP/InDel还可划分为野生型(wildtype)、杂合突变(heterozygous)和纯和突变(homozygous)。野生型是指检测某位点的碱基是与人基因组参考序列上的一致,如人基因组参考序列上某位置是T,那野生型为TT;纯和突变是指某位置的碱基与参考序列不一致,均是另外一种碱基型,如CC;杂合突变是指某些DNA序列中该位置的碱基与人基因组参考序列一致,一部分DNA序列中该位置的碱基与人基因组参考序列不一致,如TC。

 

利用samtools进行变异检测


如果利用的是液相杂交捕获方法并经过了PCR过程,则需要先删除其中的duplication reads:

samtools rmdup aligned.sorted.bam aligned.sorted.rmdup.bam

samtools mpileup -l $Target -q 30 -Q 30 -L 10000 -D -S -m 3 -uf hg19.fa aligned.sorted.rmdup.bam | bcftools view - >raw.vcf


其中-l参数是指定对哪些区域进行变异检测;

其中-q参数是指定用于突变检测的reads比对质量必须大于等于30;

其中-Q参数是指定用于变异检测的reads中的碱基的质量值必须大于等于30;

其中-L参数是指定用于InDel检测的测序深度,默认是250X;

其中-D参数是指定输出每个位点的覆盖深度;

其中-S参数是指定输出每个位点的链偏好性P值;

其中-m参数是指定InDel的最小覆盖深度;

其中-u参数是指定输出非压缩的BCF文件格式;

其中-f参数是经过samtools fadix处理过的人基因组参考序列文件。

 

存储SNP/InDel变异的VCF文件的格式:


文件示例如下图,包括注释部分和结果部分。


注释部分写明了结果部分中所有标签的含义,结果部分是展示每个变异结果的详细信息。



第一列CHROM是SNP/InDel所在的染色体号;

第二列POS是SNP/InDel所在的染色体上的位置;

第三列ID是SNP/InDel在其他数据库中的编号,如图中展示的dbSNP数据库;

第四列REF是人基因组参考序列上该位置的碱基序列;

第五列ALT是被检测人在该位置上的碱基序列,其中“.”表示被检测人该位置的碱基序列与参考序列一致;

第六列QUAL是用数值来表示SNP/InDel被检测的准确性;

第七列FILTER指该SNP/InDel是否满足所有过滤条件,若满足则填写为PASS,若不满足哪一条过滤条件,则填写相应的标识;

第八列INFO可存储各种信息,格式为<key>=<data>;<key>=<data>;…,例如DP4=62,48,10,12的含义为参考型碱基的正链覆盖深度、参考型碱基的负链覆盖深度、突变型碱基的正链覆盖深度、突变型碱基的负链覆盖深度;

第九列FORMAT是指定之后每列的格式及数值的含义。

 

其他进行变异检测的软件



SNP/InDel检测的准确性与实验验证


那为何有多个软件或算法进行SNP/InDel的检测呢?其实进行SNP/InDel检测是一个很复杂的过程,有很多影响因素。


下面列举三条,但因为会不断的有新的软件或算法涌出,大家要不时的关注最新科研进展哦:


1) 测序深度:由于探针GC含量等导致某区域depth很低,如何在低覆盖度的情况下进行准确检测呢?


2) 测序错误率(如下图i)、PCR导致的错误(如下图ii)、链偏好性(如下图ii、iii)等,如何通过算法进行准确的识别呢?




3) 在存在InDel区域的比对准确性如何对比对结果进行校正,进行准确的检测呢?

 

尽然存在很多影响因素导致变异检测的准确性,那当遇到一个低质量、但突变的临床意义又是很重要的情况下,如何验证其准确性呢?


首先我们可以通过直观的方式查看突变所在区域reads的比对情况,如samtools tview –p chr7:55259515 aligned.sorted.rmdup.bam hg19.fa,图示为缺失突变后跟了一个SNP:



其次可通过一代测序(可验证突变频率大于20%的突变,如下图)或数字PCR(可检测低至0.1%或0.01%的突变)的方法进行验证。



以上内容讲解了SNP/InDel的概念、检测软件、存储SNP/InDel的VCF文件格式、影响检测准确性的多个因素及实验验证方法。


大家是否对SNP/InDel有了更深入、更全面的了解了呢?



/End.


扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存