什么是SNP?| 群体遗传专题
SNP(single nucleotide polymorphism),从它的英文全称我们就可以看出,它指的是单核苷酸的变异或者说多态性。它还有个别称,叫SNV(single nucleotide variation)。在部分人类的研究当中,只有人群频率高于1%的才称之为SNP,不过广义上来说这两者可以混用。所以我们可以说,SNP,单核苷酸多态性,指的就是基因组中一个核苷酸替换成了另一个核苷酸的变异。比如下图中,一个AT碱基对替换成了GC碱基对,即是一个SNP位点。
不过,无论是“单核苷酸多态性”还是“单核苷酸变异”,都是相对而言的,所以SNP数据需要基因组重测序作为基础,即对个体的基因组进行测序之后将测序数据比对到基因组上,与基因组发生差异的位点,便被检测为一个SNP位点。
就突变的类型而言,SNP包括转换(transition)和颠换(transversion),转换指的是嘌呤替换成嘌呤或者嘧啶替换成嘧啶,颠换指的则是嘌呤和嘧啶之间的相互替换,两者发生的频率会有所差异,转换发生的概率会比颠换要高。
从SNP发生的位置上说,不同的SNP会对基因组造成不同的影响。在基因间区,即基因组上基因之间的区域发生的SNP可能不会对基因组行使的功能造成影响,而在内含子或者基因上游启动子区发生的突变可能会对基因造成一定的影响;而发生在基因外显子区的突变,则视其有没有造成编码氨基酸的改变,对基因功能的影响也有差异。(当然了,即便两个SNP都造成了氨基酸的差异,但是对蛋白质结构的影响不同,最终显示在生物表型上的影响也可能大相径庭)。
不过,在基因位置发生的SNP数通常要显著小于非基因位置发生的SNP,因为一个影响基因行使功能的SNP,通常会对个体的生存造成负面的影响,从而导致这个携带这个SNP的个体在群体当中被淘汰掉。
当然了,对于二倍体生物来说,染色体都是成对存在的,但一对染色体不可能每个碱基都完全一致。所以有的SNP还会出现杂合,即染色体上该位置有两种碱基存在。而在一个群体当中,不同个体的SNP基因型汇总在一起,即成为了后续绝大多数分析的基础。与性状结合,可以判断SNP作为分子标记与性状是否连锁,判断性状的QTL(quantitative trait locus,数量性状位点),进行GWAS(genome-wide association study)或遗传图谱构建;可以利用SNP作为分子标记判断个体之间的进化关系;可以筛选功能SNP并研究疾病相关突变;可以通过SNP的等位基因频率变化或杂合率等指标等判断基因组上受选择的区域……等等等等,结合现在高通量测序的发展,一组测序数据即可获得数十万甚至更多的SNP位点,可以说SNP现在已经成为了群体遗传研究的基石。
当然了,基因组中碱基的变化并不都是一种碱基替换成另一种碱基(尽管这是最常见的),也可能一个或几个碱基发生了丢失,或者两个碱基中间插入了几个别的碱基。这种小范围的插入和缺失被合起来称作InDel(insertion and deletion),专指短片段(一个或几个碱基)的插入和缺失。发生在基因位置的InDel同样可能对基因的功能产生影响,所以有的时候InDel在研究当中也可能扮演重要的角色。但是总体来说,SNP作为群体遗传学基石的地位仍然不可撼动。
想知道更多关于群体遗传的知识,不妨购买联川生物出品的《NGS时代的BSA百科全书》,关于BSA和Graded-seq的知识点、其他定位方法以及精细定位的思路尽在掌握,点击下方阅读原文即可购买。
南岛扩散与澳洲野狗:重测序揭示澳洲野狗起源之谜 | 群体遗传
MBE:你爱吃的核桃是怎么来的?重测序告诉你进化起源 | 群体遗传
阅读原文