查看原文
其他

变异形式专题-SNP多态性

lakeseafly 生信菜鸟团 2020-02-03

定义

单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称SNP,读作/snip/)指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变,造成包括人类在内的物种之间染色体基因组的多样性。

例如,来自两个不同个体的DNA片段,AAGCCTAAAGCTTA为等位基因。几乎所有常见的单核苷酸多态性(SNP)位点只有两个等位基因。

单核苷酸多态性(SNP)位点的分布是不均匀的,在非编码区比在编码区更常见。一般来说,自然选择倾向于保留最利于遗传适应性的单核苷酸多态性(SNP)位点。其他因素,如基因重组和突变率也可判断单核苷酸多态性(SNP)位点的密度。

特点

单核苷酸多态性(SNP)的密度可以通过微卫星DNA进行预测。AT微卫星是单核苷酸多态性(SNP)密度有效的检测方式,在单核苷酸多态性(SNP)显著降低及较低GC含量的区域,AT出现大片重复。

在一个种群中,单核苷酸多态性(SNP)可以以次要等位基因频率的形式体现,即那些等位基因频率很低的基因座。单核苷酸多态性(SNP)等位基因的频率在不同人群中具有差异性,因此,常见于某地区或民族的单核苷酸多态性(SNP)等位基因在其他的地区或民族则可能很少见。

SNP占DNA序列差异性之比例

于所有可能的DNA序列差异性(sequence differenciation)中,SNP是最普遍发生的一种遗传变异。在人体中,SNP的发生机率大约是0.1%,也就是每1200至1500个碱基对中,就可能有一个SNP。目前科学界已发现了约400万个SNPs。平均而言,每1kb长的DNA中,就有一个SNP存在;换言之每个人的DNA序列中,每隔1kb单位长度,就至少会发生一个「单一碱基变异」。由于SNP的发生频率非常之高,故SNP常被当作一种基因标记(genetic marker),已用来进行研究。

但必须注意的是,并非所有的SNP都有临床意义。对疾病发生和药物治疗有重大影响的SNP,估计只占数以百万计SNP的很小一部分。即使产生了SNP,也不一定造成蛋白质氨基酸编码改变或基因表达调控改变,或导致蛋白质结构或活性,而造成对于药物的特殊影响。

类型

 
单核苷酸多态性(SNP)根据其在基因中的位置,可以分为基因编码区、基因非编码区、基因间隔区(基因之间的区域)。由于基因序列的简并性,含有编码序列的单核苷酸多态性(SNP)不一定会改变蛋白的氨基酸序列。

编码区的单核苷酸多态性(SNP)有两种类型:同义和非同义。同义单核苷酸多态性(SNP)并不影响蛋白质序列,而非同义单核苷酸多态性(SNP)则会改变蛋白质的氨基酸序列。

不在蛋白质编码区的单核苷酸多态性(SNP)仍可能影响基因剪接、转录子结合、信使RNA降解或非编码区的RNA序列。受到这种单核苷酸多态性(SNP)影响的基因表达被称为单核苷酸多态性表达(ESNP),可能发生在此基因的上游或下游。

单核苷酸多态性(SNP)可能分布于编码基因段或非编码基因段。由于存在冗余基因序列,编码段中的单核苷酸多态性(SNP)不一定会影响蛋白质中的氨基酸序列。

SNP的重要性

从演化的观点来看,SNP具有相当程度的稳定性,即使经过代代相传,SNP所引起的改变却不大,因此可用以研究族群演化

SNP决定着群体和个体基因序列的细微差别,科学家将可凭此找到疾病的易感基因,并使个体化医疗成为可能。先前的研究证实,人类的大部分疾病,如三分之二的肿瘤可以被预防。

SNP 数据库

生物信息学数据库用于对单核苷酸多态性(SNP)相关研究的检索。单核苷酸多态性数据库(dbSNP)信息来自生物技术信息中心 (NCBI)。以下列出一些常用SNP相关的数据库:

数据库或工作组名称主要特点
SNPedia维基风格,可用于支持人类基因组注释,解释和分析
OMIM数据库描述多态性与疾病之间的关联
人类基因突变数据库提供人类遗传性疾病和功能性SNP的基因突变
GWAS中央允许用户查看目前单个或多个GWAS的大体水平
国际SNP图谱工作组通过校对嵌入的较大克隆体的基因组序列绘制出基因库中每个SNP的周围序列
国际人类基因组单体图谱计划在每个项目中研究能识别标记的SNP用于确定单倍体的采集

SNP的应用

  1. 寻找致病基因 : 
    个体间的基因差异主要在于SNP,遗传疾病中已发现SNP的例子,如镰刀型血球性贫血、APOE ε4 等位基因参与晚期突发老年性痴呆、V因子1691G →A等位基因(FV Leiden)参与深静脉血栓形成、以及细胞色素P450(CYp)基因的几种形态影响药物代谢等,原因都出在SNP。但必须注意的是,并非所有的SNP都有临床意义。对疾病发生和药物治疗有重大影响的SNP,估计只占数以百万计SNP的很小一部分。

  2. 诊断及预测致病风险 : 
    藉由对致病基因的了解与认识,可进行比对,更正确地诊断与预测潜在的或遗传性疾病。

  3. 药物基因体学及新药的发现 : 
    临床治疗实践清楚地表明,药物的有效剂量有着极大的个体差异,可以视为一种基因的表型(phenotype)。药物目标的基因变异,会改变药物与目标蛋白间的相互作用;负责运输药物的蛋白其基因变异,会影响药物的吸收、运送和排出;药物代谢酶的基因变异,会改变药物的代谢;DNA修复酶的基因变异,则可改变药物的安全性。利用SNP与现有的基因诊断体系接轨,能加速检验医学从表型诊断转向基因型诊断,并预防药物副作用,提高疗效。此外,对于药物效果也可有进一步的认识,甚至可以预测用药结果,减少药物误用或滥用的情况。

  4. 生物晶片快速检测 : 
    目前DNA微阵列或基因晶片要进行大量的SNP筛检已可自动化,并可应用于亲子鉴定及最有效、精确的身分识别(ID)。

  5. 研究族群演化 : 
    SNP具有相当程度的稳定性,即使经过代代相传,SNP所引起的改变却不大,可用来研究族群演化。

实战:SNP calling

在了解了这么多关于SNP的知识后,下面给大家分享生物技能树中一个简单易学的实战链接。只要短短几行代码就可以,轻松了解SNP calling 的基本流程,深一步了解,怎样进行snp的数据分析。(实战链接请点击查看原文)

References:

  1. Wikipedia -https://zh.wikipedia.org/wiki/%E5%96%AE%E6%A0%B8%E8%8B%B7%E9%85%B8%E5%A4%9A%E6%85%8B%E6%80%A7

  2. 生物实验室

    http://bioinfo.cs.ccu.edu.tw/wiki/doku.php?id=single_nucleotide_polymorphism_snp


还有更多文章,请移步公众号阅读。

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存