关联分析和连锁分析 | 群体遗传专题
在说关联分析和连锁分析之前,我们先聊聊性状和QTL。
广义来说,大千世界,凡是肉眼可见的表现都能称之为性状(当然还有肉眼凡胎看不到的性状)。在某一个物种中,某个性状可能会有不同的表现,比如人头发有直有卷,孟德尔的豌豆有圆有扁。这种我们称之为相对性状。性状由对应的基因控制。根据控制基因的个数,可以把性状分为质量性状和数量性状。质量性状由一对或者少数几对基因控制,表现在表型数据上就是不连续的变异,不恰当的例子是人分为男女,没有中间型(人妖除外)。数量性状是连续变异的性状,其遗传基础复杂,受多基因控制,且易受环境影响,比如人的身高,有小巨人姚明,也有小土豆内特·罗宾逊,还有被吐槽身高的半残废的靠谱er。通常大多数的性状为数量性状,比如作物的产量、质量、株型、生长发育;动物的肌肉、脂肪沉积、产蛋/肉等性状。控制数量性状的基因在基因组中的位置称为数量性状基因座即QTL(quantitative trait locus)。QTL定位需要一个群体,而群体又分为遗传分离群体和自然群体。以下的连锁分析和关联分析就是分别基于这两种群体展开。遗传群体群体通俗来说就是基于人工杂交/回交若干代后形成的遗传分离群体,咱们常说的F1,F2,BC,DH,RIL,NIL等等都属于遗传分离群体。自然群体则是收集的不同品种,地方种,或者种质资源等等材料。某些特殊的群体比如NAM,MAGIC可同时进行连锁分析和关联分析,本文暂且不表。
为了探明基因(标记)和性状之间的联系(相关性和因果性),遗传学家和统计学家进行了很长时间的探索(QTL定位)。这个时候,连锁分析(linkage analysis)就登场了。基于连锁分析的QTL定位即是以遗传连锁图谱为基础,通过数量性状的表型值与分子标记间的连锁分析,即当标记与特定性状连锁时,不同标记基因型个体的表型值间存在显著性差异,以此来确定各个数量性状基因座位在染色体上的位置和效应,以及各个QTL间、与环境之间的互作效应。常用的基于连锁分析定位方法是利用双亲本杂交(回交)材料所构建的遗传分离群体进行的。定位及效应估计的精确性和完整性在很大程度上依赖于定位的统计模型和方法。QTL定位方法主要有单标记分析法(老古董)、区间作图法(F1群体中较常用)、复合区间作图法(非cp类群体中常用)、完备区间作图法等。
目前通过正向遗传克隆的大多数基因均是采用连锁分析进行初定位,然后进行精细定位,定位的准确性较高,但是连锁以检测群体内的遗传重组为基础,在构建遗传分离群体时由于杂交/自交次数的限制,发生的重组次数有限,所以定位的精度也有限。此外分离群体一般由两个特定的材料构建,因此连锁分析只涉及同一座位的两个等位基因,而且这两个亲本材料也许仅能代表该物种一小部分的相关表型变异,这就导致了在不同的遗传群体中发生分离的可能是不同的。
关联分析(Association Mapping)最开始应用在人类遗传研究中,在2001年被首次被引入到植物研究中。关联分析是以连锁不平衡(linkage disequilibrium)为基础的鉴定群体(一般是自然群体)中控制目标性状的功能基因以及挖掘功能位点的分祈方法。选锁不平衡是生物群体在自然选择过程中出现的一种现象,是处在不同基因座上等位基因的非随机组合。连锁不平衡的程度通常是以D为基础的两个数值——D’值和r2值进行衡量,D’与r2值的范围都是从0到1。当两个基因座上的等位基因分别为A、a和B、b时,其等位基因组成的单倍型为AB、Ab、aB、ab四种。当D≠0时,两个基因座之间处于连锁不平衡。当D’与r2=1时,说明基因座之间完全选锁不平衡。一般会采用D’或者r2值>0.8来进行单体型分析。针对自然群体,关联分析策略的选择及其分辨率取决于目标群体内的连锁不平衡程度及等位基因或单倍型的频率。
关联分析具有以下优点:
花费时间少,一般采用自然群体为材料,无需构建遗传分离群体;
广度大,关联分析群体具有广泛的变异,并且关联分析可以同时检测相同位点的多个等位基因,将优良等位变异直接利用于育种实践;
精度高,关联群体中发生的重组为历史重组,其定位精度可以大大提高,某些自然群体甚至可以精确到单个SNP的水平。
尽管关联分析在数量性状的解析中存在上述优势,但也具有一些不足之处。群体遗传结构和等位基因频率的存在,可能会导致假阳性的关联结果。等位基因频率的影响会通过MAF(最小等位基因频率)对相关SNP进行过滤。而群体结构控制一般采用两种方法:一个是采用用覆盖全基因组的随机标记来估计群体的结构对关联分析的影响,并假定这种结构对所有座位的影响都是相近的;另一个是利用随机标记估计群体结构(STRUCTURE),然后整合到统计模型,比如常见的MLM模型。此外,对于某些小众的但是具有特殊表型(比如胁迫抗性)种质资源,在进行关联分析时,其SNP数据可能会被过滤掉。这种情况下,需要构建双亲的遗传分离群体进行QTL定位。
不论是连锁分析还是关联分析,单独使用都具有一定的局限。鉴于关联分析与连锁分析存在优势互补,结合连锁分析和关联分析两种方法进行性状定位已经成了黄金搭档。具体到项目设计来说,可以以200个左右的自然群体材料进行多个表型的全基因组关联分析,然后从这200个材料中选择感兴趣的具有极端表型的双亲构建遗传分离群体,通过高密度遗传图谱QTL定位或者BSA分析,相同性状的共定位loci即是下一步需要克隆基因的位点。后续靠谱er会针对这类思路进行相关文献的解读,请读者朋友们保持关注。
参考文献
Yu J, Buckler E S. Genetic association mapping and genome organization of maize. Current opinion in biotechnology, 2006, 17(2): 155-160.