查看原文
其他

数量性状基因定位研究中若干常见问题的分析与解答

李慧慧&张鲁燕 联川生物 2022-05-21


摘  要:QTL作图是基因精细定位、克隆以及有效开展分子育种的基础,在利用QTL作图开展数量性状基因定位研究的过程中经常会碰到一些问题,与统计方法有关的一些问题包括:LOD的统计学意义是什么?检测QTL的可信度和LOD临界值的关系是什么?如何评价不同的QTL作图方法?提高QTL检测效率的途径有哪些?与遗传参数估计有关的一些问题包括:QTL的贡献率是如何计算出来的?如何确定QTL有利等位基因的来源?选择基因型分析的有效性如何?复合性状是否适宜于QTL作图?与作图群体及遗传图谱有关的一些问题包括:QTL作图群体中表型数据是否要求服从正态分布?加密标记是否可以显著提高QTL检测功效?缺失分子标记对QTL作图有什么影响?奇异分离标记对QTL作图有什么影响?笔者试图结合我们多年的研究工作对这些具有共性的12个常见问题做出分析和解答,供科研工作者参考。
关键词:数量性状;QTL作图;完备区间作图;似然比检验;功效分析


经典数量遗传学建立在多基因假说基础之上,把控制数量性状的基因作为一个整体,重点研究各种遗传效应与遗传方差的分解和估计,不区分个别基因在表型效应上的差异。分子标记连锁图谱的大量出现,使得我们可以像研究质量性状基因一样研究数量性状基因,也可以把单个数量性状基因(quantitative trait gene or locus,简称QTL)定位在染色体上,并估计其遗传效应,这一过程称为QTL作图或定位。QTL作图是基因精细定位和克隆的基础,目前已成为数量性状遗传研究的常用方法。QTL定位结果可以帮助育种家获得目标性状的遗传信息,借助与QTL连锁的分子标记在育种群体中跟踪和选择有利等位基因,提高选择的准确性和预见性。但是,在利用QTL作图开展遗传研究的过程中也经常碰到一些问题,这些问题大致可分为有关作图统计方法、有关遗传参数估计、以及有关作图群体及连锁图谱等三大类。笔者试图结合我们近些年的研究工作对具有共性的12个问题做出分析和解答,供广大科研工作者在利用QTL作图开展遗传研究时参考。与作图统计方法有关的四个问题是:LOD的统计学意义是什么?检测QTL的可信度和LOD临界值的关系是什么?如何评价不同的QTL作图方法?提高QTL检测效率的途径有哪些?与遗传参数估计有关的四个问题是:QTL的贡献率是如何计算出来的?如何确定QTL有利等位基因的来源?选择基因型分析的有效性如何?复合性状是否适宜于QTL作图?与作图群体及遗传图谱有关的四个问题是:QTL作图群体中表型数据是否要求服从正态分布?加密标记是否可以显著提高QTL检测功效?缺失分子标记对QTL作图有什么影响?奇异分离标记对QTL作图有什么影响?


1  QTL作图中的统计学问题1.1  LOD的统计学意义是什么?区间作图(Interval mapping,简称IM)、复合区间作图(Composite interval mapping,简称CIM)和完备区间作图(Inclusive composite interval mapping,简称ICIM)均利用极大似然估计原理,通过一维扫描在全基因组上逐点检测QTL的存在。检验的零假设(H0)是扫描位点上不存在QTL,备择假设(HA)是扫描位点上存在一个QTL,似然比统计量(LRT)用来衡量扫描位点上存在QTL的可能性大小。似然比统计量的一般定义是,其中ln是自然对数函数,L0是H0下似然函数的极大值,LA是HA下似然函数的极大值。似然比统计量大多数情况下有很好的统计学性质,即渐近服从分布,分布的自由度为两种假设下独立变量个数之差,因此容易确定给定显著性水平下检验统计量的临界值。一些研究表明QTL作图时的似然比统计量可能不服从单一分布,但却可以用2个不同自由度的混合分布来近似,因此也可以确定给定显著性水平下检验统计量的临界值。
Lander和Botstein在提出IM的同时也提出利用人类遗传研究中常用的LOD (Likelihood of odd)值作为检验QTL是否存在的标准。LOD值定义为极大似然函数比的常用对数,即,因此,若LA是L0的10倍,则LOD=1;如果LA是L0的100倍,则LOD=2;如果LA是L0的1000倍,则LOD=3。根据LOD值和LRT值的定义,不难得到它们之间有如下关系:


1.2  检测QTL的可信度和LOD临界值之间的关系是什么?与其他假设检验一样,QTL作图中的检验也可产生四种结果(图1)。当一个位点上没有QTL,通过测验却错误地判断有QTL存在,称这种现象为假阳性;当一个位点上有QTL,通过测验判断有QTL存在,称这种现象为真阳性;当一个位点上有QTL,通过测验却错误地判断没有QTL存在,称这种现象为假阴性;当一个位点上没有QTL,通过测验判断没有QTL存在,称这种现象为真阴性。假阳性和假阴性是统计测验中的两类错误,犯第一类错误(或假阳性)的概率(α)等于H0为真时被拒绝的概率,即,α=P{拒绝H0|H0为真}=P{假阳性}/[P{假阳性}+P{真阴性}]。
犯第二类错误(或假阴性)的概率(β)等于H0为假时未被拒绝的概率,即,β=P{未拒绝H0|H0为假}=P{假阴性}/[P{假阴性}+P{真阳性}]。
对于特定的检验方法而言,在一定的试验精确度下,降低α则会提高β,降低β则会提高α,同时降低α和β的途径是提高试验精确度和增加样本量。犯第一类错误的概率α一般在检验前设定,对一定的检验方法,给定αβ也是确定的。但是除t-测验外,大多数统计假设检验给定α下的β难以用代数解析式表示出来。
表1前5列给出LOD值1.0~5.0时对应的LRT值以及三种自由度下一次检验中犯第一类错误概率,犯第一类错误概率α有时也叫做显著性概率;后4列给出显著性概率0.1~0.0001时对应的LOD临界值。以自由度2为例,LOD=1.30对应的显著性概率为0.05,如果只做一次假设检验,采用这样的LOD临界值就能保证假阳性的概率不超过0.05,即鉴定出的QTL是假阳性的概率低于0.05,或者说鉴定出的QTL为真的概率超过0.95。基于区间测验的QTL作图,一般在基因组内所有染色体上按一定步长逐点检验QTL的存在,而这些检验又不是完全独立的,因此也很难确定一次检验的显著性水平所对应的全局α。例如,如果每次检验均采用临界值LOD=3,当自由度为2时每个扫描位置对应的α近似为0.001,QTL作图需要知道的是全基因组检验后的。由于QTL作图的复杂性,如涉及到多次非独立假设检验,不同物种有不同大小的基因组,不同作图群体有不同的标记数,零假设下似然比检验统计量服从什么样的渐近分布尚无定论,因此难以准确确定LOD临界值对应的一次检验和全局,但一些非参数统计方法已用于给定全局后LOD临界值的确定[11-12]。一般认为采用2~3的LOD临界值可以把全局控制在0.05以内,在显性QTL和互作QTL作图中,似然比统计量有较大的自由度,还可适当考虑采用较高的临界值,如3~4。但通过理论或模拟,进一步明确QTL作图中似然比检验统计量的渐近分布还是必要的,笔者推测渐近分布可能与染色体条数、每条染色体长度、标记密度和QTL遗传效应类型等因素有关。
与所有假设检验一样,采用较高的LOD临界值会更好地控制假QTL的发生,同时遗传效应较小的真QTL却不易被检测出来。如何平衡两类错误的概率,这不仅仅是统计学问题,还要考虑到具体的研究目标。如果QTL作图只是初步确定基因在染色体上的位置,然后根据作图结果构建其他次级群体对检测到的QTL进行精细定位、甚至图位克隆,然后开展转基因工作,这类研究几乎不容许假QTL的发生。此时要适当提高检验QTL时的LOD临界值,保证后续研究中QTL的可靠性。另一方面,如果研究目标是把QTL作图结果用于标记辅助选择聚合育种,这时只有尽可能多地检测出控制育种目标性状的QTL,才能保证对所有控制育种性状的基因进行选择,因此有必要适当降低检验QTL时的LOD临界值,使得遗传效应较小的QTL也有机会被检测出来。此时即使有一些假QTL的存在,也不至于造成很大的损失。图1  QTL定位中假设检验的两类错误。阴影部分表示检验统计量LOD值的分布,LOD0表示临界值


表1  3种自由度下不同LOD值对应的犯第一类错误概率()和不同下对应的LOD临界值
1.3  如何评价不同的QTL作图方法?图2给出一个模拟的加倍单倍体(DH)群体中ICIM、CIM和IM三种方法的LOD值和估计遗传效应的曲线图。遗传模型中包含7个QTL,第1染色体上1个,第2和4染色体上分别有2个相引相连锁QTL,第3染色体上有2个互斥相连锁QTL,所有QTL遗传效应的绝对值为1,效应的方向如图2箭头所示。从图中我们可以很直观地看到不同QTL作图方法找到的QTL不尽相同,IM无法准确定位连锁QTL,CIM无法准确定位互斥连锁的QTL。统计检验的功效定义为,即发现真QTL的概率,常用来比较不同统计方法的有效性。QTL作图包含着复杂的统计假设检验,难以从理论上推导出不同QTL作图方法的统计功效。一般采用模拟方法比较不同方法QTL检测功效和假阳性的大小,功效高同时又具有较低假阳性在统计上就是较好的方法。
我们用独立遗传模型说明功效的计算(表2),假定基因组包含10条染色体,每条长度160 cM且均匀分布17个标记,8个QTL(IQ1~IQ8)分别位于前8条染色体,另外2条为空白染色体。为简单起见,我们用IQ2、IQ5、IQ6和IQ7说明功效的计算,4个QTL分别解释2%、5%、10%和20%的表型变异(即PVE)。假定表型方差为1.0,这样加性遗传效应等于PVE的平方根(表2)。模拟4个DH群体,群体大小均为200,每个群体中ICIM和IM检测到的所有超过LOD临界值2.5的QTL列于表3,用于统计每个QTL检测功效以及假阳性。以第一个模拟群体为例,ICIM检测到5个QTL,其中3个分别位于第5、6和7条染色体的51.10、60.00和70.00 cM处,分别落在了IQ5、IQ6和IQ7的10 cM置信区间内(表3),因此当置信区间为10 cM时把IQ5、IQ6和IQ7的统计功效加1;第2条染色体上检测到一个QTL,与IQ2的距离为6.90 cM,不在IQ2的10 cM置信区间内,第7条染色体上40 cM处检测到一个QTL,既不在IQ7的10 cM置信区间内也不在其20 cM置信区间内,因此判定为假阳性。同理,IM发现4个QTL,其中两个分别位于第6和7染色体的60.00 cM和70.00  cM处,分别落在IQ6和IQ7的10 cM置信区间内,这2个QTL对应的功效加1,另外2个不在这4个QTL的10 cM置信区间内,因此判定为假阳性。
按照上述算法,对于4次模拟来说,在LOD临界值2.5下当置信区间为10 cM时(表3),ICIM检测IQ2、IQ5、IQ6和IQ7的功效分别为2、1、3和2,即IQ2在4次模拟中被检测到2次,IQ5被检测到1次,IQ6被检测到3次,IQ7被检测到2次;IM检测4个独立QTL的功效分别为1、0、3和2。ICIM检测到的16个QTL中有8个假阳性,IM检测到的13个QTL中有7个假阳性。当置信区间为20 cM时(表3),ICIM检测IQ2、IQ5、IQ6和IQ7的功效分别为3、2、4和4,IM的检测功效分别为1、1、3和4;ICIM检测到的16个QTL中有3个假阳性,IM检测到的13个QTL中有4个假阳性。因此通过100甚至1000次的模拟,就能得到准确的检测功效和假阳性率,从而判断不同QTL作图方法的有效性。图2  200个加倍单倍体家系群体中区间作图、复合区间作图和完备区间作图的比较假定一个基因组包含6条染色体,每条长度为120 cM,等距离分布13个标记,第1条染色体上35cM处存在1个QTL,第2、3、4条染色体上都在35和68cM处存在2个QTL,图中箭头表示QTL的近似位置,朝上箭头表示QTL的加性效应为正,朝下箭头表示QTL的加性效应为负,效应的绝对值均为1。


表2  8个独立遗传QTL在基因组中的位置、加性遗传效应、解释表型变异的百分数以及10 cM和20 cM置信区间表3  利用4个模拟DH群体计算完备区间作图和区间作图两种方法的检测功效和假阳性,QTL置信区间长度分别是10 cM或20 cM
 
1.4  提高QTL检测功效的途径有哪些?
统计上提高假设检验功效的途径主要是增加样本量和减小试验误差,对QTL作图来说就是增大作图群体、减小表型测定时的误差(即提高性状的遗传力)。以ICIM为例,增大群体对提高QTL检测功效是明显的(图3)。对大小为100、200和400的群体来说,把PVE=4%的QTL定位到10 cM置信区间内的概率分别为29%、67%和91%;而把PVE=10%的QTL定位到10 cM置信区间内的概率分别为79%、97%和100%。

减小表型误差则间接提高单个QTL的贡献,如果通过降低表型误差把QTL对表型的贡献率由4%提高到5%,对大小为100、200、400的群体来说,检测功效则分别由29%、67%和91%提高到44%、77%和94%。因此,QTL作图研究中作图群体在资源允许的条件下要尽可能地大,同时表型鉴定时要尽量减小随机误差。当然对受环境影响大并具有较大基因型和环境互作的性状,还要在多地点/多年份进行表型鉴定。

降低表型变异也可间接提高PVE,从而提高QTL的检测功效。遗传研究中近等基因系和染色体片断置换系都是通过这种途径提高遗传分析的可靠性。举例来说,假定某群体中3个独立遗传QTL的遗传方差分别为0.1、0.2和0.3,误差方差为0.4,因此3个QTL分别解释10%、20%和30%的表型变异,在这3个QTL的近等基因系中假定QTL的遗传效应和误差方差保持不变,那么3个QTL近等基因系群体的表型方差分别为0.5、0.6和0.7,3个QTL解释的表型变异则增加到20%、33%和43%,因此在这3个近等基因系群体中进行QTL定位研究将更加有效。
图3  QTL的检测功效与群体大小的关系


2  QTL作图中的遗传学问题
2.1  QTL的贡献率是如何计算出来的?
一个QTL所解释表型变异(PVE,又称为QTL的贡献率)的计算公式是:,其中VG是QTL的遗传方差,VP是表型方差。在一个无奇异分离的群体中,QTL的遗传方差只依赖于QTL的遗传效应,效应大的QTL同时也具有较高的PVE;如果存在奇异分离,QTL的遗传方差除依赖于QTL的遗传效应外,还依赖于基因型频率,这时效应大的QTL,其PVE不一定就高。以F2群体为例,假定QTL三种基因型QQ、Qq和qq的频率为f2、f1和f0,QTL的加显性效应为a和d,

例如,一个QTL的加显性效应均为1,即完全显性,当f2=0.25、f1=0.5和f0=0.25即不存在奇异分离时,VG=0.75;当f2=0.4、f1=0.5和f0=0.1时,VG=0.36;当f2=0.5、f1=0.5和f0=0.0时,VG=0,这时QTL无法被检测出来。大多数作图软件中,QTL的遗传方差都是根据三种QTL基因型的观测频率计算得出,因此QTL作图研究中,出现遗传效应大而PVE偏低的情形也是正常的。

QTL间的互斥连锁甚至可能造成单个QTL的PVE或两个QTL的PVE之和超过100%的情形。假定亲本的基因型为Q1Q1Q2Q2和q1q1q2q2a1a2分别为2个连锁QTL的加性效应,2个位点间的重组率为r。在双亲衍生的DH群体中,4种基因型频率和基因型值如表4。RIL群体中,只需将r用代替2个QTL的遗传方差分别为,总遗传方差为:

因此,只有在r=0.5的情况下,才有。当2个QTL间存在连锁并且a1和a2的效应方向相反时(即处于互斥连锁状态),,造成2个QTL的PVE之和甚至单个QTL的PVE大于100%的情况。例如,不考虑随机环境误差和其他遗传变异,当a1=1.0,a2=-1.0,r=0.1,时,,表型方差,故两个QTL理论PVE均为125%。在这样的遗传模型下,ICIM仍然可以较准确地定位到两个紧密连锁的QTL,效应的估计也是近似无偏的(图4)。因此当QTL间存在连锁时,2个QTL所解释的遗传方差不等于它们遗传方差之和,即方差不具有可加性,因此由方差计算出的PVE之间也不具可加性。


表4  两个连锁QTL在DH群体中4种基因型的频率和基因型值,a1代表Q1-q1的加性遗传效应,a2代表Q2-q2的加性遗传效应


图4  一个模拟的包含200个加倍单倍体家系作图群体
一条长度为120 cM的染色体上有一对重组率为0.1的互斥连锁QTL,遗传效应分布为1.0和-1.0,随机误差方差假定为0.4,标记间的距离为2 cM。


2.2  如何判断QTL有利等位基因的来源?
确定每个QTL上有利等位基因的来源是把作图结果应用于分子育种的前提。假设一个QTL上有两个等位基因Q或q,分别代表两个亲本中的等位基因,这样就有3种可能的基因型:QQ、Qq和qq。我们用表示P1(QQ)的平均表现,表示P2(qq)的平均表现,表示F1(Qq)的平均表现,并且qq代表较小的亲本基因型,QQ表示较大的亲本基因型。m表示中亲值,即两个亲本的平均值,记为。亲本离中亲值的距离为a,或者说,即a为大值亲本(QQ)与小值亲本(qq)之差的一半,是正值。F1离中亲值m的离差为d,其值可正可负(图5)。亲本与中亲值之差a称为加性效应,F1与中亲值之差d称为显性效应,这就是经典数量遗传中的加显性遗传模型[3]。Q对q并不一定具有显性,只表示取较大值或有较大的效应,所以可以是无显性,可以是部分显性,也可以是完全显性或超显性。

QTL作图中常用2、1和0分别表示3种标记或QTL的基因型,以亲本Harrington和TR306衍生的大麦DH群体[4,8,16]为例。亲本Harrington和TR306的平均粒重分别为38.7 mg和45.0 mg,QTL作图时分别用2表示Harrington的标记型、0表示TR306的标记型。因此如果加性效应为正,说明Harrington携带的等位基因起到增加粒重的作用,TR306携带的等位基因则起到降低粒重的作用;如果某个QTL加性效应为负值,说明Harrington携带的等位基因起到降低粒重的作用,TR306携带的等位基因则起到增加粒重的作用。从表5的结果来看,9个被检测到的控制粒重的QTL中有6个具有负的加性效应,说明这6个QTL上提高粒重的等位基因来源于粒重较高的亲本TR306,但亲本Harrington在qKWT2-1、qKWT2-3和qKWT3-2这3个QTL上携带着提高粒重的等位基因,这些基因解释了群体中的超亲分离现象。育种中高粒重一般来说是理想性状,因此在利用粒重QTL作图结果开展单标记或区间标记辅助选择时,对qKWT2-1、qKWT2-3和qKWT3-2应该选择亲本Harrington的标记类型,其他QTL应该选择亲本TR306的标记类型,这样才能选择到所有增加粒重的等位基因。

图5  一个位点的数量性状加显性遗传模型


表5  大麦DH群体中检测到的粒重QTL


2.3  选择基因型分析的有效性如何?
QTL定位和基因精细定位时通常利用全群体分析方法,但是全群体分析需要测定群体中所有个体的表现型和基因型,要检测到微效的QTL需要大量的样本才能达到相应的功效,花费较高。相比较,选择基因型分析(selective genotyping)一般利用分离群体的双尾或单尾极端表型个体,分析标记与QTL的连锁关系,检验标记基因型在两极端类型内的分离比例是否偏离孟德尔规律,是一种花费较低的方法,常常被用于检测控制质量性状的主效QT。在对数量性状遗传分析时,选择基因型分析的QTL检测效率如何呢?通过模拟分析大量遗传模型下多种因素对选择基因型作图结果的影响,并利用真实群体比较选择基因型分析与全群体作图结果的差异[20],我们得到以下结论(表5,图6)。

选择基因型分析的检测功效一般都高于IM的检测功效,但是低于ICIM的检测功效。增大群体能迅速提高选择基因型分析的检测功效,在不同群体大小下,选择比例介于0.15~0.35时检测功效较高。而对于连锁QTL,增大标记密度有助于检测连锁QTL。选择基因型分析对加性QTL的检测功效不受它们之间互作效应的影响。换句话说,两个互作的加性QTL检测功效与这两个QTL只有加性没有上位效应时的检测功效相当。选择基因型分析无法检测到只存在上位性而没有加性效应的QTL。利用真实群体(包括RIL,DH,BC,F2群体)比较选择基因型分析与全群体ICIM的结果,发现对于只存在加性效应的群体,两种方法的作图结果一致性较好,而对于F2群体,选择基因型分析只能检测到加性QTL,并且双向选择的作图效果远远优于单向选择的。

图6 大麦DH群体完备区间作图和选择基因型分析作图结果


2.4  复合性状是否适宜于QTL作图?
植物育种中,有不少性状可以看作是由两个或两个以上性状的代数运算得到的,如玉米雌雄开花间期等于雌穗开花期减去雄穗开花期,水稻籽粒的长宽比等于粒长除以粒宽。为了便于叙述,我们把通过单独测量得到性状值的性状称为构成性状,由若干构成性状经过代数运算得到的性状称为复合性状。不少研究者利用构成性状和复合性状同时进行作图,有时会发现一些复合性状独有的QTL,但对复合性状QTL作图的理论根据和有效性缺乏了解。其实复合性状的使用使得遗传模型变得更为复杂,为说明这一点,假定分别有2个独立遗传QTL控制2个构成性状(表6),加性遗传效应均为1,性状I和II的群体平均数分别为25和20。可以证明4个QTL在和性状上的遗传效应均为1、在差性状上的遗传效应分别为1、1、-1和-1,在积和商性状上的遗传效应不仅与QTL在构成性状中的效应有关,而且还依赖于群体平均数(表6)。进一步还能证明除加性效应外,4个QTL在积和商性状上还存在互作效应(表6),因此复合性状的遗传效应也比构成性状更为复杂。

模拟研究也表明,对于独立的QTL而言,复合性状的遗传力与构成性状基本一致,而对于连锁的QTL,积和商性状的遗传力有所下降(表7)。对于不同的遗传模型,与构成性状相比,复合性状的检测功效始终会有不同程度的降低,而且错误发现率会升高;选择较大的作图群体,复合性状检测功效下降的程度会减小,同时错误发现率也会略有减小,但错误发现率仍然高于构成性状(表7)。

QTL间连锁的存在,不利于复合性状作图,检测功效会大大降低,QTL的效应和位置的估计不准确;当连锁距离大于或等于35  cM时,复合性状效应和位置的估计基本无偏,但检测功效仍然低于构成性状。构成性状间的正相关会极大地降低差与商性状的检测功效,而构成性状间的负相关会极大地降低和与积性状的检测功效,但不管是正相关或是负相关,构成性状的QTL检测功效都高于复合性状的检测功效。复合性状独有QTL的遗传机制尚不明确,模拟试验显示检测到的复合性状独有QTL可能是由构成性状中的微效QTL引起的。

与构成性状相比,复合性状受较多QTL控制、QTL具有更复杂的遗传效应和连锁关系、QTL作图功效比构成性状下的功效明显下降,因此使用复合性状作图的意义不大。复合性状在遗传和育种中的使用应充分考虑二者有着不同的研究目标,遗传研究在于尽可能多地了解控制目标性状基因的遗传规律,构成性状受较少QTL控制、具有较简单的遗传模型,因此易于研究单个QTL的遗传;育种的目的是要同时选择尽可能多的有利基因和基因组合。与多性状选择指数[3]类似,复合性状的选择可以同时选择影响多个性状的有利等位基因,适度提高育种效率。因此,QTL作图研究中应谨慎使用复合性状,但这并不是排除育种中使用复合性状进行选择。

表6  构成性状和复合性状的理论遗传效应,假定各有2个QTL控制2个构成性状

表7  利用构成性状和复合性状的QTL检测功效


3  QTL作图有关作图群体及遗传图谱的问题
3.1  QTL作图群体中的表型数据是否要求服从正态分布?
一些QTL应用研究论文中,误以为表型数据的正态分布是QTL作图的前提。其实大部分作图方法只是要求表型数据的随机误差项服从正态分布,数量性状只有在多基因假说下才真正符合正态分布,表型数据的非正态并不影响QTL作图。一般地,个体的表型是群体平均数μ、遗传型值G和随机误差效应ε之和,即统计模型。加显性模型下包含q个QTL的遗传模型为,其中wj和vj是第j个QTL基因型的指示变量,因此G一般服从多项分布,而ε则要求服从正态分布,并且是大多数统计方法建模的前提。在多基因假说下,G服从正态分布,因此P也服从正态分布。当QTL的个数较少、并存在少数遗传效应较大的QTL时,P将不服从正态分布。

举例说明,假定长度为160  cM的染色体25 cM处有一QTL解释80%的表型变异,遗传效应为1.0,群体平均数为10。图7为一个模拟作图群体中性状的次数分布,作图群体包含200个DH家系,表型数据明显不服从正态分布。ICIM一维扫描结果(图7)表明LOD在27  cM处达到峰值88.44,对应位置的遗传效应估计值为0.9989,解释81.12%的表型变异。

图7  一个表型非正态的模拟作图群体及其QTL作图结果。染色体25 cM处有一QTL解释80%的表型变异,遗传效应为1.0,作图群体包含200个加倍单倍体家系


3.2  加密标记是否可以显著提高QTL检测功效?
问题1.2中列出了统计学上提高假设检验功效的2个主要途径,即提高样本量和降低表型误差。从实际应用角度来看,在一个已建成的群体一般难以再增加个体数,人们有时候关心是否可以通过加密标记来更准确地定位QTL。在图3模拟实验的基础上,我们又模拟了两种标记密度(MD),即5和20 cM(图8)。MD为5、10和20 cM时需要总的标记数分别为330、170和90,当标记数由密度为10 cM时的170减少到密度为20 cM时的90个时,对于PVE小于10%的QTL,即使群体大小为600,10 cM置信区间检测功效也有明显的下降;对于PVE大于10%的QTL,随着群体的增大,检测功效接近于100%,但对于较小的群体,检测功效也有明显的下降。当标记数由密度为10 cM时的170增加到密度为5 cM时的330时,只有PVE=1%的QTL的检测功效才有明显的变化,其它QTL检测功效的增加不明显。对于一般有100~200个体的作图群体,QTL连锁作图中每隔10 cM左右有一个分子标记可能就足够了。

与IM和ICIM相比,ICIM可以更好地检测连锁QTL(图2)。当然连锁程度对检测功效有较大影响,如果2个QTL分布在同一个标记区间内,可能所有的方法都难以检测到。ICIM要求连锁QTL间至少有一个空白区间,即分隔QTL,因此更密的标记更有可能把连锁QTL变成分隔QTL,也更容易被检测出来。假定在长度为160 cM的一条染色体上22  cM和42 cM处分布2个等效相引相QTL,分别解释31%的表型变异,图9给出群体大小为100、300和500时100个群体的ICIM平均LOD曲线图。当MD为20 cM时,2个QTL位于2个相邻的标记区间,之间没有空白区间。ICIM作图结果表明即使群体大小为500,也无法将二者区分开,而是在两个QTL之间发现一个效应近似等于两个QTL之和的“幻影”QTL。当MD为10 cM时,两个QTL被一个空白区间(即区间[30 cM,40  cM])分隔,这时有一部分模拟群体检测到2个QTL,大多数模拟群体还是只定位到一个遗传效应较大的“幻影”QTL。当MD为5cM时,两个QTL被3个空白区间(即区间[25 cM,30  cM]、[30 cM,35 cM]和[35 cM,40  cM])分隔,当群体大小为300和500时大多数模拟群体中都能正确的检测到2个QTL,当群体大小为100时大多数模拟群体都没能检测到2个QTL。

因此,标记的加密尽管可以把紧密连锁的QTL分隔开,但仍需足够大的群体,才能提供更多QTL的重组基因型,从而把2个连锁的QTL分离出来。在低于200的作图群体中,标记增加到一定程度,如每隔5~10 cM有一个标记,再增加更多的标记也不会明显提高QTL的检测功效。

图8  QTL检测功效与标记密度和群体大小的关系


图9  3种群体大小中连锁QTL的完备区间作图结果


3.3  缺失分子标记对QTL作图有什么影响?
对于缺失标记,作图软件QTL IciMapping(可从网站http://www.isbreeding.net获得)中利用连锁信息以一定概率水平把缺失标记基因型插值为P1、P2或F1型,从而避免QTL作图中样本量的减少。在一个包含180个单株的水稻F2群体中,ICIM定位到9个影响株高的QTL。根据这些QTL建立遗传模型,模拟不同程度标记的缺失,研究缺失标记对株高QTL检测功效的影响(图10)。随着缺失率的增加,QTL作图功效会逐步降低,同时错误发现率逐步提高。对于效应较小的QTL和较小的群体,缺失标记对QTL作图的影响较大;对于效应较大的QTL和较大的群体,缺失标记对QTL作图的影响可以忽略(图10)。尽管作图功效会受到缺失标记的影响,但在缺失标记条件下,被检测到的QTL位置和效应估计与无缺失条件下基本一致,都是渐近无偏的,估计值的方差也基本相同。通过模拟不同大小的群体还可以发现,一定比例的标记缺失对QTL作图结果的影响相当于对应比例个体缺失对QTL作图的影响(图10),也就是说,一个群体大小为n、缺失率为p的群体的作图功效与大小为、无缺失群体的作图功效大致相同。

图10  F2群体中缺失标记对QTL检测功效的影响。


3.4  奇异分离标记对QTL作图有什么影响?(偏分离)
奇异分离(SD,segregation distortion)会引起周围的标记出现奇异,而奇异分离标记(SDM)也会导致连锁的QTL出现SD。当SDM与QTL不连锁时,SDM对QTL定位基本没有影响。但是当SDM与QTL紧密连锁时,会对QTL作图产生影响,尤其当QTL效应较小、作图群体也较小时,SDM会对QTL作图产生较大的影响,有时会提高与其连锁的QTL的检测功效,有时会降低,这取决于QTL的效应和SD类型(图11)。以F2群体为例,检测QTL实际上就是检测三种QTL基因型QQ、Qq和qq之间的差异。若SD会使QTL的遗传方差高于无奇异分离时的遗传方差,则会提高作图功效;反之,则会降低作图功效。然而,无论功效提高还是降低,QTL的位置和效应估计与无SD情况下基本一致,都是渐近无偏的,估计值的方差也基本相同。

推广到其它具有2种等比例基因型的作图群体,如RIL和DH,任何SD都会引起连锁QTL的2种基因型偏离1∶1的分离比,这种偏离对检测2种QTL基因型间的差异会产生不利影响,从而减低QTL的检测功效。如果2种基因型的理论分离比为3∶1,如回交群体衍生的重组近交家系,若SDM导致2种基因型更接近1∶1,此时SD便可提高与SDM连锁QTL的检测功效(图12)。若SDM导致2种基因型更加偏离3∶1,如4∶1,这样的SD无疑要降低与SDM连锁QTL的检测功效,在图12方差比值的曲线中可以看出如果奇异分离导致QQ频率在(0.25,0.75)中变化,奇异分离时QQ具有较大的遗传方差,这样的奇异分离将提高QTL的检测功效。

SD一般是由不同配子或合子生活力的差异引起的,如产生RIL的一粒传方法就是为了尽可能避免在遗传研究群体中SD的发生。但在实际数据中,即使是在通过一粒传法产生的作图群体中SD也不可避免。在实际应用中,对遗传效应较大的QTL和较大的作图群体,少量的SDM对QTL作图的影响是有限的,这种影响也会随着与QTL间的连锁距离的增大而消失。

图11  F2群体中奇异分离标记对QTL检测功效的影响

图12  BC1和F1产生的DH作图群体中奇异分离时QTL的遗传方差与无奇异分离时方差的比值


4  结论
LOD是2种假设检验下极大似然函数比值的常用对数,较高的LOD临界值将更好地控制假QTL的发生,同时遗传效应较小的真QTL就不易被检测出来。如何平衡两类错误的概率,不仅是统计学问题,还要考虑到具体的研究目标。QTL作图包含着复杂的统计假设检验,一般采用模拟方法估计QTL检测功效和假阳性的大小,功效高同时又具有较低假阳性在统计上就是较好的方法。增加群体大小、减小表型误差、创造近等基因系和染色体片断置换系、大群体中适当增加标记密度都是提高QTL检测功效的有效途径。

QTL的遗传方差占表型方差的比例定义为QTL的贡献率,遗传方差受QTL的遗传效应和QTL基因型频率共同影响,不同QTL的贡献率一般不具有可加性。有利等位基因的判断依赖于QTL作图时如何编码2个亲本,正加性效应QTL意味着编码为2的亲本携带的等位基因能提高性状值,反之编码为0的亲本携带的等位基因能提高性状值。选择基因型分析的检测功效一般都高于IM的检测功效,但低于ICIM的检测功效。与构成性状相比,复合性状QTL作图功效比构成性状下的功效明显下降,因此使用复合性状进行QTL作图的意义不大,但并不排除育种中使用复合性状进行选择。

表型正态分布不是该性状是否适合QTL作图的必要条件,但一般要求表型数据的随机误差服从正态分布。高密度分子标记为分离紧密连锁QTL提供了可能,但高密度标记必须辅以大作图群体,才能提高QTL作图的准确度。缺失标记对QTL作图的影响等同于一个缩小了的作图群体。奇异分离标记对作图的影响可以用与其连锁的QTL遗传方差的变化来衡量,有时奇异分离标记会增大QTL的方差进而提高检测功效,这种影响会随着连锁距离的增大而减弱。缺失标记和奇异分离对QTL位置和效应估计的影响不大,对于效应较大的QTL和较大的群体,缺失标记和奇异分离对QTL作图的影响可以忽略。


本文整理自网络“数量性状基因定位研究中若干常见问题的分析与解答”一文,侵删

相关阅读

截止2019年7月m6A热点领域10分+研究盘点 | m6A专题

截止2019年7月m6A热点领域10分+研究盘点 | m6A专题

2019年国自然m6A项目解析及下载 | m6A专题

YTHDC1调控m6A修饰mRNA出核转运 | m6A专题

m6A阅读蛋白YTHDC1调控mRNA可变剪切 | m6A专题

RNA修饰相关蛋白&RNA甲基转移酶&RNA甲基化修饰结合蛋白 | m6A综述

m6A阅读蛋白YTHDC1调控mRNA可变剪切 | m6A专题

综述-植物m6A甲基化酶功能进化及调控机制 | m6A专题

m6A甲基化和YTHDF1在树突状细胞中控制抗肿瘤免疫 | m6A专题

RNA甲基化修饰的生物学功能 | m6A综述

m6A甲基化整体研究思路:m6A相关SCI论文发表要求分类汇编 | m6A专题

重磅 | m6A高分文章的秘密和后期验证工具集锦

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存