什么是“欧几里得距离”(ED)?| 群体遗传专题
要理解欧几里得距离,我们先要了解欧几里得空间。我们通常所在的空间是三维空间,三维空间任意的点可以被一个三维的坐标定义。而将三维拓展为更高的n维,即得到了n维欧几里得空间。而在n维空间中两个点之间的距离,我们就称之为欧几里得距离。
在具体的应用中,如果一组数据拥有n个相互独立的变量,我们就可以将其置于n维的欧几里得空间中,并应用欧几里得距离来量化两组数据之间的差异。我们都知道,在二维平面上,两点之间的距离计算如下:
那么应用到n维空间中,欧几里得距离的计算也同理,是坐标轴各方向差值的平方和开根号,计算如下:
应用到BSA上,欧式距离可以计算同一个位点上,两个混池之间的遗传距离。根据BSA的原理(BSA专题(一)——BSA性状定位简介),两个极端性状子代混池只在控制性状的QTL及其连锁位点出现差异,所以通过各个位点欧几里得距离的计算,我们可以判断哪些位点更可能是控制对应性状的QTL。计算公式如下:
可以看出,这里将各个位点的SNP抽象成了四维欧氏空间中的一个点,并且对两点之间的距离进行了计算,得到了两点之间的欧氏距离。欧几里得距离最早由Hill等应用于高通量测序的BSA分析中(Hill et al., 2013)。迄今为止,已经有相当多的BSA研究应用欧几里得距离算法作为定位区间挖掘的算法。
上图是某物种BSA的ED拟合图,图中的每一个散点都是一个SNP位点的ED值,而黑线是滑窗拟合后的ED值。我们可以清晰地看到,每条染色体上都有ED值较高的点,但是经过滑窗拟合后,只有染色体5B上保留了一个很强的峰值信号。这个信号峰的位置即直观地指示了QTL所在的位置。
当然你可能也注意到,对于一个双等位基因的位点(即在群体中,这个位点有且只有2个等位基因,或者说2种碱基类型)来说,ED的取值上限是根号2,但是图中的ED值上限却是2,这是为什么呢?因为在BSA定位区间计算过程中,为了降噪去除掉那些干扰信号,会对ED值进行乘方处理。上图即是使用了ED^2的值进行运算和展示,根据实际降噪结果,会在2-6次方之间浮动。
上述就是欧几里得距离应用于BSA分析的基本原理了,不过在ED之外,还有SNP-index等其他方法,能从不同的角度对BSA数据进行分析,根据实验设计灵活应用,才能够拨开云雾见天日,最终挖掘出我们与性状相关的QTL区间。当然,欧几里得距离作为一种常用的数学计算指标,在除BSA外的其他领域也有相当广泛的应用,但是只要了解其基础原理,其他方面的应用也都是万变不离其宗,可以一以贯之地进行理解。
广告时间:
想要了解更多关于BSA的知识,欢迎购买我们的BSA百科全书,点击下方的阅读原文即可购买。
参考文献:Hill J T, Demarest B L, Bisgrove B W, et al. MMAPPR: mutation mapping analysis pipeline for pooled RNA-seq. Genome research, 2013, 23(4): 687-697.
相关阅读
我的候选基因里没有SNP和InDel变异,是定位错了吗?| 群体遗传专题
楸树高密度遗传图谱助力叶片和生长性状QTL定位 | 群体遗传
叶不障目可见泰山|GBS-GWAS,QTLs定位白杨叶形决定基因 | 群体遗传
大力水手讨厌霜霉病 | GBS-BSA定位抗性基因座 | 群体遗传
阅读原文