查看原文
其他

什么是“欧几里得距离”(ED)?| 群体遗传专题

运营部-HFR 联川生物 2022-05-21

在BSA(bulk segregant analysis)的结题报告中,我们经常看到欧几里得距离(Euclidean distance,ED,又称欧氏距离)算法的结果。欧几里得这位大数学家的名字我们都不算陌生,但是欧几里得距离是什么,它又是怎样应用到遗传学研究的领域当中来的呢?

要理解欧几里得距离,我们先要了解欧几里得空间。我们通常所在的空间是三维空间,三维空间任意的点可以被一个三维的坐标定义。而将三维拓展为更高的n维,即得到了n维欧几里得空间。而在n维空间中两个点之间的距离,我们就称之为欧几里得距离。

在具体的应用中,如果一组数据拥有n个相互独立的变量,我们就可以将其置于n维的欧几里得空间中,并应用欧几里得距离来量化两组数据之间的差异。我们都知道,在二维平面上,两点之间的距离计算如下:

那么应用到n维空间中,欧几里得距离的计算也同理,是坐标轴各方向差值的平方和开根号,计算如下:

应用到BSA上,欧式距离可以计算同一个位点上,两个混池之间的遗传距离。根据BSA的原理(BSA专题(一)——BSA性状定位简介),两个极端性状子代混池只在控制性状的QTL及其连锁位点出现差异,所以通过各个位点欧几里得距离的计算,我们可以判断哪些位点更可能是控制对应性状的QTL。计算公式如下:

可以看出,这里将各个位点的SNP抽象成了四维欧氏空间中的一个点,并且对两点之间的距离进行了计算,得到了两点之间的欧氏距离。欧几里得距离最早由Hill等应用于高通量测序的BSA分析中(Hill et al., 2013)。迄今为止,已经有相当多的BSA研究应用欧几里得距离算法作为定位区间挖掘的算法。

实际应用中,我们在BSA的两组混池之间可能会得到数十万甚至上百万个SNP,有的SNP可能实际与性状无关,但因为抽样偏差,导致计算得到的ED值很高,如何能将这些统计异常值排除掉,只留下真正的QTL呢?这里就要用到BSA常用的滑窗计算法。在一个窗口内,对所有位点的ED值进行拟合,这样因为抽样偏差造成的个别点高ED值的峰就会被抹去,但是真正的QTL及其周边相连锁的位点计算出的高ED值会在滑窗拟合后得到保留。

上图是某物种BSA的ED拟合图,图中的每一个散点都是一个SNP位点的ED值,而黑线是滑窗拟合后的ED值。我们可以清晰地看到,每条染色体上都有ED值较高的点,但是经过滑窗拟合后,只有染色体5B上保留了一个很强的峰值信号。这个信号峰的位置即直观地指示了QTL所在的位置。

当然你可能也注意到,对于一个双等位基因的位点(即在群体中,这个位点有且只有2个等位基因,或者说2种碱基类型)来说,ED的取值上限是根号2,但是图中的ED值上限却是2,这是为什么呢?因为在BSA定位区间计算过程中,为了降噪去除掉那些干扰信号,会对ED值进行乘方处理。上图即是使用了ED^2的值进行运算和展示,根据实际降噪结果,会在2-6次方之间浮动。

上述就是欧几里得距离应用于BSA分析的基本原理了,不过在ED之外,还有SNP-index等其他方法,能从不同的角度对BSA数据进行分析,根据实验设计灵活应用,才能够拨开云雾见天日,最终挖掘出我们与性状相关的QTL区间。当然,欧几里得距离作为一种常用的数学计算指标,在除BSA外的其他领域也有相当广泛的应用,但是只要了解其基础原理,其他方面的应用也都是万变不离其宗,可以一以贯之地进行理解。

广告时间:

想要了解更多关于BSA的知识,欢迎购买我们的BSA百科全书,点击下方的阅读原文即可购买。


参考文献:Hill J T, Demarest B L, Bisgrove B W, et al. MMAPPR: mutation mapping analysis pipeline for pooled RNA-seq. Genome research, 2013, 23(4): 687-697.

相关阅读

我的候选基因里没有SNP和InDel变异,是定位错了吗?| 群体遗传专题

左手遗传图谱右手肠道菌群,嘿,ISME文章!| 群体专题

楸树高密度遗传图谱助力叶片和生长性状QTL定位 | 群体遗传

F1群体遗传图谱定位葡萄果实硬基因 | 群体遗传

联川群体遗传高手公开课问答锦集 | 群体遗传

叶不障目可见泰山|GBS-GWAS,QTLs定位白杨叶形决定基因 | 群体遗传

大力水手讨厌霜霉病 | GBS-BSA定位抗性基因座 | 群体遗传

购书请点击下方
阅读原文


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存