查看原文
其他

一文说清楚BSA分析的阈值选择 | 群体遗传专题

市场部-XYH 联川生物 2022-05-21

进行性状定位,不管是遗传图谱QTL定位,GWAS还是BSA,都会采取一个阈值,阈值线以上的位点即认为是和表型关联的位点/区间。遗传图谱进行QTL定位,一般取LOD=3或者PT检验1000次,设定0.95或者0.99置信度对应的阈值,也有少数文献选择LOD=2.5或者LOD=2的情况,阈值线降低的目的就是希望能不遗漏部分为点。在少数情况下,比如定位到的区间过少甚至没有,降低阈值也是一种获得关联区间的方法。全基因组关联分析(GWAS)则取经过Bonferroni校正后的阈值或者Benjamini and Hochberg FDR校正后的阈值。BSA作为一种新型的经济高效的性状定位方法,也有自己的一套阈值确定标准。下面笔者就介绍下BSA常见的阈值选择标准。

先汇总下BSA主要的阈值选择标准:

1.通过10000(或者1000)次的模拟后选择90%,95%和99%的置信区间的SNP-index值

2. 99%或者95%的分位数,或者所有SNP位点SNP-index 的平均值+3标准差;

3. 根据分离群体的遗传分离比确定阈值;

4. ED算法中的阈值。

第一种具体操作如下:基于计算模拟,通过随机抽样建立两个具有给定数量个体的后代池。从每个池中采取给定数量的等位基因和对应的测序reads深度信息,然后计算SNP-index和△SNP-index值,如此重复10000次(或者1000次)后可生成90%,95%和99%的置信区间。此方法每个SNP位点都会对应3个阈值点,因此该阈值线是动态变化的。为了计算起来更简便快捷,SNP-index法阈值确定又有一些变种出现。在以上10000次模拟计算后,把每次的计算结果做一个排序,分别取位于95%,99%处的值作为阈值。这个时候的阈值就是一个恒定值,也就是一条直线。部分研究在进行阈值计算之前,还会使用LOESS算法等对数值进行平滑处理,使得最终得到的区间结果更完整。

第二种就简单多了,直接取△SNP-index值的99%分位数或者95%的分位数作为阈值。该阈值方法简单粗暴,对于质量性状BSA定位或者通过第一种方法未取得关联区间的情况下使用。平均值+3标准差也是99%或者95%分位数阈值的替代方案。

第三种,利用遗传分离比确定阈值。这种最常见在F2群体,△SNP-index阈值取0.67。

第四种专属于ED算法的阈值

ED算法阈值众多:有平均值+3X标准差,有ED4>0.1,也有ED5 的99%分位数。

BSA中还有其他阈值,在此笔者就不一一列举,感兴趣读者可阅读联川生物出品的《NGS时代的BSA百科全书》(浙江大学樊龙江老师做序联川BSA百科全书)。

靠谱er总结:

BSA分析方法虽然简单,但是阈值确定的标准众多,但是不管何种标准,最终的目的只有一个,就是能定位到目标区间。定位到目标区间后,区间如果达到精细定位的水平,就可以往候选基因筛选方向进行了;如果只是个初定位的实验设计,那还要继续进行下游的精细定位。



相关阅读

我的候选基因里没有SNP和InDel变异,是定位错了吗?| 群体遗传专题
BSA知识分享 | 学习专栏
BSA在遗传学、基因组学和育种中的应用
南岛扩散与澳洲野狗:重测序揭示澳洲野狗起源之谜 | 群体遗传
厉害了,竟然发到了Nature Communications你还是我认识的蓖麻吗?| 群体遗传
如何高效利用经费进行育种研究?PBJ文章告诉你答案 | 群体遗传

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存