一文说清楚BSA分析的阈值选择 | 群体遗传专题
先汇总下BSA主要的阈值选择标准:
1.通过10000(或者1000)次的模拟后选择90%,95%和99%的置信区间的SNP-index值;
2. 99%或者95%的分位数,或者所有SNP位点SNP-index 的平均值+3标准差;
3. 根据分离群体的遗传分离比确定阈值;
4. ED算法中的阈值。
第一种具体操作如下:基于计算模拟,通过随机抽样建立两个具有给定数量个体的后代池。从每个池中采取给定数量的等位基因和对应的测序reads深度信息,然后计算SNP-index和△SNP-index值,如此重复10000次(或者1000次)后可生成90%,95%和99%的置信区间。此方法每个SNP位点都会对应3个阈值点,因此该阈值线是动态变化的。为了计算起来更简便快捷,SNP-index法阈值确定又有一些变种出现。在以上10000次模拟计算后,把每次的计算结果做一个排序,分别取位于95%,99%处的值作为阈值。这个时候的阈值就是一个恒定值,也就是一条直线。部分研究在进行阈值计算之前,还会使用LOESS算法等对数值进行平滑处理,使得最终得到的区间结果更完整。
第二种就简单多了,直接取△SNP-index值的99%分位数或者95%的分位数作为阈值。该阈值方法简单粗暴,对于质量性状BSA定位或者通过第一种方法未取得关联区间的情况下使用。平均值+3标准差也是99%或者95%分位数阈值的替代方案。
第三种,利用遗传分离比确定阈值。这种最常见在F2群体,△SNP-index阈值取0.67。
第四种专属于ED算法的阈值
ED算法阈值众多:有平均值+3X标准差,有ED4>0.1,也有ED5 的99%分位数。
BSA中还有其他阈值,在此笔者就不一一列举,感兴趣读者可阅读联川生物出品的《NGS时代的BSA百科全书》(浙江大学樊龙江老师做序联川BSA百科全书)。
靠谱er总结:
BSA分析方法虽然简单,但是阈值确定的标准众多,但是不管何种标准,最终的目的只有一个,就是能定位到目标区间。定位到目标区间后,区间如果达到精细定位的水平,就可以往候选基因筛选方向进行了;如果只是个初定位的实验设计,那还要继续进行下游的精细定位。
相关阅读