BSA常见问题解析 | BSA专题
近期小编将集中为大家讲解BSA(Bulked Segregant Analysis,集团分离分析法)相关知识,包括BSA简介,分子标记技术,质量、数量性状和作图群体,基因、QTL定位,BSA性状定位研究思路及常见问题及解答等,每天5分钟,轻松学习BSA相关知识~
话不多说,进入今天的专题——常见问题解析。
往期文章速览:
Q1:什么课题适合BSA?
A:理论上来讲,任何两个具有相对性状的亲本杂交后产生的分离群体都适用于BSA分析。但在实际应用中,一般选择研究物种亲本为纯系,杂合度较低(判断依据:自交亲和度是否高),研究性状(需要定位的)最好为质量性状或由少数几个主效QTL控制的数量性状。
Q2:做BSA需要哪些基本信息?
A:亲本和分离群体(F2,RIL,BC等)的目标性状表型(表型鉴定一定要准确),分离群体的数量(群体数量要足够大,不然得不到足够数量的极端性状个体或家系用于混池)。突变体需要知道其来源,是何种突变方式得到的突变体,最好有其野生型植株和信息。
Q3:为什么群体要选择F2、RILs群体?
A:F2和RILs分别是定位控制质量性状和数量性状基因或QTL最常用的群体。对于质量性状来说,F2完全可以满足需求,不需要花费更多的时间构建RILs(当然有RILs也行)。而数量性状通常由多基因控制,而且表型易受环境影响,用RILs可以进行多次表型调查,获得准确的表型数据。对于基因组较小较简单的一些物种,如果目标数量性状是由个别主效QTL控制,也可使用F2。此外,F1代仅用于林木或鱼类等亲本杂合度较高的物种中基因的定位。这类物种本身就不适合BSA。如果坚持用F1代做林木或鱼类等的基因定位,风险较高,可能出现较多的假阳性,甚至会出现无法定位出候选区域的情况。
Q4:DNA量需要多少,有什么质量要求?
A:每个样本DNA要求:每次建库需要准备样品2μg,请提供2次制备的量。样品浓度>20ng/μl;OD260/280介于1.8-2.0,无肉眼可见污染;基因组完整、无降解,电泳中DNA主带应大于23kb。 样品选择:对于植物样品建议选取黑暗培养的黄化苗或嫩苗;动物样品应选择肌肉、血等脂肪含量较少的组织进行取样。
Q5:如果F2单株DNA量不足该怎么办?
A:F2单株有时由于取样量少,提取的DNA量较少,如果无法提供足够的DNA,可从该F2单株的后代F3中,随机选择6~10株混提DNA来代替该F2。
Q6:如何确定子代池样本数量以及测序深度?
A:在《User guide for mapping-by-sequencing in Arabidopsis》中,作者对混池个体数以及测序深度对候选基因数量的影响进行了评估。结果显示,当子代个数超过20个,测序深度大于25X之后,定位出候选基因的数量趋于稳定。同时基于多篇文献的报导,推荐个体数≥25个/池,测序深度:每个亲本≥15X,每个子代池≥25X。
Q7:参考基因组的质量有什么要求?
A:参考基因组组装得越好,信息越全,注释文件信息也相对较全;即便是草图,如果scaffolds能有染色体定位信息,对于后续基因定位和候选基因注释都会更加精确,可以估计候选区域的大小。没有组装到染色体的参考基因组分析思路是一样的,但只能得到某个或某些scaffolds中的SNPs与性状相关,无法估计候选区域的大小,但是如果组装结果差的话,有可能遗漏掉一些候选基因。
Q8:只测2个子代池是否可行?
A:如果研究性状为EMS诱变的质量性状,同时所研究物种已有组装质量较好的参考基因组,研究品系亲本为普通野生型,与参考基因组品系为相同生态型的情况下,是可以只测2个子代池的,以参考基因组为一致性序列计算SNP-index。但是一般情况下,由于参考基因组和所研究品种之间原本就可能存在较大的差异,会导致出现大量假阳性SNP。所以,还是推荐测双亲和2个子代池,尽可能排除背景噪声,减少假阳性SNP。
如果研究的性状是数量性状,最好是2个亲本和2个子代池都测,其次是1个亲本和2个子代池。不推荐只测2个子代池,会出现较多假阳性SNP。
Q9:亲本为什么要求目标性状基因位点纯合?
A:BSA性状定位的核心原理是检测双亲的SNP并计算子代池间全基因组水平的SNP-index,如果亲本不是纯合,会导致子代SNP的检出率和SNP-index降低,如果要进行定位,则必然会降低筛选SNP-index的阈值,会导致假阳性的出现。在计算SNP-index的过程中,目前依据的原则是以亲本为参考,且筛选亲本纯合的位点,计算子代池在这些位点的SNP-index。
Q10:为什么建议选择单一家系,不建议混合家系、自然群体以及林木等群体?
A:混合家系、自然群体以及林木等为高杂合群体,遗传多样性较高,即使在很小一段DNA区域也有很大可能存在多种等位基因基因型。DNA池中存在多种基因型,将导致SNP检测和基因型频率计算可靠性降低。
在杂交家系中,一段DNA一般只含有两种来自两个亲本的等位基因,所以reads比对参考序列和变异检测相对简单。高杂合的群体混池后,DNA多样性提高,reads多样性自然也提高,比对参考基因组的错误率以及SNP检测的错误率等都会提高。
基于双亲杂交的BSA-seq分析,大部分突变基因型都是高频的(≥0.5),检测相对容易。在MutMap中,有文章将频率≤0.3的SNP过滤掉。但在自然群体中,低频SNP大量存在,混池后,无法区分哪些是真实的低频SNP,哪些是测序或比对错误导致的SNP,会给数据分析带来困难。
Q11:造成测序数据对参考基因组比对率低的原因可能是哪些?
A:(1)参考序列质量:参考基因组组装质量差,错误率高,比对率就会低。
(2)所测物种与参考基因组的亲缘关系较远,基因组差异较大。这时可将未比对到参考基因组的reads进行局部组装后获得新的参考基因组,再在两个池间比对鉴定变异,进行相关性分析。
(3)样品的杂合度高,重复序列多:基因组复杂度较高,比对分析受到的影响也越大。
(4) 存在外源污染:如个别微小昆虫提取的DNA中,很可能包含植物、共生菌、病原体等的基因组,导致比对率较低。
Q12:某区域测序深度过高会对后续分析产生什么影响吗?
A:某区域测序深度过高,可能是存在多拷贝的重复序列,这种情况下检测出的SNP是不可靠的。测序深度提高,覆盖度也会上升,当测序深度达到15X,覆盖度基本上饱和,测序深度达到30X,SNP检测检出率达到饱和。个别区域测序深度过高,会导致SNP检测错误率增加,分析过程中将会删除此类SNP。
Q13:简化基因组测序能用于BSA性状定位吗?
A:简化基因组BSA技术仅能捕获全基因组的1%~10%,如果研究物种基因组较大,对于微效多基因控制的数量性状与目标性状相关位点很多,可能会捕获到个别位点,但会遗漏大部分位点,对后续研究不利。对质量性状或由主效基因控制的数量性状,简化基因组BSA风险很高,建议将亲本和群体都做简化基因组测序,构建全基因连锁图谱进行性状基因定位。
Q14:DNA样品如何混池?先等量混样再提取DNA,还是先单独提取样品DNA再等量混合?
A:最好先单样品提取DNA再等量混合,可减少系统误差。近年来发表的文章多为先提DNA再等量混合。
Q15:定位不到区间或定位效果差的可能原因有哪些?
A:(1)表型鉴定出现错误或偏差,性状本身由于易受环境影响,导致鉴定不准确,影响混池效果;
(2)子代群体数量过少,混池单株数过少,影响最后定位效果;
(3)选取的材料性状不够极端,使得最后定位区间较大;
(4)没有测亲本序列,直接用研究物种参考基因组,亲缘关系远,出现大量假阳性;
(5)研究物种或品系为高杂合,DNA池中存在多种基因型,导致SNP检测和基因型频率计算可靠性降低;
(6)研究的数量性状由微效多基因控制,会导致出现多个△SNP-index相似的区间。
Q16:为什么不用具有极端性状的亲本直接做混池测序而需要进行杂交群体构建?
A:亲本之间遗传背景具有一定差异,除了关注的目标性状位点的差异外,其他的基因位点肯定也会存在差异,而且亲本都为纯系,不存在混池一说,所有SNP位点的△SNP-index都是1。双亲杂交后代中由于染色体自由组合和遗传重组,非目标性状基因位点的变异在极端性状的两个子代池中均有分布,通过两个混池的频率差异,可消除目标性状外背景差异的干扰。
Q17:什么是BSR?
A:BSR(Bulked Segregant RNA-seq)指混池转录组测序,也就是转录组测序结合BSA。BSR的混池同样选取分离群体中的极端性状单株,混池用的单株数会比BSA多一些,文献报道的大多每个池大于30株,提取RNA进行混池,再进行转录组测序,mapping参考基因组后同样进行变异分析,确定候选区间。BSR的优势在于不仅提供变异信息还能提供候选区域中基因的表达信息。
Q18:后续的实验安排如何展开?
A:后续的实验主要是确定哪个候选基因才是真正确定目标性状的基因,如果得到的区间较小,候选基因数量较少(小于5个),可建议做基因表达实验,并在双亲中克隆候选基因全长进行比较分析,设计功能验证实验(比如转基因或基因沉默);如果候选区间较大,候选基因数量较多(大于10个),可建议对双亲进行转录组测序,根据候选基因的表达信息进行筛选。
今天的内容分享完啦,大家记得收藏好慢慢学习哦~
扩展阅读推荐
BMC Genomics | BSA快速鉴定菜豆抗炭疽病基因