Dissecting genomic hotspots underlying seed protein, oil, and sucrose content in an interspecifific mapping population of soybean using high-density linkage mapping
使用高密度连锁图谱分析大豆种间作图群体中种子蛋白、油和蔗糖含量的基因组热点区域
大豆栽培种 [Glycine max(L) Merr.] 和野生型 [Glycine soja Siebold & Zucc.] 大豆品种的种子性状差异很大。与野生大豆相比,栽培大豆含有低蛋白、高油和高蔗糖的特征。高代的育种策略主要取决于对性状发展中涉及的不同方面的精确了解,而在大豆的育种研究中,主要存在以下三个挑战:
1. 大豆种子成分是一个复杂且严格调控的性状,受到环境和环境基因型互作关系的影响;
2. 种子组成性状之间的相互依赖性导致不同成分之间存在强烈负相关关系,因此增加任何以种种子组成性状都具有挑战性;
3. 此外,大豆种质内种子组成的差异在很大程度上受到遗传和表观遗传变异、脂肪酸生物合成相关基因表达谱、碳分配、种子发育以及可能还有许多其他未知调节因子的影响
本文的缺陷在于对于分析得到的结论没有进行验证,但是亮点也在于此:即使没有进行验证,但是每一步都逻辑井然,环环相扣,奠定了结论的可信度。本文的另一个亮点是,用严谨的逻辑和细腻的洞见使资源利用最大化,为高效利用科研经费提供思路。
接下来,我们来看一下这个精彩的论证:
已知:大豆种子中蛋白含量与种子油分、蔗糖含量呈负相关。
横坐标:RIL群体;
绿色面积对应左纵坐标,逐渐上升;
红色面积和蓝线对应右纵坐标轴,逐渐下降;
符合之前的研究结论:大豆中蛋白含量与种子油、蔗糖含量呈负相关。
本研究中的大豆种子组成含量符合上述已知事实。实验方法:NIR(全部样本)+HPLC(半数样本)。HPLC(高效液相色谱)是公认更准确的测定手段,但是相比之下NIR(近红外光谱)测定化学成分含量的方法既快又便宜。为了平衡准确性和成本问题,本研究对全部样本(188个)做了NIR,对半数样本(100个)做了HPLC,并对结果进行相关性比较,通过皮尔逊相关系数和其值的显著性[T2] ,证明了两种实验结果在统计学意义上是一致的,从而以部分样本的HPLC结果佐证了全部样本NIR结果的可靠性。
如图,展示了NIR和HPLC两种实验方法结果的相关性。对亲本使用BeadChip(3K)芯片进行基因型鉴定 ,确定了超过6000个marker,另外,亲本和188个RIL子代群体都进行了Skim-WGS测序,子代平均测序深度0.3X,亲本平均测序深度15X 。本研究的目的是使用RIL群体初步定位QTL,所以对于RIL群体的测序深度要求并不高。另外,0.3X深度的测序数据仅用于QTL定位,后续数据挖掘用的并不是这套数据,而是其他研究中实验设计相同、平均深度15X的RIL群体数据。这个思路巧妙在,充分利用了已有的研究资源,精准地为研究思路提供合适的数据支撑。
过多的SNP可能超出计算机的运算能力,鉴于SNP存在大量连锁,这些信息是冗余的,可以合并成一个信息单位来进行运算,这种信息单位即Bin。通过Bin Map分析将91342个SNP转化成4070个Bin,并进行QTL分析,得到8号和20号染色体上存在显著与表型相关的QTL。如图,是BinMap的分析结果:一行是一个子代RIL;红:来自栽培种的片段;绿:来自野生型的片段;蓝:子代独有的片段。底部黑线分析亲本得到的分子标记,即亲本间不同的重组(相同的重组和表型差异无关,故删除,只留下不同的作为分子标记以用于下游分析。QTL与GWAS分析结果相符。其它研究已经通过GWAS方式证明种皮外衣颜色是8号染色体上的某个基因控制的(Tuteja, 2007),本研究也用GWAS得出了相同 的结论,证明本研究的GWAS方式是可靠的;同时GWAS结果和QTL分析结果都揭露了20号染色体上存在与油脂和蛋白含量相关的区域,这个区域与已知的研究结果相符,所以本研究的QTL结果是靠谱的。从而,分析得到的染色体8上存在与蔗糖含量显著相关的QTL是可靠的,同时GWAS也增加了QTL的定位精度。如图,是QTL的分析结果:由于表型上蛋白、油脂和蔗糖含量是关联的,可推测他们在基因组上很可能是连锁的,故三者各自的QTL位置应该在附近,如图用黄色矩阵标出了三者各自的QTL,8号和20号染色体上的QTL非常值得关注。如图,是GWAS的分析结果,ABC三列分别对应蛋白、油脂和蔗糖,点越高说明该SNP和表型越相关,可以看到20号染色体在蛋白和油脂中普遍较高,而8号染色体在蔗糖中非常显著。如图,已知种皮与8号染色体上某区域显著相关,本文的GWAS分析也做出了相同结果。先分析了蛋白含量,已知蛋白研究结果,若蛋白结果可靠则证明蔗糖分析结果可靠。
如图,标注了其他研究和本文对于蛋白含量相关的QTL位置,根据聚类结果分出了6个类群,分别统计它们的蛋白含量(标注在图中聚类分支旁),再结合每个类群中样本的信息(品种、地域等事先搜集好的信息)得出一些结论。最后,我们来总结一下,高效利用经费发高分文章的一个思路(见备注栏)。