查看原文
其他

一个14分的作物基因定位综述引发的吐槽

靠谱er 联川生物 2022-05-21


摘要
植物遗传学和NGS技术的结合加速了QTL的定位和克隆工作。基于NGS的基因定位方法也趋于完善。这些方法提升了QTL定位的分辨率,同时也有利于鉴定基因中功能性的causal突变。本文将综述NGS和基因定位相关的方法,分享基于全基因组重测序/转录组测序进行相关农艺性状QTLs/genes挖掘的案例。同时,重点阐述NGS技术和BSA,表达谱和多态性数据库构建结合起来加速QTLs和causal genes挖掘的案例。
槽点
本文是法国人写得综述,刚看摘要部分却充满了浓浓的八股气息。第一句作者直抒胸臆,呼应了标题,而且靠谱er感觉这一句可以放到任何一篇NGS进行基因定位的文章里而毫无违和感。第二句和第三句是对第一句的未涉及到的细节补充。第四句乍一看没毛病,但是看了下文后你会发现,调起高了,因为本文中除了进行了BSA的基因定位综述,其他的方法,比如高密度遗传图谱构建,GWAS分析都没有囊括进来。第五句作者说的重点内容则需要重点吐槽:BSA定位、转录组和数据库促进QTL定位和causal基因挖掘,BSA+转录组都是老三届时期的东东了,放在本文重点综述,只能说明一个问题:老法很久没看最新的文献了……
PS:摘要中表示“促进”用到了accelerate,facilitate和boost三个词汇,读完全文你会发现,还有其他的词汇,promote和expedite,老法写的英文通俗易懂,作为一个中国人,看到这种综述就觉得爽!
Part I NGS是如何提升QTLs和gene挖掘效率的
在分子遗传学中,数量性状会首先被分解成孟德尔因子,然后逐个进行QTL的精细定位和克隆。作物中成千上万的QTL已经被定位到,这些QTLs是育种家进行遗传改良的重要基因资源。SUB1是水稻中耐淹水性状的主效基因,可能是最全世界范围内最成功的的一个QTL育种应用案例。这个主效的QTL在一个传统的水稻品种中鉴定和克隆到,但是该基因不在水稻的参考基因组序列中。通过MAS回交转育SUB1的有利allele,一个优良的品种获得了水淹的抗性,育成的新品种在几个亚洲国家中得到推广。然鹅,非常少的QTLs能够被成功地应用到MAS育种中。限制因素包括:1. QTL的定位精度不够,导致标记和目标基因有重组;2.QTL的PVE不够高;3. QTL和环境存在较强的互作。所以,MAS成功应用的挑战之一是要减少QTL的置信区间,保证含有QTL的片段最小,且不包含不利的基因,从而避免遗传搭车效应带来的副作用。减少QTL置信区间的一个可能策略是进行meta分析,从该物种中不同的研究中相同的性状进行。这种策略已经在某些物种中成功应用。然鹅,基于现在的meta-QTL区间大小来看,后续加密标记进行精细定位或者关联分析还是必要的。
NGS技术派生出了不同的测序方法,比Sanger测序覆盖度更高、速度更快且价格更便宜。GBS技术就是其中的一个典型。GBS基于限制性内切酶降低基因组复杂度,同时引入barcode区分不同样品来混合文库,可以开发出数量远远超过RFLP和SSR标记的SNP标记。这些SNP标记可以和农艺性状进行关联分析、筛选紧密连锁的分子标记用于MAS育种,也可以验证和性状连锁的单倍型。GBS已经在很多重要作物中成功应用。比如:在水稻、玉米、大麦的RIL群体和小麦的DH系群体进行genotyping,构建遗传连锁图谱后进行QTL定位;也成功应用在水稻自然群体,鹰嘴豆MAGICs群体,玉米NAM群体GWAS分析中。
最近,基于重测序技术进行上述研究也提供了另外一种可能。重测序不仅能开发SNP标记,还能开发InDels标记甚至是一些SV变异。其他的一些方法比如转录组测序和外显子捕获测序能靶向基因组的特定结构区域,为科学家发掘编码区的序列SNP提供了额外的选择。
槽点
第一段中的SUB1基因克隆这个案例,2010年发表在rice上。水稻中到目前为止克隆的基因超过3000个,作者竟然选择了这个基因,令人费解。而且SUB1基因克隆过程中跟NGS的关系好像不大。这一段内容过于冗杂,MAS、meta-QTL内容跟NGS也关系不大。看来法国人眼中不仅有浪漫,还有浪费。
第二段,重要篇幅都放在GBS上了,话说简化基因组测序除了GBS,还有其他很多技术……另外,都9102年了,重测序的案例都有N多了,本文竟然基本没有涉及,难道水深火热的资本主义国家都只有GBS嘛……
第三段,重测序就可怜的一句话,然后就是外显子捕获,说到捕获,联川生物会在近期推出个性化的基因/SNP捕获测序,请老师们关注。
Part II 提升QTL和候选基因检测效率的工具
BSA是一种简单高效且成本低廉的QTL定位策略。一般通过双亲构建的群体(F2,RIL,DH)中极端性状混池的SNP频率(allele频率)差异计算和性状关联的区域。理论上,多亲群体(NAM,MAGIC)、自然群体和突变体群体都可以进行BSA分析。BSA定位的分辨率和混池规模相关,混池规模越大,定位结果越精细。BSA需要对群体中所有的个体进行phenotyping后选择极端的表型,因此适合于容易测定且成本不高的表型QTL定位。通过全基因组重测序和BSA思想结合可开发全基因组的SNP标记,定位某个作图群体中的QTL位点。
QTL-seq策略
QTL-seq是重测序和BSA分析结合的典型。基于一个具有差异性状的双亲分离群体,比如F2群体,依据极端表型性状构建2个极端混池,分别计算极端混池的SNA-index和  SNP-index值,  SNP-index值较大的区域就是和表型性状关联的区域。在鹰嘴豆的百粒重性状QTL定位研究中,基于一个F4群体,通过百粒重表型建立2个极端混池,在1号染色体上定位到一个主效QTL位点,进一步分析发现一个紧密连锁的SNP位点附近有一个CSN8基因,这个基因在种子中特异表达,且在高百粒重亲本中上调表达,在低百粒重亲本中下调表达。SNP多样性分析表明,这个编码的SNP从野生材料中丢失,在栽培种中可以区别不同百粒重的基因型。因此,QTL-seq和表达谱、多样性分析联合可以有效的缩小QTL区间并且可以快速鉴定候选基因。同样的策略在小米和水稻中均得到成功应用。
另外一种QTL-seq的策略是多混池策略(mQTL-seq)。该方法将QTL-seq应用到具有共同亲本的多家系群体中。多家系群体具有更高的遗传多样性,有利于QTL的验证以及缩小QTL定位区间。比如在两个鹰嘴豆F5群体中,豆荚数的两个主效QTL从最开始的定位区间868Kb和1.8Mb分别缩小到638Kb和1.3Mb的区间。此外,还鉴定到一个控制豆荚数的PPR基因,表达分析表明该PPR基因在豆荚数多的亲本花粉与荚果发育时期强烈上调表达。
Mutmap策略
Mutmap策略基于一个突变体群体(EMS诱变)。突变体群体是一个F2群体,由一个隐性纯合突变个体和一个野生型亲本杂交后自交获得。通过构建这个F2群体中隐性突变性状的混池,野生型亲本作为模板进行SNP calling。和QTL-seq一样,突变体混池进行SNP-index计算。Mutmap是一种简化版的QTL-seq,只不过它需要一个隐性突变亲本和一个野生型亲本杂交,而且表型差异明显,在F2群体中好区分表型。该方用于水稻叶色和半矮杆性状基因分离和大麦多节矮化性状基因的分离。Mutmap也成功用于分离水稻中耐盐基因OsRR22。
Mutmap策略又发展出两个不同的方法---Mutmap+和Mutmap-Gap。常规MutMap方法适用于m3-m5代突变体与野生型回交后构建F2群体并构建突变型隐性性状混池和野生型个体混池,基于SNP-index的方法定位关联区间。但是实际应用中由于EMS诱变会产生大量不育或者早期发育致死类型突变,无法进行回交操作而限制了MutMap的应用。通过MutMap+策略则可以解决这个问题,而且不需要进行回交操作,降低了MutMap的群体构建门槛,节省了时间,加速相关基因的定位和克隆工作。
群体构建策略:用EMS处理样品后种植形成M1代植株。大多数M1代植株突变位点为杂合位点。显性或者半显性突变体可以在此识别。M1自交获得M2种子。M2代会产生分离,选择M2中野生型:突变型=3:1的群体作为研究的群体以及对应的性状,在符合上述条件的M2中随机选择10个M2后代,并测定表型。对于发生分离的感兴趣的表型,我们认为2/3的野生型表型姊妹目标区域为杂合。这些野生型表现的M2代自交后结的种子单株收获后获得尽可能多的种子(M3)。超过80个M3代种子种下用于表型观察,M3家系中野生型和突变型个体用于后续分析。混池策略:M3代突变型表型和野生型表型两个混池,混池个体数为20-40。方法:计算两个混池的SNP-index,SNP-index=1时有两个可能,一个可能就是突变性状的位点,另一个可能就是和性状不相关,但是却固定在M2的纯合区域最后又遗传到所有的M3植株中。通过计算ΔSNP-index即可过滤掉假阳性区域,最终只留下SNP-index=1且与目标性状关联的SNP,关联显著性用Fisher进行正确性检测。
某些野生型亲本材料和参考基因组材料差别较大,他们突变位点在参考基因组中无对应的位点序列,这种情况就需要利用Mutmap-Gap的策略。通过对亲本中参考基因组未覆盖的区域de novo组装获得全新的参考序列信息。利用感病的突变体材料(野生型Hitomebore)组装出Pii基因,该基因存在于Hitomebore中,但是却不在Nipponbare的参考基因组中。
槽点
基于NGS的基因定位方法辣么多,作者竟然只写了BSA的方法,而且,内容也限定在2014年日本岩手大学的一篇学位论文(公众号回复:BSA学位论文经典,即可下载原文)内容之内,并无任何最新的进展。Mutmap-Gap策略没有详细说明,只是一笔带过,靠谱er搞不明白这是为什么。这一部分已经无力吐槽……(公众号回复:Gradedseq资料,即可下载原文
Part III  NGS-assisted表达谱联合分析
NGS-assisted的表达谱可以鉴定和感兴趣表型相关的转录本。联合基因表达分析也是常规的QTL候选基因筛选的方法。RNA-seq提供了占基因组1-2%的序列的全局表达情况,并且还能提供功能性变异信息。比如在高粱耐低氮QTL研究中,对双亲的根系进行转录组测序分析,鉴定到108个参与氮代谢,激素代谢和糖酵解相关的差异表达基因。这些基因位于已经定位的QTL位点附近。在玉米中,转录组和meta-QTL联合分析加速籽粒行数的候选基因组筛选。在大豆中,转录组鉴定到一个野生大豆中新的耐盐基因GmCHX1。通过对23个耐盐性表现不同的大豆品种重测序验证了该基因的存在。
通过整合转录组和QTL定位进行eQTL分析能检测到cis或者trans作用元件。利用转录组或者芯片能同时对分离群体genotyping和并利用表达量作为phenotype。实际应用中,转录组测序往往会更加常见,因为转录组测序能提供allele-specific和isoform-RNA的表达信息。在玉米研究中,一个强的trans eQTL被精细定位到186bp的区间。该eQTL导致一个亲本中ABA合成相关的基因上调6倍,虽然其调控机制未完全阐明,但是克隆这个反式eQTL展示出eQTL策略的有效性。此外,基因共表达网络数据库的构建进一步帮助科研人员鉴定功能性相关的基因。比如水稻的FREND数据库(http:// ricefrend.dna.affrc.go.jp) ,对水稻的穗发育的候选基因调控网络研究起到积极作用。


槽点
表达完全可以从时空特异性和组织特异性两个方面进行,然而作者却没有。第二段话锋一转,直接从QTL跃迁到eQTL,不得不说老法的脑回路清奇,另外靠谱er没有翻译的一段话是:作者觉得eQTL功能强大,但是费钱;而且数据量大,需要配置较高的硬件,也费钱……浓浓的屌丝气息有木有……
Part IV 多态性信息数据库加速候选基因的鉴定
测序技术的快速进步伴随着测序成本的下降,基于重测序的研究也越来越多,尤其是模式物种水稻中。虽然不同研究中测序的深度和覆盖度有差别,但是这些研究都会提供大量的多态性信息资源,能帮助我们对自己研究中重要农艺性状关联的SNP或者SV进行验证。比如,水稻中,利用47个优异品种的重测序数据研究了和直链淀粉含量有关的淀粉粒结合酶基因序列变异,发现了和性状关联的新的遗传标记。基于重测序的大量变异信息也有助于其他性状的关联标记开发。
SNP-Seek (水稻3K计划)数据库(http://snp-seek.irri.org/),该数据库集成了3000个水稻品种的重测序数据和信息,可以调取任意材料任意区间的SNP和InDel信息,也可以验证QTL的单倍型信息,并能检测QTL内所有allele的变异情况。SNP-Seek已经成功辅助水稻稻瘟病的抗性基因/allele的预测。其他比如水稻白叶枯病,SNP-Seek也可以用来检测promoters区的效应结合因子突变。这些突变能够提升植物对这些细菌的抗病性。突变结合表型鉴定能检测新的抗病源。
在水稻驯化过程中,重要的农艺性状allele会被固定在优良的品种中。因此,这些allele似乎在非优良品种中较稀少。通过比较开放数据库中优良品种和非优良品种的基因组序列信息,我们发现固定在优良品种中的SNP在非优良品种中的频率较低(<5%)。通过该方法鉴定到一个Nced基因的非同义突变体,该基因和旱作环境适应性相关,可能通过高水平的ABA浓度和高密度的侧根起作用。水稻的数据库不仅促进了候选基因/allele的鉴定和新的分子标记开发(MAS育种),也有利于其他作物中SNP数据库的发展。
槽点
该部分确实对水稻候选基因和网络分析有用,但是不具备推广的基础,研究其他物种的老师表示伤不起。
Part V 结束语
NGS技术已经广泛的应用于鉴定和农艺性状关联的基因组变异中。全基因组重测序和转录组测序能从DNA和表达维度阐述遗传变异和调控机制。QTL-seq 和Mutmap系列方法在缩小定位区间和精细定位causual变异上展现出强大的效力。转录组测序有利于候选基因的筛选鉴定。
二代测序的序列读长较短,一般在35bp-700bp之间,在基因组de novo组装领域,某些植物的基因组存在重复序列比例高,杂合度高等特征。要克服这些问题,需要用到PacBio和Nanopore的第三代长度长测序技术。长度长有利于扩过重复序列区域,或者能覆盖上gap区域,组装出高质量的参考基因组,同时,三代测序还能直接读出DNA的甲基化修饰信息。在多倍体植物中,长度长还能够检测同源区段的SNP位点,对单倍型进行定相,有利于高杂合作物的遗传图谱的构建和QTL定位的研究。RNA层面,三代测序直接对RNA进行测序,能更加精确的鉴定mRNA的结构变异、可变剪切和不同的RNA isoforms。
本文的遗传学方法都基于表型和基因型的分析。相比较而言,表型鉴定方法还相对原始,已经成为性状定位的限制因素。目前表型组相关研究也取得了一些进展。自动化的高通量表型鉴定平台(温室,大田环境)能够帮助我们进行高精度的表型鉴定,也能依据植物的生长发育进行动态的监控。为了鉴定到一些微效的QTL位点,表型的精确性需要提升。微效多基因控制的性状定位分辨率也会受益于转录组水平的GWAS分析(TWAS),顺式调控元件里的SNPs和大的群体。就像医学发展的历程一样,植物育种也需要一个多学科团队的发展,能够处理植物生物学,遗传学,大规模表型鉴定方法,测序,生信分析,数据分析,统计学和数学带来的挑战,想想这些都令人激动。
槽点
文章最后还神化了QTL-seq,实际上,最早的一篇QTL-seq文章定位抗稻瘟病QTL和种子活力QTL,区间在2Mb左右……同样,作者又话锋一转,把测序从NGS引入到三代测序的技术上,为什么不继续好好说说NGS测序呢?

靠谱er汇总吐槽

本文发表的杂志贵为Trends in plant science,接收时间为2018年11月,online时间为2019年3月。但是全文读起来废话较多,一个意思换着句式去描述(这个倒可以学习学习,提升英文写作水平),所以靠谱er在翻译的时候某些段落采取意译的策略。另外,本文干货较少,尤其是涉及基因定位方法论的总结严重不足,总体感觉和现在基于NGS的功能基因定位进展慢了一拍。在基因定位理论和实践过程中,我们中国人发展了不少好的方法(韩斌老师的重测序划bin,王晓武老师的简化基因组genotyping和图谱构建,谢为博老师的基于子代推测亲本基因型的MP算法,黄学辉老师的多个混池的Gradedseq等等),已然走在了研究的前列,期待类似的综述由我们中国人来撰写。


相关阅读


群体知识干货大放送 | 学习专栏
Nat Eco&Evo:稗草重测序揭秘稻田里的“伪装者” | 群体遗传
Genome Biology:大规模桃树重测序带你回溯五千年桃驯化史 | 群体遗传
葡萄美酒夜光杯:GBS-GWAS定位葡萄风味基因 | 群体遗传
吃瓜的正确姿势 : GBS高密度遗传图谱助力甜瓜“好吃”性状QTL定位 | 群体遗传
BSA相关知识——质量、数量性状和作图群体 | BSA专题

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存