没有物理参考只用短片段技术,怎么做植物基因组拼接?
第三章 蔷薇科
地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。
第三章往期回顾
金冠苹果 ◆ 甜樱桃 ◆ 桃树 ◆ 栽培草莓 ◆ 砀山梨 ◆ 苹果
森林草莓具有遗传转化迅速、生长占地小、世代时间短等特点,特别适合用于功能基因组学研究。疾病抵抗、发育调控、果实的味道和质量等重要性状都可以通过森林草莓来进行研究。另外,森林草莓基因组的完成也说明可以在没有物理参考的情况下,只用短片段技术完成植物基因组的拼接。
文献题目:The genome of woodland strawberry (Fragaria vesca)
发表期刊:Nature Genetics
发表时间:2010年12月26日
影响因子:27.959
摘要介绍:森林草莓(Fragaria vesca)(2n=2x=14)是一种多用途的实验植物。这种矮小的多年生植物的基因组很小(240Mb),容易进行遗传转化,并且与栽培草莓(Fragaria × ananassa)和其它重要的经济类蔷薇植物具有很高的序列相似性。该研究使用第二代测序技术测序了39x数据进行de novo组装,并锚定到遗传连锁图谱上得到7条假染色体。在这个二倍体草莓的序列中缺乏在其他蔷薇类植物中可见的大的基因组复制事件。基因预测鉴定了34,809个基因,其中大部分能被转录组数据支持,鉴定了包括味道、营养价值和开花时间等有价值的园艺性状相关的基因。通过草莓属和李属的共线性关系推测出蔷薇科植物的祖先可能具有9条染色体;对154个编码基因的系统发育分析发现杨树应该属于锦葵类,而不是豆类。
内容简析
研究方向:
1. 森林草莓基因组的de novo组装与注释;
2. 森林草莓与拟南芥等其他植物的功能基因组学分析;
3. 森林草莓的转录组分析;
研究亮点:
1. 只利用了短读长测序技术,在没有物理图谱和参考基因组的情况下完成了高质量的植物基因组拼接;
2. 与其他蔷薇科植物相比,森林草莓基因组是唯一没有发现三倍化复制证据的;
3. 分析了森林草莓基因组较小的原因;
4. 发现了用叶绿体和核基因进行系统发育分析的结果差异,杨树的系统发育分类可能存在错误。
研究问题:
1. 只用短读长技术,没有参考进行植物基因组拼接与注释的效果;
2. 森林草莓基因组的三倍化复制;
3. 森林草莓基因组比较小的原因;
4. 与蔷薇科植物重要经济学性状相关的基因;
5. 被子植物的系统发育分类。
研究方法
研究对象:四代自交系二倍体草莓Hawaii 4 “H4x4”( F. vesca ssp. vesca)的基因组,以及3个转录组
所用软件:
组装:Celera Assembler(CA)、Velvet;
比对:MUMmer、Bowtie、BLAST、ClustalW;
基因预测:GeneMark-ES+;
同源基因鉴定:Inparanoid;
基因功能注释:InterProScan、SignalP、Predotar、TMHMM;
转录组比对分析:HashMatch、Supersplat;
基因家族分析:MUSCLE、RAxML、Gblocks、CONSEL。
所用数据:
1. 四代自交系二倍体草莓Hawaii 4 “H4x4”(F. vesca ssp.vesca)的基因组数据;
2. 森林草莓果实和根的转录组数据。
所用数据库:
Repbase、MIPs、TIGR、SwissProt、UniRef90、RefSeq (plant)、NCBI、Peking University Plant Transcription Factor Databases、GeneTrees等数据库。
实验过程:
De novo样品:
选择森林草莓F. vesca ssp. Vesca Hawaii 4的四代自交系(“H4x4”)进行测序。H4x4具有成熟和开花不受日长影响、自花授粉释放的种子数量多、生命周期仅有4-6个月且不受季节限制等特点。它还结白-黄色果实和从匍匐枝产生新植株。
转录组样品:
为了得到森林草莓转录组的综合信息,对成熟的草莓植株分别进行环境、生长调节剂、光照和药理学等方面的处理,然后收集并混合提取RNA。用于基因预测的RNA分别提取自果实和根。
创新方法:
采用新的机器学习算法:GeneMark-ES+,结合了从头预测、TE库和转录组数据等证据,实现准确的基因预测。
研究结果
研究成果:
1. 对森林草莓进行了全基因组测序并进行de novo组装,scaffold N50达到了1.3Mb,其中95%(209.8Mb)以上的序列集中在272条scaffolds上。利用390个遗传标记将大约94%的序列锚定到连锁图谱上,拼接成7条假染色体。(2017年,密歇根州立大学等的研究者利用第三代单分子测序和光学图谱技术将森林草莓的基因组质量提高了大约300倍,Contig N50长度达到了7.9Mb,相关文献发表于《Gigascience》。)
2. 通过查看来自李属的389个蔷薇科保守直系同源组的标记在森林草莓基因组的对应位置,发现两个基因组之间有着显著的保守性,并推测蔷薇科植物共同祖先可能具有9条染色体。
3. 蔷薇类植物的所有成员共同经历了一次古老的基因组三倍化复制,然而森林草莓中并没有发现大规模基因组复制的证据。研究人员认为,染色体重排和基因组缩小(或许伴随着复制基因的选择性丢失)可能掩盖了那次古老的三倍化复制的特征。
4. 在植物中,不论是在占核基因组的比例上,还是它们驱动基因/基因组进化的程度上,转座元件(TE)是重要组成。本研究鉴定了超过6,000个完整的TEs,占基因组的比例约为22%,并且它们在原始数据和拼接结果中的比例没有显著差异,这说明对TEs拼接的效果很好。同时还发现,数目最多的LTR反转录转座子家族的拷贝数还不到2,100,而其他被子植物LTR反转录转座子家族的平均拷贝数超过1万个,因此缺少高拷贝数的LTR反转录转座子可能是森林草莓基因组较小的原因。
5. 森林草莓的基因组序列能够提供蔷薇科植物重要性状的信息,如果实的味道、营养和芳香等。对森林草莓基因组的分析,发现了很多参与味道产生、开花和疾病抵抗等生物学过程的结构基因的直系和旁系同源基因。
6. 通过与其他被子植物基因组的比较分析,研究人员发现以前对于杨树的系统发育分类可能是错误的。利用线粒体基因和核基因进行的研究将杨树划分到了锦葵类,而不是豆类。这个结论和用叶绿体基因研究的结论是冲突的。研究人员推测这可能是由于叶绿体与细胞核在进化过程中的差异造成的。
图1 森林草莓的基因组锚定到参考遗传图谱
将拼接的scaffolds比对到参考遗传图谱FV × FN以及相关的bin map来确定位置和方向,通过390个遗传标记,一共198.1Mb的scaffold序列被锚定到了遗传图谱上。其中,蓝色的scaffolds利用标记在FV × FN的后代的比对位置确定位置和方向,而黄色的scaffolds被锚定到mapping bins。
图2 389个蔷薇科保守直系同源组标记在森林草莓上的位置相对于在李属上的bin map位置的Circos示意图
森林草莓为7条假染色体,李属为8个连锁群。标记在李属图谱上的位置通过cM位置乘以400,000转化为近似的物理位置。
图3 草莓基因的GO功能注释图
a和b分别为在果实和根中表达基因富集的GO分类。圆的颜色根据富集的显著性水平设置(黄色表示fdr<0.05),圆的大小表示每个分类的基因数目。
图4 水稻、葡萄、拟南芥和草莓之间特有和共享的基因家族维恩图
一共有21个物种被用来鉴定基因家族。共有15,969个基因家族,103,570个基因至少属于四个物种之一。通过四个物种的比较,发现草莓拥有681个特有的基因家族,草莓和拟南芥共同拥有663个特有家族,草莓和水稻共同拥有262个基因家族。另外,四个物种共同拥有6,233个基因家族。
图5 草莓与其他7种双子叶植物和2种单子叶植物基因组的最大似然系统发育树
该图基于154个单拷贝直系同源基因的比对,这些基因至少存在于10个物种中的8个。豆类分支的物种标记为红色,锦葵类分支的物种标记为蓝色。拓扑结构和重复取样检验都强烈支持把杨树归类为锦葵类,而不是豆类。
【参考文献】
Shulae,V., et al.(2010)."The genome of woodland strawberry (Fragaria vesca)."
撰稿:大项目部-朱亚兵
编辑:市场部
猜你喜欢
IBC意犹未尽?彩蛋来袭!|180+篇植物基因组文章解读大全
近期热文
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!