梅花香自苦寒来 | 蔷薇科李亚科首个测序物种
第三章 蔷薇科
地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。
第三章往期回顾
金冠苹果 ◆ 甜樱桃 ◆ 桃树 ◆ 栽培草莓 ◆ 砀山梨 ◆ 苹果 ◆ 森林草莓
梅(Prunus mume),多年生木本植物,蔷薇科,李属。在三千多年前的中国,梅就被驯养为观赏植物和水果,而后驰名世界,也是李亚科中的第一个被测序基因组的物种,其成熟期长达三至五年。在东亚地区,其花和幼果具有超强的耐寒能力,可在-2至-4度的早春环境中开花发育,我国古代便有“梅花香自苦寒来”的佳句。
文献题目:The genome of Prunus mume
发表期刊:Nature Communications
发表时间:2012年12月27日
影响因子:11.661
摘要介绍:来自北京林业大学、深圳华大基因研究院、北京林府科苑花卉有限公司、国家花卉栽培工程研究中心和西藏农牧大学5家科研院所合作完成的梅花基因组研究。
本文中,研究人员通过组合101X的二代测序和光学图谱数据(Optical mapping)来组装一个280M的基因组。通过限制性位点相关DNA测序构建的遗传图谱进一步将83.9%的支架锚定到具有的8条染色体上。结合该基因组与其它现有数据,成功地重建了蔷薇科9个祖先染色体,并描绘了3个主要亚科的染色体融合、裂殖和重复历史。对各种组织的转录组进行测序,并进行全基因组分析,揭示了包括其调节提前结束休眠和早期开花、细菌感染免疫反应和花香生物合成等特性。梅花基因组测序完成增加了我们对蔷薇科进化的理解,并提供了改进果树的重要数据。
研究插曲:
在de novo样品准备期间,研究人员遇到了这样的困难:
由于长期被人工嫁接和无性繁殖,相对其它植物而言,果树基因组具有更高的杂合率。这对组装软件及算法是一个严峻的挑战。为了获得该物种的参考基因组,研究团队一开始选择了2株栽培种进行短reads测序,但由于极高的杂合率,根本无法正常组装出较为完整的基因组。有了这次不成功尝试之后,他们开始寻找野生多代自交材料。最后在通脉(西藏博米州)【音译】的一个0.7KM2范围内分布着小于0.3KM2的野生自交群体。通过对这个群体中的某植株测序,最终才获得了该物种的参考基因组。De novo基因组组装成功的最关键因素就是材料遗传的背景是否相对简单。很多物种,往往因为基因组过于复杂,而被迫暂停或放弃。
内容简析
研究亮点:结合二代测序和光学图谱在多年生木本植物中应用的例子;
研究意义:高质量的梅基因组图谱的完成为梅的研究打开了新的一页。该图谱将促进梅抗性、品质等重要农艺性状基因的定位研究,为通过分子育种进行梅种改良奠定基础。同时,还为蔷薇科植物基因组的进化研究等基础生物学研究奠定基础。
研究内容:
1. 梅de novo基因组学分析;
2. 染色体进化:蔷薇科祖先染色体构建及3个主要属的染色体进化分;
3. 梅重要的特征,包括开花时间、抗病性和花的风味;
研究背景:
蔷薇科已知超过100个属,3,000多个物种,是温带地区第3大重要的经济植物科。在传统分类学中,根据果的类型可以将该科分为4个亚科。蔷薇科系统发育树的骨架系统分辨率较差,表明家系内发生快速进化,相当于较近期分化出一个新的属。正由于这种快速进化,蔷薇科出现表型多样丰富,以至于常规形态分类已经无法准确分类。像生长环境、染色体数目和果形在种群内独立进化。当前已经测序的3个蔷薇科物种:栽培苹果(染色体数2n=34)、草莓(染色体数2n=14)、桃(染色体数2n=16)、梅(染色体数2n=16)基因组的解析可以提高我们对蔷薇科物种基因的共性及快速进化的认知。
研究方法
研究对象:多代自交野生梅
所用软件:
组装--SOAPdenov;
比对软件--LASTZ、BLAT、BLAST;
转座子分析--RepeatMasker、RepeatProteinMask、LTR-FINDER、LTR_STRUC;
基因预测和功能注释--Augustus、Genewise、Glean、InterProScan;
转录组比对分析--Tophat, Cufflinks;
家族聚类--MUSCLE、Mcscan、OrthoMCL;
所用数据:
1. 多代自交野生梅用于基因组de novo;
2. 多个样品转录组测序;
所用数据库:
Repbase、TrEMBL databases、KEGG、miRBase、the database NONCODE、inmiRBase等数据库
研究结果
研究成果:
1. 在研究中,研究人员对野生来源的梅(杂合率0.03%)进行了全基因组测序,结合高密度的光学图谱,并组装得到高质量的基因组精细图谱,基因组大小约为280Mb。二代测序组装得到Scaffold N50=578 Kb,经过光学图谱二次组装后,Scaffold N50提升至1.1Mb(~2倍)。进一步通过遗传图谱中779个marker将scaffold锚定回染色体上。该基因组包含106.8Mb (45.0%)的重复序列和31,390个蛋白编码基因。
2. 通过梅与栽培评估之间比较分析,成功构建出蔷薇科9条祖先染色体。梅的4、5和7染色体并未经过重组,直接来自祖先染色体III、VII和VI。1号染色体来自祖先染色体II、V和IX的片段的重组。2号染色体来自祖先染色体IV和VIII加上III和V部分片段插入。3号来自祖先染色体 I、II和IX; 6号来自祖先染色体I、II和V;8号来自祖先染色体V和IX。因此,我们推测梅的基因组形成中至少发生11次断裂和11次融合。
生物学特性
1)休眠解除。与休眠相关的MADS-box转录因子家族在李属亚科中特异的串联排列。进化分析,发现6个DAM基因非常保守,几乎未发生选择,保持中性进化。C-repeat-binding转录因子 (CBF) 介导早期休眠释放过程中的PpCBF1的过度表达,导致对短日照的敏感并诱导的最佳生长温度下的休眠。本文鉴别出13个梅CBF基因。跟桃相比,在DAM4、DAM5和DAM6基因上游,本文发现了更多的CBF绑定位点,且在DAM1和DAM6上,分别发现1个和2个新的绑定位点。
2)抗逆能力强是梅另一个重要特性。本文中鉴别出253富含亮氨酸重复的激酶受体(LRR-RLK)。其中,相对于拟南芥 LRR-XI和LRR-XII亚家族显著扩张(可可T. cacao和毛果杨P. trichocarpa基因组中也发生相似的扩张)。其R基因也发生扩增,是拟南芥的2倍。其次,病原相关基因(PR)主要应对病原入侵及环境压力。大多数梅的PR家族发生显著扩张并成串联排列,特别是PR10 (25中的22) 排列在100Kb内。同时在梅根和叶的转录组样品中发现PR10家族基因高表达。研究人员推测PR10在其根和叶中对抗高盐、干旱和真菌起相关作用。
3)花香味。在早期的研究中,我们确定了梅花中的主要化合物类别是来自肉桂酸途径的萜类/苯丙素类,并且也存在萜烯化合物。挥发性化合物如苄醇乙酰转移酶(BEAT)的生物合成相关的基因,其催化乙酸苄酯的合成。本文发现,相对于苹果、葡萄、拟南芥等植物,梅BEAT基因发生显著扩张,且36个中的24个基因在同一个区域类。
图1 全基因组光学图谱和染色体锚定展示图
图a表示全基因组光学图谱辅助组装结果;图b表示通过779高质量SNP marker将scaffold锚定至8条染色体。黄色scaffold通过光学图谱和SNP marker锚定,而蓝色scaffold只通过SNP marker锚定。
图2. 梅基因组的进化分析
(A)通过梅和苹果之间的重复基因对的4DTv 分布图,计算方法是基于HKY替换模型(Hasegawa、Kishino and Yano)的密码子比对。(b)梅基因组重复分布图,通过梅自身旁系同源基因分析,每条线代表一个重复的基因。七种不同颜色代表七个祖先染色体。
图3 蔷薇科基因组进化模式
九中不同的颜色代表九条祖先染色体。从普通的祖先染色体开始的进化过程,R代表全基因复制和F代表染色体融合。第二层,不同的颜色代表共同的祖先染色体。最底层的图展示当前蔷薇科基因组的结构。其中有部分区域无法被识别来自哪条祖先染色体(白色区域)。
图4 梅基因组中六个串联排列的DAM基因
(a)六个串联排列的DAM基因在基因组中的位置排列;(b)梅基因组中六个串联排列的DAM基因的基因结构,盒子和线分别代表外显子和内含子,红色的点代表CBF绑定位点。
表1 梅基因组各级组装指标统计
结果显示其组装的基因组大小为237Mb(Kmer估计280Mb),纯二代测序组装得到Scaffold N50=578 Kb,经过光学图谱二次组装后,Scaffold N50提升至1.1Mb(~2倍)。
撰稿:大项目部-黎万顺
编辑:市场部
猜你喜欢
IBC意犹未尽?彩蛋来袭!|180+篇植物基因组文章解读大全
近期热文
Duplicates | NGS帝国的Agent Smith
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!