草莓好吃,但草莓基因组你知道吗?
第三章 蔷薇科
地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。
第三章往期回顾
春节前后正值草莓上市的季节,大大小小的草莓,品种繁多,挑得人们眼花缭乱。草莓的果肉色泽红润,味道酸甜可口,营养价值高,还有保健功效。如今,我们能够品尝到这些优质的栽培草莓,很大程度上得益于科学家们的不断努力。今天科技君为大家准备栽培草莓基因组文章,这样大家在享用草莓的同时也能知道自己吃下了“多少基因组”。
本文中,研究人员破译了八倍体栽培草莓F. x ananassa基因组,并与5种野生草莓基因组(F. iinumae、F. nipponica、F. nubicola、F. orientalis和 F. vesca)进行了全基因组比较分析,这一研究成果将有助于培育品质更优良的栽培草莓。
文献题目:Dissection of the Octoploid Strawberry Genome by Deep Sequencing
of the Genomes of Fragaria Species
发表期刊:DNA Research
发表时间:2013年11月26日
影响因子:5.404
摘要介绍:草莓是一种全球广泛消费的作物,属于蔷薇科,其中草莓属包含1种栽培草莓和24种野生草莓。野生草莓一般为二倍体和四倍体,栽培草莓Fragaria x ananassa是由两种八倍体野生草莓F. virginiana和F. chiloensis自然杂交而得。早在2010年,科学家们就已破译了二倍体野生草莓(Fragaria vesca)基因组,但栽培草莓基因组的破译工作在当时一直没有进展,二倍体草莓基因组到八倍体草莓基因组的进化历史也存在着争议。
栽培草莓(F. x ananassa)是八倍体,自花授粉。本研究主要通过高通量测序技术对1种栽培草莓和4种野生草莓进行全基因组测序和组装,然后对栽培草莓基因组与野生草莓种F. iinumae、F. nipponica、F. nubicola和F. orientalis基因组进行比较来研究栽培草莓基因组。在该研究中,科学家们获得了698Mb的栽培草莓基因组序列,和4种野生草莓基因组序列,分别为200Mb、206Mb、204Mb、214Mb;还通过对栽培草莓基因组序列进行整合处理后获得了173Mb的虚拟参考基因组序列。并对栽培草莓和野生草莓进行基因注释,分别得到了230,838、76,760、87,803、85,062、99,674个基因。SSR构建的系统发育树结果显示野生草莓(F. vesca)是栽培草莓(F. x ananassa)亲缘关系最近的二倍体物种。通过栽培草莓与野生草莓的基因组比较分析发现F. vesca和F. iinumae作为祖先物种对F. x ananassa的贡献一样多,与历史研究报道的结论一致。
内容简析
研究方向:
1. 栽培草莓基因组de novo研究;
2. 4种野生草莓基因组de novo研究;
3. 栽培草莓与野生草莓基因组比较分析;
研究难点:
1. 八倍体基因组中亚基因组间的同源性使得基因组十分复杂,另外,栽培草莓异型杂交的行为使得基因组中产生了大量的杂合位点,这都大大增加了组装的难度。
2. 由于栽培草莓基因组的复杂性,组装存在很大障碍。因此,科学家们尝试通过整合染色体同源区域和杂合区域来构建栽培草莓的虚拟参考基因组序列。
研究问题:
1. 栽培草莓F. x ananassa基因组;
2. 栽培草莓与野生草莓基因组的关系;
研究方法
研究对象:
栽培草莓F. x ananassa;
野生草莓F. iinumae, F. nipponica, F. nubicola, F. orientalis, F. vesca;
所用软件:
估计基因组大小--Jellyfish ver. 1.1.6;
组装和补洞--Newbler 2.7、SOAPdenovo v1.05、GapCloser 1.10;
比对软件--BLAT、BLASTN、BLASTX、MEGABLAST;
片段分析--GeneMapper;
所用数据:
栽培草莓F. x ananassa基因组序列;
野生草莓F. iinumae、F. nipponica、F. nubicola、F. orientalis 和 F. vesca基因组序列;
草莓属基因组多态性数据(24 Fragaria accessions);
所用数据库:Repbase、Gypsy Database 2.0;
实验过程:
F. x ananassa: 用植物DNA试剂盒提取日本品种‘Reikou’后代S1 的嫩叶DNA,做全基因组DNA进行测序;
F.iinumae、F.nipponica、F.nubicola和 F.orientalis: 用植物DNA试剂盒提取物种嫩叶DNA,对全基因组DNA进行测序;
研究结果
研究成果:
1. 对1种栽培草莓和4种野生草莓进行全基因组测序,分别得到277G、71G、72G、74G和75G reads。分别对reads进行组装,获得了栽培草莓八倍体基因组和4种野生草莓基因组序列,总长分别为698Mb、200Mb、206Mb、204Mb、214Mb。对栽培草莓和野生草莓进行基因注释,分别得到了230,838、76,760、87,803、85,062、99,674 个基因。基因组重复序列比例分别为47.1%、31.7%、25.5%、24.5%、26.3%。其中栽培草莓基因组重复序列是野生草莓F. vesca重复序列的6.4倍,可能是由于基因组的高杂合,重复序列被过高估计了。
2. 构建虚拟参考序列。通过测序平台对栽培草莓进行全基因组测序,得到2.6G 454 reads;用454 reads和Illumina reads 分别进行组装,然后用Illumina reads得到的scaffolds、contigs、singlets与454 reads得到的scaffold进行整合得到栽培草莓虚拟参考基因组序列(FANhybrid_r1.2),总长173Mb,预测到45,377个基因。
3. 由632个SSR marker构建系统发育树,结果显示野生草莓(F. vesca)是栽培草莓(F. x ananassa)亲缘关系最近的二倍体物种。
4. 将栽培草莓虚拟参考基因组序列与栽培草莓(F. x ananassa)基因组序列,野生草莓种(F. iinumae, F. nipponica, F. nubicola, F. orientalis 和F. vesca)基因组进行比较,发现F. vesca和F. iinumae作为祖先对F. x ananassa的贡献一样多,与历史研究报道的结论一致。
图1 野生草莓基因组的虚拟参考序列(FANhybrid_r1.2)的组装方法流程图
图中黑色背景框中表示最终的虚拟参考序列,由454 reads组装的结果和Illumina reads组装的结果整合得到。其中454数据组装结果通过采用软件Newbler 2.7选择杂合模式进行组装,并用软件进行补洞得到。
图2 左边为数据组装得到的野生草莓基因组序列与栽培草莓虚拟基因组序列(FANhybrid_r1.2)比对的位置和覆盖度展示;右边为5个野生草莓与栽培草莓虚拟基因组序列(FANhybrid_r1.2)最优比对的频率;中间为栽培草莓虚拟基因组序列(FANhybrid_r1.2),黑色条纹为虚拟基因组序列与野生草莓F. vesca (v1.1) Chr1的同源序列。
表1 栽培草莓和4种野生草莓基因组组装统计结果
该表格分别统计了总的scaffold数、总序列长度、scaffold 序列平均长度最长的scaffold长度、scaffold N50以及A、T、C、G、N含量和GC含量比例。从表中可看出,栽培草莓八倍体基因组的组装长度约698Mb,接近估计的基因组大小692Mb,栽培草莓基因组合并处理后得到的虚拟参考序列约173Mb,而4个野生草莓基因组的组装长度分别为200Mb、206Mb、204Mb、214Mb。栽培草莓和野生草莓基因组的GC含量基本在38.1%~39.1%之间,GC含量相差不大。
【参考文献】
Hirakawa, H. et al. Dissection of the octoploid strawberry genome by deep sequencing of the genomes of Fragaria species. DNA research : an international journal for rapid publication of reports on genes and genomes 21, 169-181, doi:10.1093/dnares/dst049 (2014).
撰稿:大项目部-吴章艳
编辑:市场部
猜你喜欢
IBC意犹未尽?彩蛋来袭!|180+篇植物基因组文章解读大全
近期热文
华大基因全球发布2项重大计划,引爆J.P.Morgan健康大会
国际顶级生物信息专家李恒博士出任BGI Online资深顾问
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!