征服极端土壤环境,条叶蓝芥是如何做到的?
第二章十字花科
地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。
十字花科往期回顾
我们都知道在盐分含量较高的盐碱地只有少数的植物可以存活,而盐碱地的整治工作更是一项长期且艰难的浩大工程。本期180+植物基因组解读(第二章第四篇)的主角就是一种可以适应高盐分且贫瘠土壤环境的植物——条叶蓝芥。条叶蓝芥基因组的问世,为染色体结构、组织和基因补充提供了独特的视角。最重要的是,通过与拟南芥这一对环境胁迫非常敏感的物种的基因组进行了比较。
文献题目: The genome of the extremophile crucifer Thellungiella parvula
发表期刊: Nature Genetics
发表时间:2011年8月
影响因子:27.959
摘要介绍:条叶蓝芥与拟南芥关系很近,可以在盐分高且贫瘠的土壤环境中生长,这一特性使得它成为了研究植物为适应极端环境而发生进化的模式物种。本文展示了这种极端物种的基因组,仅使用二代测序,得到了de novo组装的基因组,包含了1,496条gap-free的contigs,大小非常接近预估的140Mb的基因组大小。
利用图谱将这些contigs连成了7条假染色体。我们证明了真核生物即使在缺乏前期遗传信息的情况下,利用短reads仍然可以组装出近乎完整的染色体。基因组序列表明,大量的串联重复,以及重复基因的性质,有可能是条叶蓝芥极端环境适应性的基础。我们的结果为研究针对环境胁迫的进化提供了一个发展的、分子水平的、具有可测试性的必不可少的背景研究。
研究背景:在最初的分析中,条叶蓝芥这一盐土植物,比拟南芥的基因组仅大了15%,但是在基因的组成上却表现出了惊人的差异。这些差异一部分是条叶蓝芥的串联重复基因,但是在拟南芥基因组中是单拷贝基因,这些基因已知与胁迫应答有关,因此条叶蓝芥的抗胁迫能力得到了加强,这些不同解释了条叶蓝芥独特的生活方式和严苛的生存条件。更多更细致的对基因组结构、编码的复杂性、基因结构和在胁迫应答途径上的基因表达的比较性研究将会为弄清条叶蓝芥的表型与基因上的联系指明道路。
内容解析
研究问题:
条叶蓝芥与拟南芥的共线性关系;
条叶蓝芥与拟南芥基因组上重复序列的分布;
条叶蓝芥开放读码框(ORF)的预测,以及与拟南芥cDNAs进行GO分类比较分析;
条叶蓝芥与拟南芥在拷贝数变异上有差异的基因GO分类比较分析;
条叶蓝芥与拟南芥在串联重复上有差异的基因的GO分类比较分析;
研究方向:
条叶蓝芥de novo基因组学研究;
条叶蓝芥与拟南芥的比较基因组研究;
研究成果:
1. 该项目只使用了包括 ROCHE-454 GS FLX Titanium测序和Illumina GA2测序在内的二代测序,在 single-end reads的基础上又增加了不同插入片段大小的paired-end文库,最终总共获得了7.8G的数据,覆盖度是基因组大小的50X,其中85%数据是来自454测序,最终组装出一个de novo,scaffold-level,gap-free的基因组。基因组是137.09 Mb(流式细胞仪分析条叶蓝芥的基因组是160Mb),总共得到大小从1kb到13.08Mb不等的gap-free的meta-contigs (scaffolds)1,496条。条叶蓝芥基因组长度的73%是由20条长度大于1.5 Mb的contigs组成的,85%的基因组是由最长的60条长度大于100Kb的contigs组成的。
2. 条叶芥蓝和拟南芥有很显著的共线性。最长的20条contig覆盖了拟南芥的全部5条染色体(除着丝粒及附近位点之外的部分)。其中最长的一条contig,c1 (13.08Mb),比对上了拟南芥染色体1的整个一条臂。
3. 条叶蓝芥的重复序列达到基因组的7.5%,重复序列在两个物种中都是呈不均衡分布的。拟南芥染色体上在着丝粒附近,重复序列比较集中,其它植物的基因组也有类似报道;但是,在条叶蓝芥的contigs上,重复序列却是在两端富集。我们发现在条叶蓝芥比较小的contigs上的重复序列比较多,最长的20条contigs上的平均重复序列含量是5.5%,剩下的40条contigs,c21–c60,包含17.5%。
4. 采用FGENESH++进行了基因模型的预测,GENSCAN和BLAST检索可以将假阳性预测降低到最低。利用BLAST比对和Blast2GO流程进行注释,手动预测了开放读码框(ORF),条叶蓝芥的开放读码框长度比通过拟南芥同源预测的长20%。条叶芥蓝预测的蛋白编码ORF共28,901个,比拟南芥多7%(27,059个,不包含线粒体和叶绿体基因,跟据TAIR9基因组)。将来自条叶蓝芥幼苗组织的转录组测序的短reads比对到了这些ORF中的19,176个ORF上。预测的ORFs的平均长度是1,252bp。71%的ORF长度为201bp到1500bp之间,这种分布与拟南芥的蛋白编码cDNA类似。总体来说,外显子区域的GC含量比内含子和基因间区要高。用BLASTn将条叶蓝芥的ORFs与拟南芥的cDNAs比对后发现,共有25,783 (89%)比对上了(e value<0.00001),这其中,21,523ORFs与对应拟南芥同源基因有着非常相似的长度(80–120%)。条叶蓝芥的包含了大多数的ORFs的最长的20条contigs,几乎每一条都与一条拟南芥染色体有相似的序列,contig c3是个例外,它与三条拟南芥染色体的基因有相似性。
5. 3,118 个预测的ORFs用BLASTn比对没有比对上拟南芥的cDNAs(即使将条件放宽后也没有比对上,e value>0.001),ORFs集中的区域含有大量的重复序列,很有可能是条叶蓝芥特有的转座子。通过与microRNA (miRNA)和其它非编码RNA数据库比对,条叶蓝芥基因组包含了86.6 kb的非编码RNAs。
6. 我们使用Blast2GO流程对条叶蓝芥预测的ORFs进行GO注释,并和拟南芥转录组进行了比较。在生物过程这一类中,条叶蓝芥在“对非生物与生物刺激应答”和“发育过程”在这两个子分类中比较富集,在“信号转导”这一子类中比较少。在“分子功能”这一类中,两个物种在“转运活性”和“受体结合或活性”子类的富集有着明显差别。条叶蓝芥中ATP酶和核苷酸、阳离子、糖转运蛋白的数量明显高于拟南芥。这些不同反映了栖息地不同,受到的环境压力也不同。ATP酶和核苷酸受体蛋白具有平衡pH和调节细胞能量代谢的作用(比如在盐胁迫条件下,可溶性糖和多元醇的转运和积累被认为是耐渗透压的关键机制)。Na+和K+
转运蛋白基因拷贝数的显著不同有可能反映了条叶蓝芥对含盐及其他不平衡的离子的土壤的适应性。
7. 基因拷贝数变异也被认为是导致表型变化和适应环境进化的一个主要机制。条叶蓝芥的 ORFs 比拟南芥的蛋白编码cDNAs 多1,842个,在GO分类中呈明显的不同,条叶蓝芥中与胁迫相关的基因【比如AVP1, HKT1, NHX8 (ref. 20), CBL10 (ref. 21) and MYB47】的拷贝数明显多得多。
8. 长期以来有一个假说:基因复制是进化的一个媒介,最近也有越来越多的实验证据支持这一点。在导致条叶蓝芥和拟南芥物种分离的最近的全基因组复制事件之后,不管是条叶蓝芥还是拟南芥中,相对于大的插入和缺失,拷贝数变异的主要类型都是串联基因重复。我们在条叶蓝芥中总共发现1,278个串联重复,在拟南芥中有1,113个,仅有一半的串联重复是在两个物种中同时存在的。通过观察这些串联重复的GO分类,在两个物种在“生物学过程”这一类和“分子功能”这一子类上呈现明显的不同。在“非生物和生物刺激应答”和“发育过程”这两个子类中,基因数目有差异,且增加的基本都是串联重复。
研究亮点:通过比较基因组学的方法,找到条叶蓝芥与环境胁迫相关的基因。
研究方法
研究对象:条叶蓝芥
所用软件:FGENESH++, GENSCAN and BLAST-基因模式预测;Blast2GO pipeline-- GO分类分析;BLAST ,BLASTn--比对;
所用数据:
条叶蓝芥基因组de novo;
拟南芥基因组与转录组;
条叶蓝芥转录组数据;
芜菁基因组数据;
所用数据库:Gene Ontology databases,NCBI nucleotide database,TAIR9 cDNA database ,Plant Repeat database, Rfam database,NCBI non-redundant (NR) database,miRBase database等
实验过程:
De novo样品准备:提取10天大条叶蓝芥种子的DNA,它们是取自Tuz Golu湖的植株经8代单株单粒传种后的后代的种子。在采集地,盐的体积密度为1.225 g/cm3,质量密度为32.4%。
研究难点:组装出高质量的条叶蓝芥基因组,找出条叶蓝芥与环境胁迫的相关基因。
研究结果
图1. 通过比较最长的20条contigs, c1–c20 (a)以及40条其次长度的contigs, c21–c60 (b),发现条叶蓝芥 contigs 和 拟南芥染色体之间存在着非常大的共线性。拟南芥的1–5号染色体分别用红色,绿色,黄色,紫色和蓝色来表示,着丝粒区域用黑色条带来表示。大于2,000 bp 的且具有75% 以上的相似度 (最大容gap1,000 bp )的片段用彩色线连起来。每个染色体或contig 块的大小为1 Mb. 外圈展示了蛋白编码区和重复序列,蓝色、黄色和橙色代表了蛋白编码基因,DNA 转座子和反转录转座子的比例,窗口大小是 0.1 Mb. 在条叶蓝芥contigs中, 预测蛋白编码基因是通过与拟南芥cDNA 数据库BLASTn比对的方法。
图2. 条叶蓝芥基因组ORFs 的预测和注释。
(a) 预测的条叶蓝芥ORFs的长度分布、 (b)预测的条叶蓝芥ORFs 与拟南芥 cDNAs 比较有最高的BLASTn hit score。条叶蓝芥ORFs与拟南芥 cDNAs长度的比值,条叶蓝芥ORFs与拟南芥 cDNAs的GO 分类分析比较。“生物过程“ (c) ,”分子功能“(d) 经卡方检验后有显著不同的分类用“*P < 0.05 or **P < 0.01“来表示。”其他新陈代谢过程“(GO:0008152),”其他生理学过程” (GO:0007582) 和“其他生物学过程” (GO:0008150) 没有展示。
图3. 比较了拟南芥基因组和条叶蓝芥基因组串联重复的位置
(a) 串联重复的例子,该例子展示了包含 HKT1, CBL10 and MYB47的染色体和contigs的区域。(b) Venn图展示了两个物种中共有和特有的串联重复。
图4 条叶蓝芥7条染色体的组装
(a) 利用染色体涂染的方法得到祖先核型片段(A to X)在拟南芥中的大体轮廓,并在拟南芥染色体上展示出来。 (b) 条叶蓝芥contigs 比对到山嵛菜 (n = 7) 核型 ORFs定义了祖先核型的边界. 拟南芥ID表明了每一个插入的ORF 都具有高度同源性(c) Circos图展示了7条染色体的组装。40 条最长的条叶蓝芥 contigs在图中有展示,外圈的线性和直方图展示了图1中提到的蛋白编码基因和重复序列。
结果表格解读
组装共得到contigs 1,496条,总长度为137.09 Mb,Contig N50是 5.29 Mb。预测到的基因数目30,419,蛋白编码的ORFs 28,901个。
条叶蓝芥和拟南芥中具有转座子活性或受体结合活性的GO 分类的比较细节。
【参考文献格式】
Qin, C., et al. (2011). "The genome of the extremophile crucifer Thellungiella parvula " .Nature Genetics, 43: 913–918(2011).
撰稿:大项目部-高丽
编辑:市场部
猜你喜欢
IBC意犹未尽?彩蛋来袭!|180+篇植物基因组文章解读大全
近期热文
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!