查看原文
其他

古早植物进化史 | 琴叶拟南芥基因组

大项目部-许晓敏 华大科技BGITech 2019-05-10
180+篇植物基因组文章解读大全

第二章 十字花科

地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。

十字花科往期回顾

玛卡 ◆ 甘蓝型油菜 ◆ 白萝卜 ◆ 条叶蓝芥 

白菜  甘蓝  盐芥 ◆ 榨菜 ◆ 拟南芥



 导读 

在此之前,180+篇植物基因组文献解读就曾推送过拟南芥基因组文章。今天,科技君要跟大家来说说它的“兄弟”,一千万年前从原始8倍体拟南芥分化出来的琴叶拟南芥


在拟南芥的进化历史中,由于早期拟南芥杂交派生出了新的进化品种——琴叶拟南芥(Aly)。该品种的基因组更接近古早拟南芥物种,但是远大于当代拟南芥(Ath)基因组,且属于自交不亲和多年生植物。Aly的基因组与Ath基因组的巨大差异对于拟南芥基因组在常规进化过程中序列大量丢失、形成Ath种的演变历史具有很强的指导意义。因此,该文章重点研究了这两种拟南芥基因组在结构和功能上的差异,以及两种拟南芥在进化过程中发生差异进化的原因,希望以此来揭开简装上阵的Ath基因组的神秘面纱。


文献题目:The Arabidopsis lyrata genome sequence and the basis of rapid genome size change


发表期刊:Nature Genetics


发表时间:2011年4月11日


影响因子:27.959


摘要介绍:本文的数据是通过双脱氧法测序所得的,数据深度为8.3x,最终组装出来206.7Mb的北美琴叶拟南芥(Aly)基因组。它的基因组更接近早期拟南芥的基因组序列大小。通过分析杂交种琴叶拟南芥基因组含有32,670个基因,远多于自交种Ath基因组约27,025个基因。且分化事件分析发现,琴叶拟南芥是在约1千万年前从原始8倍体拟南芥中分化出来的,其基因组大小为207Mb。而Ath拟南芥基因组(仅125Mb)则是现代拟南芥家系的主要形态。


本文通过将Ath和Aly基因组序列进行比较,发现了Ath中大规模DNA序列遗失的情况,引起了研究者广泛的关注。其中,Aly和Ath基因组的主要差异是成千上万的小片段缺失,大部分缺失产生在DNA非编码区和转录子。且随着时间的推移,Ath基因组的序列缺失和插入仍在持续中,而这种现象是环境对小片段序列选择的最终结果。Aly作为一个古早植物,对同种的拟南芥进化有极大的指导价值。


研究亮点:

1. 组装了高质量的琴叶拟南芥基因组;

2. 导致自交Ath和杂交Aly基因组巨大差异的原因;

3. 使用Aly基因组与Ath拟南芥基因组,以及外群基因组,进行分化时间以及重组,倍增事件的研究,揭露超短时间周期,Ath轻装上阵的原因。


研究意义:还原早期拟南芥的特异性基因组序列及染色体分组情况。且作为古早拟南芥的替代物种,Aly具有很重要的研究价值和地位。通过将Ath基因组跟Aly基因组进行比较,不仅知道了导致Ath基因组发生巨大变化的原因,也证明了自然选择的偏好——偏好保留小基因序列信息。并且,这个特意的进化现象依然在进行中。


研究难点:Aly跟Ath的分化时间很短,且均属于拟南芥种,但是极短时间内的基因组大范围的缩减和大规模的重组是一个研究难点。因为古早物种已经消失,且并未有跟古早物种相似的近代物种作为参照,要想研究他们的巨大差异来源,这并不是一个短期就可以做到的事情。

研究方法


研究对象:琴叶拟南芥


所用软件:

Arachne v.20071016 ---组装

Megablast, blastp, Genomethreader, TblastX , SHORE/GenomeMapper, F-box PF00646.hmm, ClustalX

2.0 ,MUSCLE,SSEARCH,BLAT --- 比对

ab initio, EuGene, GeneID, SpliceMachine---基因预测

JGI Annotation pipeline,Blast2GO,tblastx ,BlastX ---注释

MCL,OrthoMCL ---聚类

PAUP* version 4.0b10---建树

i-ADHoRe---共线性分析


所用数据:

1. 北美琴叶拟南芥(MN47)DNA和RNA;

2. Ath拟南芥polyA+-RNA和小RNA;

3. 杨树和葡萄的基因信息;


所用数据库:

Repbase, TIGR Plant Transcript Assemblies database, KEGG, GO, Eukaryotic, nrprot, JCVI/TIGR plant repeat database.


研究结果

1. 基因组组装与注释

(1) 基于8.3x双脱氧测序序列,组装了206.7Mb的高质量的琴叶拟南芥菌种基因组MN47(琴叶拟南芥为部分近交)。其中,有90%的序列集中在9个最长的scaffolds上,在这其中,8个scaffolds覆盖了Aly的8条染色体的绝大部分,一个大小为1.9M的scaffold代表其中的一个着丝粒。通过细胞学观察,预估了着丝粒序列大小约为17.2Mb。


(2) 对Aly进行基因组结构和功能注释,得到了共32,670个Aly基因的基因集合,这远大于Ath的27,025个基因的基因集。


2. 合成与重排

(1) Aly以及大多数十字花科植物均拥有8条染色体,而Ath则只有5条染色体,通过序列比对,发现了10个主要重排(包括2个颠倒移位和3个染色体融合),这最终导致Ath仅仅拥有5条染色体。且这两种的基因组相似性达到80%。通过比对Ath和Aly的4号染色体着丝粒的区域,发现该位置本来应为为Aly着丝粒区域的片段已经缺失,仅在AT2G26570 和 AT2G26580之间残存了约1.4kb的两个微卫星重复片段。


(2) 除去染色体数目的差别,两个基因组90%的部分序列同步。且序列差异显示,基因骤减的原因可能是大量的小规模重组(<10kb),包括单基因转座。确认的154个倒置中,有2/3是反向重复。


3. 序列内容

(1) 全基因组序列比对显示Aly基因组的50%(约114Mb)在Ath基因组中缺失,且25%的Ath基因组(约30Mb)在Aly基因组缺失。两个基因组的序列分布中,差异序列有一半是转座元件,有1/4是基因间区。这些差异导致的结果是Ath基因组比Aly基因组小约80Mb,但是Ath有更多的基因序列。Aly和Ath基因组差异的原因大部分由于成千上万的小片段缺失与插入,而缺失的3个染色体只引起了10%的基因组大小差异。


(2) 共线分析表明,Aly基因间区域和内含子比Ath基因组中对应的片段要长很多,但它们的内含子间的差异相对较小。


(3) 大部分Ath基因比Aly要低,但在功能分类差异不大。Ath基因数目少于Aly基因,这一现象在它们与另外两种双子叶植物---杨树与葡萄---的对比也可以看到:Aly与杨树和葡萄有114个不包含Ath直系同源聚类,有875个独有的聚类;Ath与杨树和葡萄有45个不包含琴叶拟南芥的直系同源聚类,以及156个独有的聚类。


(4) Ath的平均突变速率和中间突变速率分别为3.1百万年和2.1百万年,Aly的平均突变速率和中间突变速率分别为1.1百万年和0.6百万年。而Ath中LTR反转录转座子的推算半衰期(2百万年)大于琴叶拟南芥(60万年)。系统发育分析也显示特定LTR反转座子在Aly分支的扩展。


(5) 反义转座子在两个物种中分布不同,琴叶拟南芥中有更多的基因附近存在反转座子, Ath中则相反。这跟早期实验验证一致,也即远离基因的反转录座子优先生存,反转录座子消除在Ath拟南芥中更加有效率。


4. Ath基因组大小持续缩小的证据

(1) 目前的证据都表明Ath通过基因组内大量小片段缺失,演化出了小基因组。在缺失差异里,缺失的平均长度要长于插入的平均长度。缺失多于插入是因为选择而不是简单的变异偏好,这些最终导致Ath基因组远小于Aly基因组。


(2) Ath基因组中非编码序列的缺失具有较高的等位基因频率,而且固定和多态性缺失比插入更常见。



图1 琴叶拟南芥基因组与Ath拟南芥基因组的比较

(a) 琴叶拟南芥与Ath拟南芥的染色体比对。基因组条均一成等长条状。只有500kb以上片段被连接。Aly以及大多数十字花科植物拥有8条染色体,遗传图谱显示10个主要重排(包括2个互易易位和3个染色体融合)导致Ath只拥有5条染色体。(b)基因同源剧烈。(c)共线基因的长度分布。1-条块显示了单基因置换的频率。(d)未比对上的序列可以被认为只存在于一个物种中,在另一个则缺失;比对上的位置由星号表示,未比对上的位置由点号表示。 左侧的直方图表示比对不上的总数,中间的饼图比较了不同基因组中结构区域的分布情况。(e)基因组构成。括号里的数字是各类因子的数目。


图2 通过基因组大小和注释来显示删除

Aly信息在上Ath信息在下。全基因组比对显示琴叶拟南芥基因组的50%(约114Mb)从Ath拟南芥的参考基因组中丢失,相反, 25%的Ath拟南芥基因组(约30Mb)没有出现在琴叶拟南芥基因组中。尽管如此,两个基因组的序列分布相似,未比对上的序列有一半是转座元件,有1/4湿基因间区。这些差异导致的结果是Ath的基因组比琴叶拟南芥的基因组小约80Mb,但有更多的基因序列。


图3  沿着Ath拟南芥基因组的基因组间隔的变化

蓝色阴影为每个100 kb窗口中的共线基因对平均比例,浅蓝色点显示各个值。 深紫色线为每个不重叠的100 kb窗口的绝对长度的比率。灰色框为着丝粒。



图4 共线区域、重排区域、基因间区域和基因家族的大小变化

(a) Ath拟南芥100kb窗户的共线区域的大小比较,星号标明显著不同的部分(二项检测,p<0.001)。(b)基因间区域的相对大小;(c)MCL聚类;(d)基因家族的相对大小;(3)大部分Ath拟南芥的基因比琴叶拟南芥要低,但功能分类差异不大。运用马氏聚类算法MCL结合Ath拟南芥和琴叶拟南芥基因集,共得到12,951个簇。Ath拟南芥基因数目少于琴叶拟南芥。



图5 转座元件的对比

(a) 通过基于实验的Ath拟南芥突变率来估算LTR反转录转座子的插入时间。该指数在四分之一范围均高于1.5倍。 物种间区别非常显著(Wilcoxon秩和检验,p <2.2x10-16)。(b)Ty1/copia样和Ty3/gypsy样LTR反转录转座子的系统发育。酿酒酵母Ty1和Ty3用作外组,并用绿色表示。(c)来自每个基因的最近转座因子的距离。两个物种之间的区别不仅是由于Ath拟南芥含有较少的转座元件基因组所导致的。



图6 95个Ath拟南芥个体中固定的或仍然分离的衍生插入与缺失的大小和等位基因频率分布

(a) 固定插入和缺失的大小分布。单个密码子(3 bp)倍数的插入和缺失在编码区域超标。(b)分离非编码区插入的等位基因频率缺失频率,与同义和非同义多态性的对比。通过合理假设琴叶拟南芥等位基因大多数情况下呈现祖先状态,文章发现Ath拟南芥中非编码位点的分离缺失偏向较高的等位基因频率,而且固定和多态性缺失比插入更常见。



点击下方“阅读原文”查看文献
 



撰稿:大项目部-许晓敏

编辑:市场部



猜你喜欢

IBC意犹未尽?彩蛋来袭!|180+篇植物基因组文章解读大全

茄科三剑客之茄子茄科三剑客之辣椒

撑起家常菜半边天的它,到底是水果还是蔬菜?

撩妹神器,茄科颜值担当!不信你别点


近期热文

喜报!高强博士入选国家“万人计划”科技创业领军人才

别走!看完这篇今年才算完整(文末有个新年礼物,请查收)

微生物领域大迈步 | 华大基因与中国科学院微生物研究所达成战略合作

喂,圣诞老人吗?你家驯鹿摊上大事了!

挑战!一大波动植物来袭,你敢说自己都认识?!

Science高分:人类大脑进化的秘密,转录组告诉你

不费“一金一银”如何写出4分的肿瘤新文章?

挑战!一大波动植物来袭,你敢说自己都认识?!

那个当年被嘲笑成小灵通的测序仪,现在怎么样了?



请继续关注“华大科技BGITech”公众号,

科技君将一如既往地为您提供精彩内容!

如有相关问题,欢迎后台留言~~

关注华大科技,尽享精彩科研!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存