查看原文
其他

植物泛基因组的染色体重排的量化研究

生信阿拉丁 生信阿拉丁 2022-05-16

点击上面“蓝字”关注我们


基因组测序,是对基因组进行从头组装,并结合多种数据进行基因结构鉴定。通过和其他物种的基因组进行比较,为研究该物种遗传特征、起源进化及特定环境适应性奠定基础。基因组测序已经广泛应用于动植物基因组,常见的包括:作物植物、畜牧动物、水产动物、昆虫等。
通常,由于物种内存在不同地理分布和生长环境下的多种品系,存在不同的性状,潜在地存在一定的遗传差异。因此,尽管有数百个测序的拟南芥基因组,但由于 一方面,缺乏高质量的染色体级别基因组;另一方面,单一个体或品系构建基因组,不足以代表整个物种的遗传特性。因此,利用泛基因组研究显得十分的必要。
拟南芥泛基因组,构建全世界范围不同品系的染色体水平级别基因组,整合品种之间的特异和共有基因组,可以更全面地代表整个物种。同时,对单个物种内的基因组知之甚少的共线性程度,进行深入地量化性研究,挖掘物种适应性的遗传机制。





01

数据

本分析所需数据为:

  • 7个基因组测序数据:高深度PacBio(45–71×);Illumina(56–78×)全基因组测序;col-0染色体级别的参考基因组序列。

  • 转录组测序数据:RNA-seq测序数据,下载自NCBI的55 RNA-seq SRA。

  • 文章发布的15683个遗传重组位点数据,1001 Genomes Project 的 1135个基因组数据,文章报道的9个遗传不兼容区域(DM1- 9)。




02

方法

研究方法如下:

  • 三代测序高深度组装,使用二代数据进行打磨纠错,构建高质量contig草图。

  • 以col-0染色体级别的基因组序列为参考,将7个基因组草图,挂载到染色体。

  • 基因组两两比对,识别基因组的共线性和结构变异。

  • 通过OrthoFinder进行基因家族聚类,进行CNV变异分析。

  • 基因组两两比对,识别基因组的同源序列和特异序列,以及同源基因和特异基因;从而,构建8个基因组的泛基因组与核心基因组。

  • 对共线性情况,进行定量分析,使用的是πsyn统计参数。类似的核苷酸多样性,取值0~1。1是不存在共线性,0是所有区域是共线的。πsyn >=0.5的区域,表示存在多个独立的非共线单倍型,是重排热点区域。


03

结果



1


构建参考基因组评估

  • contig CL50值,为1~2,说明长度接近一半总长的contig,达到染色体臂长度。

  • 染色体挂载中,挂载率高,着丝粒完整且保守。



2


共线性和结构变异

  • 共线区102.2–106.6 Mb,重排12.6–17.0 Mb。

  • 重排不是沿染色体均匀分布,富集着丝粒附近。

  • 与共线区域相比,重排区域中的序列差异通常更高。

  • 变异的长度分布范围为:10+bp、kbp,甚至到mb级别。



3


CNV变异

发现存在拷贝数差异的家族占比20%,特有家族占比8% 。



4


泛基因组构建

基因组两两比较,5.1–6.5 Mb的特异性序列。

泛基因组大小135mb,基因3w个;核心基因组大小105mb,基因2.4w个。



5


共线性定量

90 Mb(76%)基因组共线,29 Mb(24%)共线不一致。Sha基因组中,一处2.48mb反转区域,πsyn增加到0.25。



6


重排热点区域(Hot区域)

鉴定576个Hot区(10.2mb),常染色质351个Hot区(4.1mb)。发现Hot区

  • 具有更多转座因子和较少的基因,许多基因是多拷贝和可变拷贝。

  • 具有更多变异,主要是串联重复和大插入缺失。

  • 边界保守,其中植物中重要的抗性相关的R基因家族,是很好的示例。

  • 对Hot区边界及其常染色质区基因研究,发现减数分裂重组被抑制,导致Hot区和周围邻近区几乎不遗传重组结果,造成有害突变积累,伴随地理隔离,形成新的不兼容的单倍型。

  • Hot区,分布在常染色质区中的基因,富集在抗病抗逆相关的生物胁迫响应的生物学通路中。



04

结论

中草药基因组组装完成,并发布高度重复的三七参考基因组。通过进化历史研究,揭示了有别于猕猴桃的WGD事件,以及分别在71.4myr和91.2myr同胡萝卜及马铃薯产生了物种分化。通过基因组与转录组数据分析了与三七皂苷合成通路相关的关键功能基因。提出了不同于之前研究的观点,认为三七皂苷是在花和叶片中表达合成,在根中积累的。

拟南芥的泛基因组发表,集中地发布了世界范围内的7大拟南芥的染色体级别基因组,系统地比较了拟南芥品系之间的染色体结构变异,揭示了品种间的共线性及重排情况。发布了共线性的量化参数πsyn,识别了重排热点区,存在特殊的进化规律;存在重组抑制,快速积累新突变,是生物胁迫响应机制。



总结

泛基因组测序,可以构建同属不同种或是同种不同品系的参考基因组,整合品种之间的特异和共有基因组,可以更全面地代表整个物种。通过高深度三代测序+二代测序+Hi-C测序,构建染色体水平级别基因组。
相比于二代草图基因组,可以识别更准确和更全面的基因组变异。
同时,对物种间的共线性程度,进行定量研究,可以帮助深入挖掘物种适应性的遗传机制。


END


文献

Jiao, Wen-Biao, and Korbinian Schneeberger. "Chromosome-level assemblies of multiple Arabidopsis genomes reveal hotspots of rearrangements with altered evolutionary dynamics." Nature Communications 11.1 (2020): 1-10.


扫码关注我们

作者:基因小兵

审稿:童蒙

编辑:amethyst

猜你喜欢的文章

► 利用三代测序来研究宏基因组的初认知

► EmEditor--为生物学文件量身打造的windows文本编辑器

► 如何在遗传病SV中“万里挑一”

► 学10X,你不得懂点FCM?

► 认识膀胱细胞——单细胞水平比较Human和Mouse的不同


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存