查看原文
其他

封面文章!华大科技助力三峡集团中华鲟研究所构建首个八倍体动物中华鲟基因组图谱

以下文章来源于GPBees ,作者王彬忠、杜合军

首选科技服务商点击上方蓝字关注


鲟形目鱼类目前包含鲟鱼类(sturgeons)和匙吻鲟类(paddlefishes)2个科,由于其进化速率缓慢且保留了祖先种的诸多特征,由此被称为“活化石”。鲟形目鱼类有三个倍性层级的类群,包括:A类群(Group A,~120条染色体层级),B类群(Group B,~240条染色体层级)和C类群(Group C,~360条染色体层级),这为物种多倍性形成和演化提供了重要的生物模型。


中华鲟是中国国家一级保护动物,极危物种,作为长江旗舰物种一直备受关注。中华鲟作为典型的Group B物种,细胞核约有264条染色体,且一半以上为微小染色体、倍性组成复杂且倍性不明确,基因组较大等诸多原因导致中华鲟基因组测序组装困难重重,导致中华鲟遗传保护相关研究工作进展缓慢。

中华鲟和人类染色体组成比较

A:中华鲟染色体组成;B:人类男性染色体组成



鲟形目的遗传进化研究方面,针对全基因组复制(WGD)的系列问题,传统方法是利用所有同源基因进行全局比较估算WGD和物种形成时间,忽略了LORe对分析的影响,只有剔除LORe才能得到更合理的分化和加倍时间,更科学的描绘鲟形目鱼类的进化轨迹。


中国长江三峡集团有限公司中华鲟研究所杜合军教授和陈磊教授研究团队与华大科技简建波博士研究团队共同合作,于Genomics, Proteomics & Bioinformatics(GPB)期刊在线发表了题为“Whole-genome Sequencing Reveals Autooctoploidy in Chinese Sturgeon and Its Evolutionary Trajectories”的封面论文(点击文末“阅读原文”查看文献)


GPB封面论文(文末讲述封面含义)




01

· 研究方法 ·


利用人工诱导方法制备的中华鲟雌核发育个体,基于PacBio测序数据,采用多种基因组组装方法,对各高质量的组装结果进行融合。利用短读长测序数据进行矫正,采用Hi-C完成基因组的染色体挂载。对中华鲟正常发育个体进行重测序,开展k-mer、SSR、SNP及TE分析判断中华鲟倍性和同源性。分离谱系特异性全基因组加倍基因(lineage-specific ohnologue resolution, LORe)和祖先全基因组加倍基因(ancestral ohnologue resolution, AORe),利用AORe的分化判定鲟科和匙吻鲟科/白鲟科的物种形成和WGD过程。


02

· 主要研究成果 ·


1. 高质量染色体水平的中华鲟基因组组装和注释

本研究提取了雌核发育繁殖的中华鲟血液样本DNA,测序获得421.58 Gb短读长测序数据、221.96 PacBio数据及172.87 Gb Hi-C数据,组装出初始contigs约1.99 Gb(N50= 4.07 Mb)(图1C)。对初始数据进行染色体挂载,共挂载出66条染色体(挂载率为98.3%)(图1A-C),获得2个monoploid的中华鲟基因组,最终基因组组装大小为 1.99 Gb(N50:~48.46),组装完整性(BUSCOs)评估为95.6%,共注释出34,950个蛋白编码基因。组装序列长度与物理相对长度的相关性分析结果为R2=0.98(图1E),表明组装序列长度和实际长度吻合度较高,中华鲟基因组组装合理,为高质量的基因组。

图1 中华鲟基因组组装和评估结果


2. 共线性分析和系统发育分析支持中华鲟高质量基因组组装结果

为验证中华鲟的组装质量和揭示染色体进化,本研究将中华鲟基因组与2种已完成全基因测序的鲟形目物种(匙吻鲟、小体鲟)和1种硬骨鱼类近源物种(斑点雀鳝)进行共线性分析。结果显示中华鲟与3个物种呈现出较好的共线性关系(图1F)。本研究选择了来自13个典型代表性物种的21,410个基因家族构建进化树,利用PhyML和ASRAL分别构建出包含2096个基因的进化树,二者拓扑结构一致。系统进化树结果显示中华鲟和小体鲟有共同的鲟形目祖先,而匙吻鲟作为鲟科(Acipenseridae)的姊妹分支被划入匙吻鲟科(Polyodontidae)。作为一组具有代表性的古物种,鲟形目Acipenseriformes和雀鳝目Lepisosteiformes是从同一进化分支分化而来,这个结果与先前结果一致。通过共线性和系统发育分析等表明该基因组为高质量、高完整度基因组组装。


3. 中华鲟倍性分析

核型分析结果显示中华鲟有约264条染色体,是60条染色体的普通二倍体鱼类祖先种的4倍,理论上推测中华鲟可能是八倍体物种。本研究对正常发育的中华鲟个体(非雌核发育样本)进行重测序,筛选出SSRs和SNPs。SSR分析结果显示候选等位基因在单位基因位点最大数量可以达到8,推测中华鲟可能存在8条同源染色体。我们分别筛选了小体鲟和中华鲟的SNP,杂合度分析结果表明中华鲟的杂合度(1.12%)是小体鲟杂合度(0.54%)的2倍。对2种鲟鱼SNP位点的候选等位基因频率和倍性进行分析,结果表明小体鲟大多数候选等位基因频率峰值位于1/2和1/4,而二者的深度主要指向四价体(tetravalent,4n)(图2A),即四倍体。中华鲟等位频率峰值出现二价体(bivalent,2n),四价体(tetravalent,4n)和八价体(octavalent,8n),其中,第一个峰位于中华鲟的1/8等位基因频率(图2B)。这个峰表明8个单倍型具有较高的相似度。这些结果表明中华鲟为八倍体。

图2  中华鲟和长江鲟测序深度和等位频率比较分析


4. 中华鲟同源性和倍性组成分析

为了进一步评估中华鲟倍性成分,我们利用中华鲟正常繁殖个体进行测序并进行Sumdgeplot分析。结果显示中华鲟拥有非常复杂的倍性组成,共有4类8种倍性成分,包括4种八价体(octovalent,8nk-mer(AAAAAAAB,AAAAAABB,AAAAABBB以及AAAABBBB)占比41%,1种六价体(hexavalent,6nk-mer(AAAABB)占比3%,2种四价体(tetravalent,4nk-mer(AAAB和AAAB)占比52%和1种二价体(divalent,2n)k-mer(AB)占比4%(图3A)。高比例的八价体k-mer证明中华鲟基因组有典型的八倍体特征。本研究比较了四种典型多倍体物种,包括北极茴鱼(早期发生WGD,二倍化速率较快的同源四倍体)(图3B)、小体鲟(早期发生WGD,二倍化速率缓慢的同源四倍体)(图3C)、紫花苜蓿(近期发生WGD,二倍化速率较快的同源四倍体)(图3D)和鲤鱼(异源四倍体)(图3E)。北极茴鱼和小体鲟,这两个二倍化的同源四倍体具有相同的特征,即AABB占了主要成分,AB的比例很低且接近。其中北极茴鱼的AAAB比例远低于小体鲟,表明北极茴鱼相对于小体鲟二倍化程度更高,这可能与小体鲟缓慢的进化速率有关。在紫花苜蓿中AAAB占了最主要的成分,而AABB仅占了15%,可能与紫花苜蓿相较于北极茴鱼和小体鲟WGD时间更晚有关。鲤鱼作为异源四倍体的典型硬骨鱼类,两种祖先物种(AA和BB)分化于23百万年前,两个祖先物种在约12.3百万年前杂交产生了当前的异源四倍体(AABB)鲤鱼祖先。鲤鱼的多倍体成分结果显示,AB、AABB和AAAB k-mer分别占比为59%,30%和3%。比较四个物种后发现,AB为异源四倍体中的最主要成分,这可以说是其典型特征。出现这种情况的主要原因是显著差异的亚染色体重组导致四价体k-mer配对序列的错配。结果表明AAAB在同源且低二倍化四倍体物种(紫花苜蓿)中占主要成分,而AABB在高二倍化的同源四倍体物种(北极茴鱼和小体鲟)中占主要成分。换句话说,可以确定一个同源性和二倍化程度的判断标准:四倍体中如果AAAB成分越高表明其更可能是同源四倍体且二倍化程度较低,A占比越高同源性越高,而在异源四倍体中AB占主导(图3F)。相对于四倍体的小体鲟,八倍体中华鲟经历了额外的WGD导致基因型的重叠,分析发现中华鲟基因组中同源多倍体特征的k-mer(包括AAAAAAAB、AAAAAABB、AAAAABBB和AAAB)比例高达62%,结合前面的分析表明中华鲟为同源八倍体物种。


为了提供更多的同源性证据而排除异源的可能性,本研究分析了转座元件(transposable element, TE)特征。由于异源四倍体杂交之前的独立进化,使得一些重复序列可能在亚基因组的每个祖先物种上特异性扩增。因此,不同TE的爆发可能与异源多倍体基因组中两个亚基因组的分离密切相关。然而,结果中没有观察到明显的特异性TE,排除了异源倍性的可能性,这与小体鲟的结论相似。这些结果反证了中华鲟发生了同源全基因加倍,再次确认其为同源八倍体物种。

图3  五种多倍体物种的倍性组成分析和比较


5. 基于LORe和AORe分析揭示鲟形目共同加倍和分化时间

为了更准确地揭示中华鲟的WGD和分化时间,本研究在中华鲟(S)、小体鲟(R)、匙吻鲟(P)和斑点雀鳝基因组中筛选了1,438个共线性基因家族,这些基因拷贝数在四个物种间的比例是2:2:2:1。用这些基因家族构建了1,438个拓扑结构,其中三种具有代表性的拓扑结构准确地代表了AORe(拓扑名称为PSR-PSR)和LORe(拓扑名称为PP-SR-SR和PP-SS-RR)模型,这些拓扑结构共收集了736个基因家族。在筛选的736个基因家族中,PSR-PSR型为优势拓扑结构,占三种模型总数的61.3%,其次是PP-SR-SR(31.9%)和PP-SS-RR(6.8%)(图4A)。PSR-PSR型作为最多的拓扑结构,表明这三个物种经历了共同的WGD事件。PP-SR-SR占比(31.9%)次之,表明两科物种分化发生在鲟形目特异性WGD (As3R)后,完全二倍化之前。PP-SS-RR占比较低但是占有一定比例,说明在中华鲟和匙吻鲟的祖先分化并形成新物种之前,只有少部分的基因完全二倍化。此处假设是异源四倍体,那么加倍一经形成即表现出二体遗传(遗传二倍体),并立即完成二倍化,不会出现上述现象。因此,高水平LORe再次说明中华鲟是同源多倍体。基于这些结果,表明鲟形目物种具有共同的全基因组加倍过程。


我们也对LORe和AORe的分布情况进行分析,从中华鲟、小体鲟和匙吻鲟染色体上的LORe和AORe分布来看,AORe主要分布在1-6号大染色体上,而LORe则倾向于出现在中、微染色体上,可能是由于中、微染色体的不稳定性导致这些染色体上的基因容易发生自身加倍。大染色体上的同义替换值(Ks)大于中、微染色体的结果支持了AORe和LORe在染色体上的分布特征。

图4  基于LORe和AORe的鲟形目全基因组加倍的分化分析


本研究通过计算编码基因和单一假基因中的Ks值,估计中华鲟谱系特异性全基因组加倍(Ass4R)的时间。以As3R[时间(T)= 210.7百万年前;Ks = 0.132]为参考,计算出Ass4R(Ks = 0.022)约为35.12百万年前(图4E)。为进一步验证这个结果,本研究参考以前的研究,推测一些缺失的同源基因(未检测到编码基因)在Ass4R后将会以新的单一假基因的形式出现在中华鲟基因组中。从基因家族中筛选出344个高度可靠性的假基因(这些基因在小体鲟和中华鲟中具有四价配对共线性,每个基因家族都符合AORe模型)(图4F)。通过统计非同义置换率(Ka)高于预期的数量,计算出假基因中的大多数逃脱了进化限制的时间在~28.7百万年前(图4E),这与它们略滞后于Ass4R出现的时间预期相符。


相对于LORe有延迟分化问题,AORe能真正反映鲟形目的进化轨迹。利用鲟形目和其他物种AORe的同源蛋白质序列,通过 MCMCTree构建系统进化树,描绘了中华鲟等鲟形目鱼类的进化轨迹:鲟形目在约210.7百万年前发生了第一次鲟形目特异性全基因组加倍(As3R),随后在~150百万年前匙吻鲟科和鲟科分化,在89.5-85.3百万年前中华鲟和小体鲟分化(图5),中华鲟祖先又在约35.12百万年前发生一次谱系特异性的全基因组加倍(Ass4R)。

图5  系统发生树、全基因组加倍事件和环境变化的对应关系


03

· 总结与展望 ·


本研究突破了鲟形目鱼类Group B群体中首个鲟鱼的全基因组测序,也是截至目前首个突破全基因组测序的八倍体动物该工作为中华鲟及其他鲟鱼类遗传保护和多倍体动物进化研究提供了重要的支撑数据,首次从全基因组的角度揭示了倍性、分化、全基因组加倍顺序及时间等问题。这些问题的阐明使我们从染色体进化的角度更准确地认识中华鲟从哪里来、怎么来,这些问题的解答对我们未来制定中华鲟保护策略方面应该怎么做及做哪些工作提供了依据。


尽管我们已经突破了中华鲟染色体级的全基因组序列组装,完成了2个单倍型的挂载,但是中华鲟八倍体所有染色体精准分型以及更高质量的T2T测序组装将成为面临的新挑战。


鲟飞九天为化龙 



封面说明:

“Whole-genome Sequencing Reveals Autooctoploidy in Chinese Sturgeon and Its Evolutionary Trajectories”为2024年GPB第一期封面论文,封面图片创意来自东汉高诱的《淮南子注》“鲔,大鱼,亦长丈余,仲春二月,从河西上,得过龙门,便化龙”的记载。画作《鲟飞九天为化龙》以中华鲟跃过基因组组装的龙门化身成龙的画面,象征着中华鲟基因组的解析完成使得鲟鱼及多倍体动物基因组研究进入新阶段。画作由中国科学院古脊椎动物与人类研究所吴飞翔研究员绘制。

🔗封面链接:

https://academic.oup.com/gpb/issue/22/1


作者及资助信息:

中国长江三峡集团有限公司中华鲟研究所王彬忠高级工程师刘雪清高级工程师胡亚成高级工程师华大科技吴斌高级工程师明瑶博士白茗洲博士为该文共同第一作者,中国长江三峡集团有限公司中华鲟研究所杜合军教授、华大科技简建波博士和中国长江三峡集团有限公司流域枢纽运行管理中心陈磊教授为该文通讯作者。本研究由中国长江三峡集团有限公司环保基金支持。


参考文献:

Wang B, Wu B, Liu X, Hu Y, Ming Y, Bai M, et al. Whole-genome Sequencing Reveals Autooctoploidy in Chinese Sturgeon and Its Evolutionary Trajectories. Genomics Proteomics Bioinformatics 2023. https://doi.org/10.1093/gpbjnl/qzad002


近期关注:PAG ASIA 2024



作为全球领先的多组学研究及临床转化应用中心,6月7日,华大基因将在PAG ASIA 2024大会上举办一场以“Multi-Omics Techniques in Genetic Studies and Breeding of Animal and Plant”为主题的Workshop,特邀5位动植物研究领域大咖分享重要进展与前沿思考,诚邀您的关注和参与。



近期热文

🔍点击图片即可阅读


↓↓↓点击“阅读原文”查看文献

继续滑动看下一个
华大科技BGITech
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存