查看原文
其他

基因组单体型组装进阶策略及应用案例

王 璐 诺禾致源科服 2023-02-12


在基因组学研究中,组装和使用的基因组一般都是父本和母本序列的嵌合单体型(monoploid)。在更精细的研究需要下,有时我们需要对基因组进行定相(phasing),区分多个变异是否来自同一等位基因拷贝。对有参基因组,可以通过 mapping 进行定相;而对于从头组装的基因组,情况更复杂一些。为此,科研工作者们提出了许多解决办法。



单分子标记测序无疑是最直接的方法。通过将长片段 DNA 经过质粒克隆稀释池(fosmid clone dilution pool)、基于转座酶的连续性维持转座测序(transposase-based contiguity preserving transposition sequencing,CPT-seq)或体外稀释结合多重置换扩增(Multiple displacement amplification,MDA)等方法处理,将长片段 DNA 进行单分子级别标记,便于后续数据拆分出来自同一分子的序列,并进行定相。10X Genomics linked-reads 也可以为定相提供依据。

在有关联数据的支持下,通过家系数据(如父母本、祖先种)进行定相、在群体数据的基础上通过连锁不平衡进行定相等方法,可以有效地帮助等位区段进行分离,得到定相后的基因组结果。在 allele-aware 组装方面,也发展出了较为成熟的工具方法,如 Falcon-unzip(主要依据变异)、Canu trio binning(主要依据家系数据)等。

HiFi 数据带来的单分子准确性的跃升,可以为定相提供良好的数据基础,无疑为这一难题带来了新的希望。



基因组单体型组装的进阶策略

为了解 HiFi 数据组装结果的定相完成度,我们先通过 Merqury 这一工具对芸香科植物样本的 HiFi 数据组装结果进行 phasing 评估。Merqury 是一个无需参考基因组的组装评估工具,通过比较高准确度reads 中的和组装结果中的 k-mer 深度和个数分布,可以得到可靠的基因组组装质量、完整度和定相完成度评估结果。

组装信息卡 – 芸香科样本1

基因组大小:350 Mb染色体数:2N数据量:HiFi数据 27 Gb,ILMN数据33 Gb。HiCanu组装结果:总长632Mb,contig N50 6.7Mb,BUSCO 98.5%(D:76.9%),k-mer完整性 98.8%。

Hifiasm组装结果:总长641 Mb,contig N50 17.8Mb,BUSCO 97.9%(D:75.3%),K-mer完整度98.8%。


A

B


A、B 分别为 HiCanu、Hifiasm 组装组装结果的 k-mer 拷贝数谱图(Merqury 评估生成)比较。红线,组装结果的单拷贝 k-mer;蓝线,组装结果中的双拷贝 K-mer。黑线,组装结果中没有出现、仅存于 reads 中的 k-mer。

通过 K-mer 拷贝数谱图可以看出,组装结果中的部分单拷贝 k-mer 包含在二倍峰中,表明可能有部分区段仍处在塌缩状态,未被成功拆分。BUSCO 评估的高 D 值也意味着组装结果中还存在大量重复。如果能够在 HiFi 数据组装的基础上,结合样本的 Hi-C 数据和祖先种数据进行染色体挂载和拆分,无疑能够大大提升分型的准确性和完成度。我们对芸香科的另一样本采用 HiCanu 软件进行组装,并结合 Hi-C 数据,使用经内部优化的 ALLHiC 进行染色体挂载,然后通过在 NCBI 上查找其2个祖先种的基因组序列对其进行拆分。最终,我们成功地拆分出了 2N 条染色体级别的长序列,通过比对将这 2N 条染色体级别的长序列拆分为2套(N1 和 N2)。

组装信息卡 – 芸香科样本2

基因组大小:350 Mb染色体数:2N数据量:HiFi 数据 36 Gb,Hi-C 数据38 Gb。HiCanu 组装结果:总长685Mb,contig N50 12.5Mb,BUSCO 99.0%(D:93.2%),k-mer 完整性 98.8%。挂载拆分后的结果:N1:总长308M,scaffold N50 33M,BUSCO 99.0%(D:1.4%)

N2:总长310M,scaffold N50 33M,BUSCO 98.3%(D:1.7%)

ACEBDF

A:一对拆分后的同源染色体的 hi-C 热图,可以看到两条染色体拆分平衡。

B:拆分结果的 k-mer 拷贝数谱图,与拷贝数一致的峰型表明组装完整。

C/E/D/F分别为 N1 和 N2 的 Hi-C 挂载热图(局部)和 K-mer 拷贝数谱图。

E/F:黑线,单体型结果中没有出现、仅存于 reads 中的 k-mer,正好与每一套基因组的单拷贝 k-mer 重合,峰高为完整基因组的一半,表明拆分平衡;红线:单体型结果中的单拷贝 k-mer。

BUSCO 评估表明两套单体型组装仍然完整,且重复水平合理。由 Hi-C 热图和 K-mer 拷贝数谱图可知,在拆分后的基因组中,单拷贝 k-mer、双拷贝 k-mer 各自处在一倍峰和二倍处,表明组装完全;在拆分出的2套基因组中,仅存于 reads 中的 k-mer 和单拷贝 k-mer 深度在一倍峰处的峰高基本一致,表明拆分平衡。

由此可见,在 HiFi 组装结果的基础上使用 Hi-C 数据、并结合2个祖先种的数据,可以将单体型特异的序列分别分配到2套染色体中,从而将2套基因组进行更为彻底的拆分。HiFi 数据、Hi-C 数据、祖先种数据三位一体,成为倍加可靠的二倍体基因组单体型组装进阶策略。

基因组单体型的应用案例

一套区分出等位区段的基因组序列,显著提高了基因组研究的清晰度,提供了等位基因特异的变异检测、表达分析和进化分析等问题的研究依据。

家牛是一种常见家畜,由约1万年前广泛存在于欧亚大陆和北非地区的野牛驯化而来。现代家牛归属于两个亚种:Bos Taurus indicus 和 Bos taurus taurus。Wai 等通过对这两个品种繁育的杂交个体(Brahman X Angus)进行单体型基因组组装和等位基因特异的变异检测和转录组分析,发现脂肪酸去饱和酶基因 FADS2P1 在 Brahman 单体型中拷贝数增加并经历过正选择,而 E2 泛素连接酶基因 ARIH2 在转录水平的组织特异性表达在两套基因组上也不平衡。

甘薯是一种重要的农作物,其基因组为六倍体(2n=6x=90),具有很高的多态性。Jun 等人通过组装出15条假染色体单体型,并用原始数据对其进行进一步定相。对同源区域进行的进化分析表明,现代六倍体甘薯是二倍体祖先和四倍体祖先杂在 0.5Ma  杂交后发生全基因组复制而来,而其中的四倍体祖先是二倍体祖先在 1.3Ma 特化、继而在 0.8 Ma 发生一次全基因组复制得来。

随着数据读长、准确组装算法的飞跃,对基因组进行定相组装将成为越来越常见的研究方法,这将为后续进化分析和育种研究提供极大的便利。

诺禾致源自成立至今,已发表50余篇高质量基因组研究文章,一直走在基因组学研究最前沿。仅2020年一年,就在 Science、Molecular Plant 等高水平期刊上发表文章17篇。丰硕的文章成果是对我们服务质量的高度肯定,更是您放心选择我们的坚实后盾。

感谢您的一路陪伴,诺禾致源动植物基因组板块将致力于持续为您提供更加专业的基因组服务,为您的科研生涯保驾护航。


参考文献

Snyder M W, Adey A, Kitzman J O, et al. Haplotype-resolved genome sequencing: experimental methods and applications. Nature Reviews Genetics, 2015

Yang J, Moeinzadeh M, Kuhl H, et al. Haplotype-resolved sweet potato genome traces back its hexaploidization history. Nature plants, 2017

Koren S, Rhie A, Walenz B P, et al. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology, 2018

Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data. Nature plants, 2019

Zhang X, Wu R, Wang Y, et al. Unzipping haplotypes in diploid and polyploid genomes. Computational and Structural Biotechnology Journal, 2020

Low WY, Tearle R, Liu R, et al. Haplotype-resolved genomes provide insights into structural variation and gene content in Angus and Brahman cattle. Nature Communications. 2020

Rhie, A., Walenz, B.P., Koren, S. et al. Merqury: reference-free quality, completeness, and phasing assessment for genome assemblies. Genome Biology, 2020





DENOVO研究部    王 璐  | 文案

孙翠翠丨编辑

图片来源于网络,侵删



为你读文献

为你分享资源

为你分析研究思路

为你提供最前沿的科研动态

学霸,逗逼,科学家,文艺青年同在!

诺禾致源丨提供领先的基因科技解决方案

长按识别二维码,关注诺禾科服


诺禾致源客户服务中心

咨询热线:4006581585

邮箱:service@novogene.com




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存