查看原文
其他

案例分析 | Hi-C 辅助组装未来可期

苏亚南 诺禾致源科服 2023-02-13

了解 denovo 产品的老师都有听说过 Hi-C 技术,该技术全称为高通量染色体构象捕获(High-throughput chromosome conformation capture,Hi-C)技术,通俗些讲就是构建一个能捕获染色体空间结构的 illumina 特殊文库。主要应用方向:辅助组装、表观调控、染色体互作、空间结构、染色体结构变异等。从2009年“Comprehensive mapping of long-range interactions reveals folding principles of the human genome[1]” 文章见刊以来,越来越多文献涉及到 Hi-C 技术,最近10年有近1,300篇文章发表,其中 Hi-C 辅助组装的文献有150篇。那么诺禾利用 Hi-C 技术在辅助组装上应用的如何呢?请看下文。

图1  2010-2020 NCBI发表文章统计(以“Hi-C and assembly”为关键词)

图2 Hi-C 热图分辨率对染色体结构的关系[2]


原理环节
Hi-C技术通过捕获染色体DNA的交互关系,根据染色体内部互作频率显著高于染色体间互作频率,以及在同一条染色体上互作频率随着互作距离的增加而减少的原理,将Contig/Scaffold聚类到组群,并进一步对组群内的Contig/Scaffold进行排序及定向,完成基因组挂载,得到趋近于染色体水平的组装结果。目前常见的软件:LACHESIS, 3D-DNA, SALSA2, ALLHiC等。

图3 LACHESIS[3]软件原理示意图LACHESIS 基本原理:首先将测序获得的短 reads 比对到草图基因组上,reads 会比对到 contigs 或 scaffolds 上。若两个 contigs 上存在 Hi-C 技术捕获的 reads pairs,则判定这两个 contigs 之间存在相互作用。两个 contigs 上相互作用的 reads 数目越多,相互作用越强烈,则越倾向于聚为一类。统计 contigs 之间存在相互作用的 reads 数目即互作数量,根据互作数量进行 contigs 的聚类,按照物种的染色体条数分成指定的类数。

图4 3D-DNA[4]软件原理示意图3D-DNA基本原理:首先Juicer分析Hi-C数据,将Hi-C数据比对到draft.genome.fa,根据Hi-C数据分析contig中的misjoin,对其进行纠错。之后通过四步,分别是Polish, Split, Seal和Merge, 得到最终的基因组序列。

图5 ALLHiC[5]软件原理示意图

ALLHiC基本原理:包含修剪、分区、补救、优化和构建。首先会将存储三代数据的bam文件和等位基因的Contigs列表文件输入,通过prune修剪掉核酸片段间的一些平行信号和弱信号,随后采用层级聚类算法,将Contigs划分到不同的染色体群组中,并对每个组中的Contigs进行排序和定向,其中ALLHiC会根据提供的Allele.ctg.table过滤BAM文件中等位基因间的HiC信号,同时筛选出坍缩区域和未坍缩区域的HiC信号。这些信号会用于Rescue步骤,将未锚定contig分配到已分组的contigs群,最终构建获得染色体水平的基因组。


案例环节
介绍了HiC的辅助组装原理,还是要看实战,诺禾最近也是利用HiC技术完成上百的项目交付,这里挑一些案例展示一下我们的实力。哺乳动物-猪-挂载率 97.49%Development and Genome Sequencing of a Laboratory-Inbred Miniature Pig Facilitates Study of Human Diabetic Disease

图6 基因组组装流程及染色体情况

中药-山苍子-挂载率 94.56%

The Litsea genome and the evolution of the laurel family

图7 山苍子 Hi-C 热图 作物-油菜-挂载率 95.3%Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus

图8 油菜“ZS11”基因组Hi-C热图林木-荷荷巴-挂载率 99.8%The genome of jojoba (Simmondsia chinensis): A taxonomically isolated species that directs wax ester accumulation in its seeds图 8 荷荷巴基因组Hi-C热图
超大基因组-大蒜-挂载率 87.5%A chromosome-level genome assembly of garlic (Allium sativum L.) provides insights into genome evolution and allicin biosynthesis图 9 大蒜基因组Hi-C热图 

表1 诺禾已发表文章中的Hi-C辅助组装(部分)


展望环节

Hi-C 辅助组装几乎成为了高质量基因组组装的标配,超大基因组以及多倍体组装中都有重要的技术补充,同时 Hi-C 技术不断升级,例如2018年名为 DLO Hi-C[6](digestion-ligation-only Hi-C)的全基因组染色体构象捕获技术发表在NatureGenetics 上,该技术相对于传统的全基因组染色体构象捕获技术 HiC 而言更加高效简单,仅需要两轮的消化连结过程(即 digestion-ligation),无需生物素(biotin)标记,未连结的 DNA 也可以被有效地去除,极大提高染色体构想捕获效率。再例如:Nanopore 公司在2019年推出的 Pore-C[7] 技术,结合纳米孔长读长和染色质构象捕获,意味着单个纳米孔长读长可以跨越多个接触点,从而获取更高阶的多重信息。 


参考文献[1]Lieberman-Aiden E, Van Berkum N L, Williams L, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. science, 2009, 326(5950): 289-293.[2]Liu N, Low W Y, Alinejad-Rokny H, et al. Seeing the forest through the trees: Identifying functional interactions from Hi-C[J]. bioRxiv, 2020.[3]Burton J N, Adey A, Patwardhan R P, et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions[J]. Nature biotechnology, 2013, 31(12): 1119-1125.[4]Dudchenko O, Batra S S, Omer A D, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds[J]. Science, 2017, 356(6333): 92-95.[5]Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data[J]. Nature plants, 2019, 5(8): 833-845.[6]Lin D, Hong P, Zhang S, et al. Digestion-ligation-only Hi-C is an efficient and cost-effective method for chromosome conformation capture[J]. Nature Genetics, 2018, 50(5): 754-763.[7]Ulahannan N, Pendleton M, Deshpande A, et al. Nanopore sequencing of DNA concatemers reveals higher-order features of chromatin structure[J]. bioRxiv, 2019: 833590.

denovo 研究部   苏亚南 | 文案图片来源于网络,侵删



往期精彩推荐






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存