查看原文
其他

Nanopore+Pacbio=参考基因组完成图

苏亚南 诺禾致源科服 2023-02-13


构建参考基因组图谱需要制定测序策略,测序策略发生过多次改变,从 sanger 测序进入 Illumina 测序为主,再过渡至 PacBio/Nanopore 测序为主,但这些都还不能解锁全部图谱,依然有一些区域是“盲区”,参考基因组序列上依然有 gap,因此研究者开始尝试将 Nanopore 和 PacBio 结合在一起。T2T 联盟(Telomere-to-Telomere Consortium)在这个方向走在前沿,近期发表在Nature上的文章“The structure, function and evolution of a complete human chromosome 8” ,再一次告诉我们 —— Nanopore+PacBio=参考基因组完成图。




8号染色体构建过程


测序数据:ONT Ultra-long(20×)和PacBio HiFi (32.4×)。 

图1 Ultra-long ONT and PacBio HiFi 数据质量
分析思路:contigs 构建以 PacBio HiFi 为主,使用到的软件为 HiCanu 、hifiasm ;scaffold 构建以 ONT ultra-long reads 为主;采用 SUNKs(singly unique nucleotide k-mers)文库方法对 PacBio HiFi 和 ONT 数据进行前期标记,将人类8号染色体上的 gap 区域作为组装的目标区域。通过 SUNKs 对ONT ultra-long reads 进行标记,对具有相似标记的 ONT ultra-long reads 进行组装,获得跨越8号染色体 gap 区域的 scaffold 组装结果。为了提升组装的碱基准确性,接下来使用相应的 PacBio HiFi contigs 代替原始的 ONT 序列,并将它们整合到已有的人类8号染色体线性组装中,最终得到人类完整的8号染色体序列。
图2 人8号染色体 Telomere-to-telomere 组装流程图
组装结果:总长度为146,259,671个碱基,填补了 GRCh38 参考基因组中缺失的334,256 个碱基,包括2.08-Mb着丝粒α卫星阵列、对疾病风险很重要的β-防御素基因簇中644kb拷贝数多态性和染色体8q21.2上863kb可变数目串联重复序列。同时利用Bionano光学图谱和Strand-seq(single-cell DNA template strand sequencing)技术,BAC序列和 Illumina 测序数据对组装准确性进行评估,结果显示组装的8号染色体准确度高达99.9915%~99.9999%。


X染色体完成图构建思路回顾


研究者测序获得39×ONT ultra-long 数据与70×PacBio数据,利用 Canu 软件进行初步组装,获得基因组大小为2.9Gb,contig N50=70Mb的参考基因组。结合 PacBio HiFi 数据、ONT 数据、ddPCR 技术对X染色进行手工矫正和 gap 填补。通过X染色体特异性 BACs 数据、 Illumina 数据对X染色体组装结果进行评估,其准确度分别为99.991%,99.995%。


写在最后                            

目前 Nanopore、PacBio 测序厂商都在推出新升级新的产品,其中 Nanopore 公司的 ONT ultra long Kit 已有用户反馈 MinION 平台产出达10-20 Gb, N50为 50-100 kb;PromethION 平台产出达50-100 Gb;,N50 为 50-100 kb。PacBio 公司的 SMRTbell Enzyme Clean Up Kit 2.0, Sequel II Primer v5, Polymerase Binding Kit 2.2 等新版本的试剂和软件,测试反馈能够获得更多准确率达到或超过99.9%准确度 (QV30) 的HiFi reads。由此可见未来将会有更多的物种构建自己的参考基因组完成图。

作为全平台(ONT PromethION 48、PacBio Sequel II、Bionano Saphyr 和 Hi-C 等)的测序服务提供者,“基因组完成图构建计划”正在招募合作者,完成图策略推荐:ONT ultra long +PB HiFi+Bionano+Hi-C。如果您想提升自己的参考基因组版本,欢迎联系 pag-pm@novogene.com 邮箱或驻地销售,其中 ONT、Bionano 测序更有优惠等你来。

 

重磅推荐


1. 诺禾致源动植物基因组板块《动植物泛基因组与多组学》线上直播课火热开启,目前《ONT测序与组装》直播内容已上线,新的课程《DNA多组学及研究热点》可复制下方链接或长按下方二维码观看《DNA多组学及研究热点》:http://live.vhall.com/457108406

▲长按识别二维码

2. 点击“阅读原文”即可参与基因组与多组学数据库搭建有奖调研,线上直播课讲义、诺禾十周年限量《动植物基因组研究前沿与热点》《高分文章集锦》先到先得。


DENOVO研究部    苏亚南  | 文案
图片来源于网络,侵删


往期精彩推荐




 



点击“阅读原文”参与有奖调研

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存