Oxford Nanopore花了5年时间改进MinION,在甲基化研究上到底表现如何?最详评述!
从饱受质疑到如今的商业化逆袭,背后凝聚了Oxford Nanopore团队五年来在技术、方法和产品层面所做的无数极富创新的改进。
近期我们将推出“ NANOPORE最新研究进展系列”八篇文章,通过梳理已发表的文献资料和个人的理解、思考,试图从不同的研究方向了解NANOPORE测序方法的实际应用情况和技术特点。
今天这篇侧重于阐述其在甲基化研究方面的最新研究进展。目前已发表的数据主要是基于MinION测序仪。
难免疏漏及未尽之处,欢迎批评指正!
Take-Home Message | 关键信息
1. 纳米孔技术与重亚硫酸盐法的一致性较高,可检测多种甲基化类型;
2. 以HMM和RNN为基础算法的variant caller是ONT走向应用的关键;
3. 未来在表观遗传及其他方面,甚至临床诊断中的表现值得期待。
关键词
甲基化 纳米孔测序 5mC
MinION PacBio
01
纳米孔单分子测序
助力甲基化研究
在表观遗传学研究中,DNA甲基化修饰具有非常重要的地位。其中胞嘧啶杂环5号位的甲基化修饰,又称作5-甲基胞嘧啶(5mC),是最为常见的甲基化修饰方式。除此之外,5-羟甲基胞嘧啶(5hmC)也是哺乳动物基因组中DNA脱甲基化相关的表观遗传标记。TET蛋白家族催化5mC氧化产生5hmC,随后氧化形成5-甲酰胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)。其它甲基化形式还包括6-甲基腺嘌呤(6mA)和4-甲基胞嘧啶(4mC)等。
一、现有甲基化检测方法及其局限性
重亚硫酸盐法(Bisulfite genomic sequencing)作为检测5mC进的常用方法,精确度很高。在其基础上还衍生出很多的改进型技术,如 PBAT、oxBS-seq、RRBS、TAB-seq等,其中oxBS-seq、TAB-seq可用于检测5hmC,对于其他类型的DNA修饰,如 6mA、4mC等,往往需要通过打质谱来实现,操作相对复杂。
实际应用中,重亚硫酸盐法其实也不甚令人满意,主要有以下几点不足:一是化学处理可能导致DNA分子的片段化,进而阻断片段下游序列的扩增;二是需要同一位点上的大量重复来验证单分子修饰的可靠度;三是依赖于基因组上甲基化的位点分布情况,若待测DNA中5甲基胞嘧啶分布极不均匀,则检测结果可能受到影响;四是对于6mA和4mC修饰,重亚硫酸盐测序技术也缺乏好的解决方案。
另外,Sanger法虽则4mC、5mC、6mA都可检测,但受限于通量,全基因组层面的应用还是比较少。
使用高通量测序技术进行甲基化检测,目前的二代测序技术不能直接、高效、准确地区分天然DNA中的甲基化和非甲基化碱基。
也正因此,人们对于不需要化学处理的单分子测序技术寄予厚望。
2016年5月PLos Genetics上的报道指出,运用PacBio SMRT测序技术可以得到基因组中几乎所有的常见甲基化修饰类型--5mC、6mA、4mC [PMID:26870957] 。另外一家被寄予厚望的就是今天要跟大家重点分享的Oxford Nanopore系列了。
二、Nanopore甲基化信号识别原理
纳米孔探测器示意图
Nanopore的原理是当核酸外切酶消化单链 DNA (ssDNA)后,被切下来的单个碱基会落入纳米孔(实际上是一个α-溶血素蛋白分子, 其最窄处直径尺寸约为 1.5 nm,恰好允许单链 DNA 分子通过,目前最新为R9.5版本),并与共价结合在纳米孔内的分子接头环糊精相互作用,并短暂影响了穿过纳米孔中的电流强度。每个碱基都有自己特有的电流振幅和特有的平均停留时间,这种电流强度的变化幅度就成为每种碱基的特征。最终实现将离子电流信号转化为序列信号(碱基识别软件MinKNOW会默认输出FASTQ格式)。
而研究发现,甲基化的胞嘧啶和腺嘌呤等都可以引发离子电流的特征性改变。因此,就和A、T、C、G一样,甲基化的碱基也可以被识别出来。
有流量的童鞋建议看视频,带着甲基化的DNA一点点走过纳米孔,一旦有甲基化的碱基(绿色)过膜,电信号即刻发生明显变化。
Nanopore detection of DNA methylationhttps://v.qq.com/txp/iframe/player.html?vid=l1324hcdaqj&width=500&height=375&auto=0
没流量的童鞋可以看下面这张图,单链DNA 通过孔时,碱基化的碱基(红色和蓝色)引起电流信号显著改变,结合隐马可夫模型等算法分辨甲基化碱基。
三、Nanopore研究甲基化的新进展
利用纳米孔进行DNA测序的里程碑
利用纳米孔来识别甲基化的原理其实很早就提出来了,早有研究者指出所有胞嘧啶上的甲基化类型会引起纳米孔中电信号的改变。但直到近年,都缺乏有效且普适性的识别甲基化修饰的方法。
2016年4月,约翰霍普金斯团队利用隐马可夫模型,计算了CpG岛中胞嘧啶被甲基化的概率。他们创建了一种新的“字母表”,除 A、T、C、G外,识别CpG岛中的5mC为一种“新的碱基”M。这个模型的局限是,虽然可用来检测CpG岛中的5mC,但无法检测CpG岛外的甲基化修饰,也无法识别那些混合了甲基化修饰CpG岛和无甲基化修饰CpG岛的k-mer中的修饰信息。验证实验显示识别的准确率达到了82%。且通过提高碱基识别的严格性还可提升至95%[PMID:28218898]。
同一时间在线发表的另一项研究发现,同样利用隐马可夫模型(HMM)检测甲基化修饰,同时结合分层狄利克雷过程混合模型对其进行增强(HMM-HDP model),成功识别了C,5mC和5hmC几种甲基化类型,且无需进行 DNA的预处理。验证实验显示,当分类三种类型胞嘧啶碱基时,模板链的平均准确率为76%,互补链的准确率为70%。如果只是识别甲基化和非甲基化胞嘧啶,模板链和互补链的平均准确率分别增至83%和78%。
[doi:http://dx.doi.org/10.1101/047134]
这两项探索性的研究,都发现甲基化识别的准确率取决于序列组成,并希望能通过各自的方法进一步识别其他类型的碱基修饰。
很快科学家们就带来了新的好消息。
2016年12月,新的研究应用一种叫做MoD-seq的方法,成功识别了4mC, 5mC和6mA三种甲基化类型。这种方法直接从原始采集到的电信号入手,用nanoraw将电信号转化为数字后,转化为可视化形式,进行统计。新的方法中不再依赖训练集,而且解决了之前模型算法不可视的问题,可以以峰形捕捉到甲基化信息。根据甲基化类型的不同,这种方法的准确度在59%到86%之间,随测序深度的增加准确度可能会进一步提升。
[doi:http://dx.doi.org/10.1101/094672]
到了2017年的上半年,基于纳米孔测序技术的甲基化研究进入了突破性的一年。4月份,Nature Method连续发表两篇Brief Communication,报道了应用Nanopore技术更高效和更准确地检测DNA上的甲基化修饰的方法[PMID:28218897,PMID: 28218898]。同刊发表的综述文章也指出,通过纳米孔测序可以直接分辨出基因组中的甲基化碱基[PMID:28362434]。
Nature Method报道的两项研究都以隐马可夫模型为基础来实现甲基化碱基识别。Rand 等人[PMID:28218897]的研究中沿用了HMM-HDP model,可以成功区分三种胞嘧啶变体(C,5mC和5hmC)和两种腺嘌呤变体(A和6mA)。尽管与5mC相比,6mA与正常腺嘌呤在通过纳米孔时的差异较小,但仍然可以区分得出明确的单分子甲基化信号。报道显示,方法的准确性58%~79%,当覆盖度提升到40X,准确度可提高至86%~95%。在Simpson等[PMID: 28218898]则是直接识别CpG岛中的5mC,检出77%CpG结构中的高达94%以上的5mC甲基化。
四月online的一篇人类基因组研究中,也组装后得到了基因组的甲基化信息(5mC),在MinION R9.4 芯片版本下测试,得到人基因组30X数据,使用nanopolish 和SignalAlign 两种比对算法进行过滤后,和已发表的的重亚硫酸盐法得到的数据有很高的一致性,R值是0.895。
[doi:https://doi.org/10.1101/128835]
另外,在肿瘤临床诊断中,甲基化也是重要的一种分子标志,例如血浆甲基化septin9的表达是结直肠癌的生物学特征之一,CFDA在2014年已经批准了德国Epigenomics公司的Septin9基因甲基化检测试剂盒,用于结直肠癌的早期检测。
我们也期待基于ONT纳米孔技术的临床诊断产品在未来能够面世。但在技术层面,基于纳米孔的蛋白单分子测序相比于DNA测序就要复杂太多了。蛋白质多变的电荷和疏水性,复杂的二三级结构,以及如何设计分子马达保证每一次拉动一个氨基酸穿过纳米孔等等都是极大的挑战。
Oxford Nanopore的创始人,牛津大学化学系教授Hagan Bayley 2014年在Nature Biotechnology发表了一篇文章,证实纳米孔能够区分硫氧还蛋白的不同磷酸化亚型,算是在蛋白单分子测序技术上迈出了一步[PMID:24441471]。
四、Nanopore VS PacBio
如果三代单分子测序是好的甲基化解决方案,那么ONT和PacBio,哪个更好?
2017年4月发表的一项研究给出了技术上的结论。
文章中指出,纳米孔测序技术识别5mC等胞嘧啶上发生的甲基化,已然有了很多实锤的研究结果。但腺嘌呤上的甲基化识别仍不容乐观。虽然Nature Method的报道给出了6mA的积极结果,但检出的准确率仍然偏低。
于是研究者们写了一个核酸碱基识别软件--mCaller,采用了包括Random forest, naïve Bayes和logistic regression在内的4种算法构建的神经网络分类器,来帮助进行6mA的识别,发现在每个位点15X以上的覆盖度下,Oxford Nanopore的准确度可高达94%。
ONT和PacBio的检出结果的相关性分析显示,两者相关性高达68%,说明mCaller在甲基化碱基的识别上较为可信。说到差别,ONT检测在某些部位识别的甲基化偏少,但值得注意的是,PacBio的单链甲基化信息识别不如Nanopore每个位点检测准确,就可能影响对甲基化信息读取的打分。
当然,这项研究严格上并不能真正算作二者的详细比较数据,随着技术的不断成熟,不同技术和不同平台的比较和应用都会有更详细的数据产生。如果技术本身的准确性都在可接受范围,目前也有较好的caller(纵观上述的其他研究,同时在这篇文章中也指出,相比于平台,其实好的分类器对甲基化检测可能更为重要),那么通量、成本、运行时间都要列入研究者们的考虑范围了,下面我们看下 PacBio和ONT的参数比较:
结合上一篇讨论的具体型号和产出信息《Oxford Nanopore真机还原》,我们可以看到错误率上两者几近持平,而成本、读长和通量上,ONT的优势越发明朗了。
[doi:http://dx.doi.org/10.1101/127100]
五、Nanopore甲基化生信分析软件
1、nanopolish
Signal-level algorithms for MinION data
下载地址:
https://github.com/jts/nanopolish
参考文献
[doi: http://dx.doi.org/10.1101/128835 ]
PMID: 28218898
2、SignalAlign
HMM-HDP models for MinION signal alignments
下载地址:
https://github.com/ArtRand/signalAlign
参考文献:
[doi: http://dx.doi.org/10.1101/128835 ]
[PMID:28218897]
3、mCaller
A neural network classifier produced the highest accuracy among four different methods, including random forest, naïve Bayes, and logistic regression
下载地址:
github.com/al-mcintyre/ mcaller
参考文献:
doi: http://dx.doi.org/10.1101/127100
4、nanoraw
Genome guided re-segmention and visualization for raw nanopore sequencing data.
下载地址:
https://github.com/marcus1487/nanoraw
参考文献:
doi: http://dx.doi.org/10.1101/094672
六、总结
正如前面所说,ONT的甲基化分析原理上没什么坑,最为重要的就是准确而有效的variant caller,目前的识别软件主要基于隐马可夫模型和递归神经网络两大类(我们知道ONT反正是转成RNN算法了,但目前的文章中,包括今年发表在Nature method上的,都是基于HMM算法的,比如nanopolish和SignalAlign)。
从引用情况上看,nanopolish和SignalAlign使用最多,今年的人基因组甲基化研究中做了一个比较,发现与传统方法比较时,nanopolish比SignalAlign一致性更好,可供参考。
[doi:http://dx.doi.org/10.1101/128835 ]
另外,据最新报道,mCaller在6-mA variant calling上有更大优势。
[doi: http://dx.doi.org/10.1101/127100]
原创作品,未经授权,谢绝转载
群主
对于Oxford Nanopore,你了解哪些?有什么想法?欢迎加入生信者言讨论群,和我们一起交流,入群请联系微信:genegogo007
推荐阅读
点击下方图片即可阅读
扫码关注,获取更多精彩内容
我
是
彩
蛋
喜马拉雅FM搜索并订阅:生信者言;收听内容:
《一分钟听懂NGS基础概念》,让生信分析不再遥不可及
《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事
《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史
回复文字:果然科学,看一篇好玩的科普文。