查看原文
其他

特别推荐丨单分子测序在真核生物DNA甲基化(6mA)检测中的机遇和挑战

BioArt BioArt 2022-04-16

编者按

2015年的三篇Cell同时报道DNA 6mA修饰在真核生物的基因组中广泛存在,然后关于6mA是否在哺乳动物中存在一直争议不断,特别是今年7月份发表在Mol Cell上的文章报道人类基因组中有丰富的6mA修饰之后,争议似乎达到新的高度。然而今年11月份发表在Cell上的文章报道人类神经胶质瘤中存在丰富的6mA修饰之后,相关争议似乎又缓和了一些。但是不管怎样,依赖现有的技术手段,关于真核生物中6mA修饰到的检测问题仍然是非常值得重视的问题。今日发表的这篇文章从技术层面,深入分析了第三代单分子测序技术在真核生物DNA甲基化(6mA)检测中的机遇和挑战,供广大读者参考!

责编 | 迦溆


图片引自:https://www.pacb.com/smrt-science/smrt-sequencing/


第三代单分子实时测序技术(Single Molecule Real Time (SMRT) sequencing  by PacBio),具有一个独特的功能:检测DNA上的化学修饰。Flusberg et al. 在2010年首次发现并报道SMRT sequencing可以直接检测DNA甲基化【1】。如下图所示:(a)两个相同的DNA模板,差别是上边的模板包含一个6mA。(b)带颜色的pulse代表荧光强度用来做base calling; 两个pulse之间的距离叫做Inter-pulse duration (IPD)。 


图1: SMRT sequencing 检测6mA原理示例。


在同样的DNA模板中,N6-methyladenine (6mA)会造成IPD的延长。在此之前,6mA的检验需要基于restriction enzyme (RE)digestion,往往被有限的Res识别序列特异性所限制。这项工作也提到SMRT sequencing 还可以检测5mC 和5hmC, 但是信号(signal-to-noise ratio)与6mA相比要弱很多。


基于这项工作,2010年,美国西奈山医学院房刚和他在PacBio的同事开始设计了一系列的统计模型进行更有效的IPD分析用于检测6mA【2】,在2012年第一次将SMRT sequencing用于de novo 细菌全基因组甲基化(也被称作细菌表观组)的研究, 并发现6mA在细菌中有着广泛的基因调节功能【3】而不仅仅是作为细菌防御系统的一部分(Restriction Modification systems)。 在过去的6年里,超过2000多个细菌的表观组通过SMRT sequencing被解码,而且6mA在多种致病细菌中的功能被逐渐揭示,并在最近被房刚课题组巧妙的应用到宏基因组的分析当中【4】华人学者开启DNA甲基化在微生物群落研究中功能性的探索丨Nat Biotech


2015年,三篇具有重大意义的文章在Cell发表,报道了6mA在真核生物的基因组中也存在【5-7】。基于SMRT sequencing的6mA在细菌中的成功应用,大家希望运用SMRT sequencing同样来检测真核生物中的6mA。从技术的层面,有些因素需要慎重考虑。房刚课题组最近在Genome Research上发表的一篇文章对此进行了深入的分析。 从根本上讲,6mA在细菌中和真核生物中有着很大的不同(图2)


图2: 6mA在细菌中和真核生物中一些不同属性


首先,6mA在大多数真核生物中的含量比细菌中低了多个数量级。为什么这是重个要的因素呢?难道一个6mA甲基化的检测技术不是把所有的6mA都找出来吗?其实不然,绝大部分检测技术都需要考虑一个重要指标, 即假阳性 false positive rate (FPR):从概率上,平均多少个正常的碱基会被随机的误以为是6mA? 百分之一,千分之一,万分之一 等等。在这个概念的基础上,由于绝大多数细菌中的6mA含量非常的高,少量的false  positive 6mA 误测并不会对绝大部分真正的6mA的后续分析造成本质影响。但是,如果一个真核基因组中的6mA非常的低,甚至低于了一项检测技术的FPR,那么大部分的6mA就有可能是假阳性了。本质问题是对另一项统计指标--false discovery rate (FDR)--的谨慎衡量: 在一项技术所检测出的6mA中,有多少百分率是真实的6mA?今年房刚课题组发表的Genome Research这项工作第一项强调的就是SMRT sequencing在真核应用中的可靠性(FDR)是和一个基因组中的6mA/A的相对含量以及SMRT sequencing测序的深度(depth)紧密相关的(doi:10.1101/gr.231068.117)



另一项对于SMRT sequencing用于6mA/A含量较低的基因组的挑战是SMRT sequencing其实并不是专门检测6mA的。重新回到图1:其实除了6mA,其他的很多种类的甲基化或者其他的化学修饰(比如说DNA损伤)也会造成IPD的变化。和5mC, 5hmC相比,6mA对IPD影响会大一些。而一些DNA损伤对IPD造成的影响要远大于6mA。这样一来,当一个基因组里的其他的化学修饰比6mA高很多,也很有可能会进一步的导致SMRT sequencing数据分析结果中存在假阳性6mA检测 (FDR升高)。这里需要指出的是,虽然PacBio的官方数据分析软件(SMRTportal)中给出三个修饰标识: 6mA, 5mC, 4mC, 这项技术的原本意图是应用于细菌(或古菌)的分析,而不是对真核基因组广泛使用于精确的DNA甲基化测序。


基于以上两点,在对于一个新的基因组进行计划SMRT sequencing之前最好应当考虑到以上的两个因素,进而对于SMRT sequencing的coverage以及数据分析的设计和数据的理解有更有效的规划。无论一个真核基因组中6mA/A的高低,最得当的策略是在使用SMRT sequencing进行6mA检测的基础上,使用尽可能多的其他方法(比如基于6mA antibody和restriction enzyme的测序方法)进行相互验证。作为示例,该研究团队分析了两个真核基因组的SMRT sequencing数据。


首先,房刚课题组和芝加哥大学何川课题组合作,对green algae (Chlamydomonas reinhardtii)进行深度SMRT sequencing测序。何川课题组之前的两项工作【5】【8】C. reinhardtii进行基于6mA抗体的6mA-IP-seq 和基于restriction enzyme的测序并开创性地发现了6mA在C. reinhardtii中富集于TSS上下游附近的几个nucleosome linker区域。一个进一步的期待是单碱基、完整的检测C. reinhardtii 6mA 组。C. reinhardtii中的6mA含量很高(0.2-0.4%),基本上类似于很多细菌的6mA/A水平。通过对同基因组经过扩增(whole genome amplification, 之后基本上没有6mA修饰)之后的样本进行SMRT sequencing测序分析作为negative control, 进而显示出SMRT sequencing对于C. reinhardtii中的6mA的检测可靠度很高:FDR<5%, 也就是说>95% 6mA检测基本上是很可靠的。这一可靠性在基于6mA抗体和restriction enzyme的测序分析中被进一步支持。接下来,通过对这些高可靠性的6mA检测的进一步分析,这项新的工作发现6mA在C. reinhardtii中特异性的出现在5’-VATB-3’序列上, V=A/C/G, B= C/G/T(图3), 而且这些在VATB上出现的6mA解释了整个基因组中>95%的6mA,并都有高度相似的在TSS上下游附近的几个nucleosome linker 区域的富集(图3)。值得一提的是,整个基因组中,虽然只有3%左右的VATB序列存在6mA, 但几乎全部出现在TSS上下游附近的几个nucleosome linker区域。接下来希望广大研究者对这一现象背后的功能性和机制性的研究做出更重要的发现。


图3


接下来,研究团队分析了一个human lymphoblastoid cell (hLCL)的SMRT sequencing数据。通过6mA dot blotting和其他的cell line的比较,hLCL中的6mA含量低于2ppm (平均每一百万个A’s存在低于两个6mA)。研究团队认为如果用这个SMRT sequencing数据进行6mA检测会有非常高的FDR(假阳性占检测出的6mA的主要部分),所以需要和绿藻基因组分析采取不同的策略。2016年耶鲁大学Andrew Xiao实验室发现6mA在小鼠肝细胞中的young full length LINE-1上富集,于是房刚的研究团队决定针对于人类hLCL基因组中的young full length LINE-1进行consensus分析(将所有的young full length LINE-1 align在一起而不是单独的分析),进行检验是否6mA在 hLCL的young full length LINE-1上有富集。虽然在这一分析中的确发现IPD ratio在young full length LINE-1的promoter上相对较高一些(图4)。但是之前有多次报道这一区域存在5mC, 所以房刚的研究团队认为仅靠SMRT seq无法确认是否这些变高的IPD 是6mA造成的,还是5mC或其他因素造成的。研究团队进一步采用6mA-DNA-IP-seq发现了类似的young full length LINE-1的富集,但是由于DNA-IP-seq在DNA甲基化含量较低的样品中也可能会出现抗体非特异性IP【9】, 所以文章最后认为仍然无法完全确认6mA在hLCL中的存在或是在young full length LINE-1上的富集:进一步更可靠的独立监测方法是有必要的


图4


总结第三代测序给表观遗传学带来的一项新的监测手段,但是在使用过程当中仍需尽可能的谨慎,并尽可能的与其他方法(比如基于6mA antibody和restriction enzyme的测序方法)进行相互验证该项工作专注于PacBio的SMRT sequencing,并在文章结尾的讨论中提到,对另一个第三代测序方法,牛津纳米控测序(Oxford Nanopore Sequencing),也应当持有类似的思考及谨慎。


房刚对BioArt表示,“虽然第三代测序技术机遇与挑战并存,如果能够有效的利用到第三代测序技术,会对表观遗传学提供有力的帮助”。


据悉,房刚(fanggang@gmail.com)课题组也正在招聘多名博士后进行第三代测序在病原菌、宏基因组、人类基因组、在疾病研究中的应用。


课题组网页http://research.mssm.edu/fanglab/

联系方式fanggang@gmail.com





参考文献


1. Flusberg BA, Webster DR, Lee JH, Travers KJ, Olivares EC, Clark TA, Korlach J, Turner SW. 2010. Direct detection of DNA methylation during inglemolecule, real-time sequencing. Nat Methods 7: 461–465.

2. Schadt EE, Banerjee O, Fang G, Feng Z, Wong WH, Zhang X, Kislyuk A, Clark TA, Luong K, Keren-Paz A. 2013. Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases. Genome Res 23: 129–141.

3. Fang G, Munera D, Friedman DI, Mandlik A, Chao MC, Banerjee O, Feng Z, Losic B, Mahajan MC, Jabado OJ. 2012. Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single- molecule real-time sequencing. Nat Biotechnol 30: 1232–1239.

4. Beaulaurier J, Zhu S, Deikus G, Mogno L, Zhang X-S, Davis-Richardson A, ……, and Fang G, Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation, Nature Biotechnology, 10.1038/nbt.4037, 2018

5. Fu Y, Luo G-Z, Chen K, Deng X, Yu M, Han D, Hao Z, Liu J, Lu X, Doré LC. 2015. N6 Methyldeoxyadenosine marks active transcription start sites in Chlamydomonas. Cell 161: 879–892.

6. Zhang G, Huang H, Liu D, Cheng Y, Liu X, ZhangW, Yin R, Zhang D, Zhang P, Liu J. 2015. N6-Methyladenine DNA modification in Drosophila. Cell 161: 893–906.

7. Greer EL, Blanco MA, Gu L, Sendinc E, Liu J, Aristizábal-Corrales D, Hsu C-H, Aravind L, He C, Shi Y. 2015. DNA methylation on N6-adenine in C. elegans. Cell 161: 868–878.

8. Luo G-Z, Wang F, Weng X, Chen K, Hao Z, Yu M, Deng X, Liu J, He C. 2016. Characterization of eukaryotic DNA N6-methyladenine by a highly sensitive restriction enzyme-assisted sequencing. Nat Commun 7: 11301.

9. Lentini, A., Lagerwall, C., Vikingsson, S., Mjoseng, H. K., Douvlataniotis, K., Vogt, H., ... & Nestor, C. E. (2018). A reassessment of DNA-immunoprecipitation-based genomic profiling. Nature Methods, 15(7), 499.


相关阅读:

Cell丨谢琦博士等揭示DNA新修饰6mA在神经胶质瘤中的作用

Nat Cell Bio|刘颖组揭示DNA 6mA修饰参与线粒体胁迫适应性跨代遗传的调控

Mol Cell丨晏光荣肖传乐等合作解码人类基因组新型甲基化修饰


BioArt,一心关注生命科学,只为分享更多有种、有趣、有料的信息。关注请长按上方二维码。投稿、合作、转载授权事宜请联系微信ID:fullbellies 或邮箱:sinobioart@bioart.com.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存