前面我们系统性的总结了circRNA的相关背景知识:
同样的策略,我们也可以应用到其它领域的知识背景快速学习,比如我们的lncRNA系列,miRNA系列,现在我们一起学习一下DNA甲基化吧。
值得注意的是,因为我本人在DNA甲基化领域接触到的项目很少,而生信技能树约9成的教程是我写的,所以DNA甲基化相关教程不多,我检索了一下,目录如下,但其实只有那个文献阅读出自我手!
首先甲基化是表观修饰的一种
所以首先需要搞清楚什么是表观修饰,表观遗传学,以及为什么关注DNA甲基化这其中一种表观修饰!
表观遗传修饰是指对基因组功能的相关修饰,通过一系列生物学修饰改变基因的活性而不是DNA的核苷酸序列影响基因的表达。对基因组功能的相关修饰主要包括对DNA、RNA、以及组蛋白等的修饰,这些修饰改变了染色质的局部电化学特性和构象,从而调节基因的转录活性。
其中对组蛋白修饰主要是究方法通常是chip-seq技术,我们已经在生信技能树发布了系统性的chip-seq教程,这里就不再赘述。组蛋白是染色质的重要组成部分,主要分为H2A、H2B、H3、H4,与DNA缠绕可形成核小体。组蛋白修饰是在组蛋白N末端的氨基酸残基上发生的共价修饰,主要包括甲基化、乙酰化、泛素化、磷酸化、羰基化、糖基化等。值得一提的是chip-seq其实也可以应用于转录因子研究,这里也不展开介绍,大家可以看下面推文:
给学徒ChIP-seq数据处理流程(附赠长达5小时的视频指导) 九月学徒ChIP-seq学习成果展(6万字总结)(上篇) 九月学徒ChIP-seq学习成果展(6万字总结)(下篇) ChIP‐Atlas(逆向收费读文献2019-21) 因为从定义上看不直接改变DNA的调控方式都是表观,所以理论上我们前面提到的lncRNA系列,miRNA系列,以及circRNA系列,也是表观遗传学范畴。但是我们这个专辑的主角是甲基化,虽然说mRNA也有m6A和m5C这样的修饰,不过我们这里仍然是把专辑写作局限在DNA的甲基化。
DNA甲基化是表观遗传学领域一个重要的研究方向,真核生物中最常见的DNA修饰非5-甲基胞嘧啶(5mC)莫属了,然而在原核生物中最常见的DNA修饰方式则为N6-methyladenine (6mA),即腺嘌呤第6位氮原子甲基化修饰。
人类是真核生物,所以当然是5mC的DNA甲基化形式的检测咯。人的参考基因组约30亿碱基,上面不到1%是 CpG位点,可以被甲基化,也就是说不到3千万个 CpG 位点。这些 CpG 位点中,大约 60~80% 被甲基化。主要是而启动子等特殊区域存在 未被甲基化的CpG 岛,那些区域的CpG 位点比较富集。目前研究表明,肿瘤细胞的甲基化水平平均是低于正常细胞的。
亚硫酸盐是甲基化探测的“金标准”,不管是芯片或者甲基化测序,都要先对DNA样品进行亚硫酸盐处理,使非甲基化的C变成U,而甲基化的C保持不变,从而在后续的测序或者杂交后区分出来。
DNA甲基化检测手段
关于DNA甲基化检测手段介绍,我觉得Make Decision: DNA甲基化检测方法,哪一款适合你? 写的就足够好了。同样的,早期研究以芯片为主,从成本的角度来看,也是芯片为主,但是测序数据更丰富。
甲基化芯片
可选的甲基化芯片产品就少很多,绝大部分是illumina公司产品的,从27K到450K到850K甲基化芯片。比较好的介绍是:Illumina 琪先生 2018-07-17的 一文了解 MethylationEPIC 850K 甲基化芯片
Infinium MethylationEPIC BeadChip芯片包含了原先的Infinium Methylation450 BeadChip芯片90%以上的内容,这种选择可提供一种广泛、全面的甲基化组图谱。而且还靶定了ENCODE计划中确定为潜在增强子的区域,还有FANTOM5计划在各种组织类型中确定出的增强子。详细如下:
● CpG岛以外的CpG位点
● 人类干细胞中鉴定出的非CpG甲基化位点(CHH位点)
● 肿瘤相对于正常(多种形式的癌症)及一些组织类型的差异甲基化位点
● FANTOM5增强子
● ENCODE开放染色质和增强子
● DNase超甲基化位点
● miRNA启动子区域
● Illumina HumanMethylation450 BeadChip芯片中90%以上的位点
Infinium MethylationEPIC BeadChip芯片的数据分析是由GenomeStudio Methylation Module模块所支持,让研究人员能够对小规模研究开展差异甲基化分析。GenomeStudio软件2011.1版特有高级可视化工具,让研究人员能够在单幅图中查看大量的数据,如热图、散点图和线图
甲基化测序
甲基化检测方法多达上百种,哪怕是基于NGS的测序技术,也有BS-Seq、MeDIP-Seq、RRBS-Seq、WGBS、MBD-Seq、SMRT 等,我发现 何聪聪 诺禾科服 2016-09-10 介绍的比较齐全,摘抄送给大家,原文在:DNA甲基化研究方法速递
WGBS(Whole Genome Bisulfite Sequence)全基因组甲基化测序,利用重亚硫酸氢盐使DNA中未发生甲基化的胞嘧啶(C)脱氨基转变成尿嘧啶(U),而甲基化的胞嘧啶保持不变,然后通过PCR将U变为A,仅有甲基化的C可以成功保留,最后通过测序就可判断CpG位点是否发生甲基化。
简化甲基化测序 (Reduced representation bisulfite sequencing, RRBS)是一种准确、高效、经济的DNA甲基化研究方法,通过酶切 (Msp I) 富集启动子及CpG岛区域,并进行Bisulfite测序,同时实现DNA甲基化状态检测的高分辨率和测序数据的高利用率。作为一种高性价比的甲基化研究方法,简化甲基化测序在大规模临床样本的研究中具有广泛的应用前景。
oxBS-Seq(oxidativ ebisulfite sequencing)化学氧化结合重亚硫酸盐测序,在哺乳动物中,5mC 可以在TET酶的作用下转换成 5hmC,而传统的 WGBS 方法不能区分 5mC 和 5hmC。oxBS-Seq 技术先将 5hmC 氧化为甲酰基修饰(5fC),进而被重亚硫酸盐处理转换为U,从而排除了 5hmC 的干扰,实现 DNA 甲基化的精准检测。
RRHP(Reduced Representation 5-Hydroxymethylcytosine Profiling)DNA 羟甲基化,即 DNA 甲基化中的5-甲基胞嘧啶易发生氧化形成5-羟甲基胞嘧啶。Msp I 酶切完之后,末端修复,加上接头,然后 β-GT 反应将 5hmC 进行糖基化保护,无法被 Msp I 酶识别;然后进行再次酶切,与常规的 C 以及 5mC 相连的 P5 接头均被切下来,最后仅有含 5hmC 的片段含有两端接头,可以被扩增后建库测序。
MeDIP(Methylated DNA Immunoprecipitation Sequencing) 甲基化 DNA 免疫共沉淀测序,先通过与5mC特异性结合的抗体加入到变性的基因组DNA片段中,富集胞嘧啶甲基化的基因组片断,然后对富集的片段进行高通量测序。
我们我们介绍甲基化测序数据的一般分析流程的时候,主要是针对WGBS技术的数据。
改进版甲基化测序
BS-Seq(亚硫酸氢盐测序)有两个缺点:
首先采用的化学物质极具破坏性,其会降解所接触到的99%的DNA,稀有样品不适用。
另外,仅会间接检测5mC和5hmC,其会将未修饰的胞嘧啶转化为一种称为尿嘧啶的碱基,同时保留甲基化胞嘧啶的完整性,这就显得效率非常低且需要进行大量计算。
针对这两个缺陷,科研界一直在尝试研发改进方法。
复旦大学于文强教授团队开发出了一种新的全基因组检测的方法 GPS。该方法利用 T4DNA 聚合酶的 3′-5′外切酶活性和 5′-3′聚合酶活性,使得双端测序的一端是基因组原序列,另一端是转化后的表观序列。该方法极大提高了比对效率和准确性。
低通量的DNA甲基化检测
当然了,也是可以用低通量手段,专注特异性位点甲基化检测,有:
甲基化特异性 PCR
亚硫酸氢盐测序 PCR
焦磷酸测序
质谱检测
比如发表在BMC Med. 2009 Oct 的文章Genomic and epigenetic evidence for oxytocin receptor deficiency in autism.里面Gregory等研究者通过亚硫酸氢盐测序的方法对119例ASD患者和119名健康人进行了DNA甲基化分析,分析了与调节OXTR表达相关的CPG在外周血和颞叶皮质的甲基化水平,发现ASD患者的CPG甲基化水平在外周血和颞叶皮质均较健康人明显升高。这个研究里面的bisulfite sequencing (BSS)就是低通量,仅仅是关注感兴趣的基因而已:
We carried out bisulfite sequencing (BSS) analysis of cloned alleles of two OXTR CpG islands in the peripheral blood mononuclear cells (PBMCs) of all four family members
DNA甲基化的生物学意义
生物学意义,通常是建议大家看教科书吧,DNA甲基化是最早被发现的表观遗传修饰途径之一,参与许多重要的细胞过程,如基因组印记、X染色体灭活、转录抑制、胚胎发育等,与精神分裂症、Rett综合征、肿瘤等多种疾病的发生和发展密切相关。
尤其是我感兴趣的肿瘤中普遍存在DNA甲基化状态的改变,其特点是总体甲基化水平的降低与局部甲基化水平的升高。在肿瘤细胞中,癌基因处于低甲基化状态而被激活,抑癌基因处于高甲基化状态而被抑制。
肿瘤领域前景广大
比如:DNA甲基化与肿瘤风险预测
大家可以自行阅读2018年2月《NATURE REVIEWS CLINICAL ONCOLOGY》发表了题为“Epigenome-based cancer risk prediction: rationale, opportunities and challenges”的综述,指出基于表观遗传,特别是DNA甲基化的检测,能够满足肿瘤风险预测的各项需求。
再比如:DNA甲基化推进脑肿瘤的精准分型
文章是:DNA methylation-based classification of central nervous system tumours.Nature. 2018,研究者开发机器学习程序,训练参照数据采用德国肿瘤国家中心(NCT)的2801名癌症患者的DNA甲基化实验数据(DNA甲基化芯片结果)。这些患者涵盖了各种脑肿瘤类型和各年龄阶段。经过训练后通过DNA甲基化指纹可以鉴定82种脑肿瘤和9种对照组织。研究者还开发了免费在线工具供大家使用Molecular Neuropathology 2.0 (http://www.kitz-heidelberg.de/molecular-diagnostics)
植物学也有研究报道
随便微信公众号搜索了一下,发现大豆,柑橘,小麦,花菜都有报道,如下:
中国科学院遗传与发育生物学研究所田志喜研究组等研究组对包括9个野生种、12个农家种和24个栽培种在内的45个大豆品种进行了全基因组甲基化测序及分析,发现从野生种到农家种的驯化过程和从农家种到栽培种的改良过程中分别鉴定到4248个和1164个DNA甲基化水平发生变化的差异甲基化区间(Differentially Methylated Regions,DMRs)。发表于Genome Biology杂志(DOI:10.1186/s13059-018-1516-z)
植物生理生态研究所上海植物逆境生物学研究中心郎曌博研究组题为Global increase in DNA methylation during orange fruit development and ripening 的研究论文,该研究揭示了DNA甲基化在柑橘果实成熟过程中的调控作用。该研究通过整合分析五个成熟时期柑橘全基因组DNA甲基化和转录组数据(A),发现柑橘成熟过程中DNA甲基化明显上升,这种变化与番茄成熟过程DNA甲基化水平下降呈相反的变化趋势。
2015年发表在genome biology上的一篇关于小麦基因组甲基化的研究。文章的题目是“A genome-wide survey of DNA methylation in hexaploid wheat”,从萌发后7天的中国春幼苗中提取基因组总DNA,其中三个在12℃生长,三个在27℃生长。基因组DNA富集,亚硫酸氢盐处理,测序,使用Bismark映射到参考序列。
BMC Plant Biology在线发表了南开大学生命科学学院王春国课题组题为“Transcriptomeand DNA methylome reveal insights into yield heterosis in the curds ofbroccoli(Brassica oleracea L var. italic)”的论文。该论文发现了不同表达基因、DNA甲基化修饰在花球产量杂种性状形成中的调控过程和可能作用。这些发现为花椰菜花球产量杂种优势研究提供了全面的视角,对选育高产花椰菜品种具有重要意义。
还有番茄,玉米的研究,大家自行检索深入学习哦。
当然,更值得一读的是2018年5月,Nature Reviews Molecular Cell Biology 发表的中国科学院上海植物逆境生物学研究中心朱健康研究员、张惠明研究员与郎曌博研究员共同完成的题为“Dynamics and function of DNA methylation in plants”的综述文章。 系统的讨论了植物中DNA甲基化过程。
表观修饰相关的酶通常是药物开发重点
人体内,DNA甲基转移酶主要有四种:DNMT1、DNMT3A、DNMT3B和DNMT3L。
在DNA复制完成后,DNMT1是催化甲基转移至新合成的DNA链上,这一现象称为维持甲基化;
DNMT3A和DNMT3B负责催化核酸链上新的甲基化位点发生反应,称为形成甲基化;
DNMT3L不具有甲级转移酶活性,其主要作用是调节其他甲基转移酶的活性。
因为药物研发也不是我的领域,这里略~~~
五大甲基化公共数据库
随着高通量生物技术(芯片、测序技术)的不断更新发展,高通量的DNA甲基化数据不断涌现,一些大型国际合作的生物大数据计划产生了Pb(petabyte)数量级的甲基化谱。由多个国家和地区的研究机构组成的“国际人类表观基因组同盟”(International Human Epigenome Consortium,简称IHEC)为了研究与人类健康和包括癌症在内的复杂疾病相关的细胞状态产出了超过1000个表观基因组的数据
由美国NIH资助的“表观组学线图计划” (Roadmap Epigenomics Mapping Consortium,简称
Roadmap
)产出了367个人类主要组织和细胞类型的DNA甲基化图谱欧洲“血液表观基因组项目”(BLUEPRINT of Haematopoietic Epigenomes,简称
BLUEPRINT
)产出了与人类复杂疾病相关的82个不同血液细胞的DNA甲基化图谱。“DNA元件百科全书”计划(The Encyclopedia of DNA Elements,简称
ENCODE
)是继"人类基因组计划"后又一大型国际合作项目,来自世界各国32个研究机构对206个人类不同的细胞系和组织进行了DNA甲基化水平的测定。“国际癌症基因组联盟”(The International Cancer Genome Consortium,简称
ICGC
,旨在从基因组、表观基因组和转录组等多维数据层面研究癌症的发生和发展,ICGC产出了涉及27种常见癌症的9000多个样本的DNA甲基化数据,美国癌症基因组图集(The Cancer Genome Atlas,简称TCGA)旨在从基因组、表观基因组和转录组等多维数据层面研究癌症的发生和发展,TCGA产出了涉及34种癌症类型的10000多个样本的DNA甲基化数据,并且保留了癌症患者详细的临床数据资料,为生存分析提供了大量的数据资源。
明天后天我们介绍甲基化芯片和甲基化测序的数据分析流程,谢谢关注!