Nature子刊11月13日 | DNA甲基化数据的统计与整合分析
11月13日,Nature子刊《Nature Reviews Genetic》在线发表最新综述文章,题为:Statistical and integrative system-level
analysis of DNA methylation data.
文章作者为Andrew E. Teschendorff与Caroline L. Relton。分别来自中国科学院-马普学会计算生物学伙伴研究所与英国布里斯托大学。
请输入标题
表观遗传学细胞发育和功能中起着关键的作用。表观基因的改变被认为是介导复杂疾病遗传和环境的危险因素。而DNA甲基化是唯一可以在大量样品中进行可靠的全基因组检测的标记物。
这篇综述讨论了DNA甲基化数据处理中关键的统计和算法问题。
细胞类型的异质性,细胞特征选择,反向因果关系与系统分析等,都需要与其他的数据类型,例如基因表达、基因型、转录因子结合和其他表观遗传信息等进行结合。(点击阅读原文查看本实验室链接)
细胞类型反卷积算法
Cell-type deconvolutiontools algorithms
1.有参细胞类型反卷积算法(Reference-based cell-typedeconvolution tools)
使用已有DNA甲基化(DNAm)数据库来帮助纠正细胞类型的异质性。
优势:
可在每个独立样本中预估绝对或相对的细胞分型评估
如果需要,可以很容易地联合COMBAT 等批处理方法使用
模型本身相对自由
局限:
需要预先知道组织中存在的细胞类型,并且通过这些细胞类型找到相应的可靠DNA甲基化集作参考
算法本身无法区分未知的混杂因素
模型假设样本中的细胞相互作用不影响单个细胞类型的DNA甲基化谱
参考集可能被年龄或基因型等因素混淆
2. 无参考细胞类型反卷积算法(Reference-free cell-typedeconvolution tools)
从完整的数据矩阵“替代变量”中推断出细胞类型的异质性
优势:
无需预先了解组织内的主要细胞类型或有参考DNA甲基化谱,因此原则上适用于任何组织类型
无监督模式能帮助能发现新的细胞亚型
模型允许细胞间的相互作用改变个体甲基化谱的可能性
可调节其他已知和未知的混杂因素
局限:
如无进一步的生物信息输入,无法提供个体样本中细胞分型的评估
表现严重依赖于模型假设,然而模型假设往往难以满足条件
3. 半参考细胞类型反卷积算法(Semi-reference-free cell-typedeconvolution tools)
可通过推断替代变量来纠正细胞类型的异质性,但与纯无参方法不同的是,结合了基于CpGs在细胞类型之间的差异的先验知识。
优势:
模型允许细胞间的相互作用改变个体甲基化谱的可能性
如果需要,可以很容易地联合COMBAT 等批处理方法使用
非常适用于解析感兴趣组织中不完全了解的潜在细胞类型
可在每个独立样本中进行相对的细胞分型评估
局限:
表现仍然依赖于模型假设,模型假设仍有可能无法满足
单个独立样本的绝对细胞分型仍是巨大挑战
高度相似的细胞难于区分
DNA甲基化数据下游统计分析的算法与软件
细胞类型异质性的甲基化分析
DNA methylation analysis of cell-type heterogeneity
差异变异分析:一种新的特征选择算法
Differential variability: a novel feature-selection paradigm
1. 微分方差(Differential variance, DV)
DV是一种新的特征性统计算法,在甲基化缺失研究中被证明价值巨大。根据测试,软件通常包含不同数量的异常值,一般主要出现在一个表型。另外,软件尽在一种表型中稳定性高(即,低方差);
2. 微分方差统计检验
Bartlett’s test。在前癌病变中,DNAm异常已被证明与肿瘤生物学发展相关。这个测试用于表观遗传变量异常值的风险预测分析(Evora)和主要识别宫颈癌和乳腺癌DNAm缺失。
3. EVORA
对于一个给定的风险标记 CpG,这种方法假设DNAm离群值可能具有随机性,也就是说,它们定义了独立样本之间的非频繁事件。使用DV的特征选择与自适应索引分类算法相结合来构造风险评分。
DNA甲基化数据的系统综合分析实例
Examples of system-level integrative analysis of DNA methylationdata
DNA甲基化统计方法
Statistical approaches for establishing mediation by DNA methylation
应用一系列统计方法对因果关系进行剖析,构建包括DNAm在内的分子中间体的致病通路。这些方法目前仅适用于差异甲基化胞嘧啶(Differentially methylated cytosines , DMCs),不同甲基化区域(DMRs)的介导研究还有待进一步扩展。
1. Exposure–outcome mediation
最普遍应用的一种流行病学方法是Baron and Kenny在1998年提出的一种回归方法,应用Sobel test作检验。
优势:
便于管理
调节的比例可量化
局限:
需要强有力的假设
仅适用于完全(非局部)介导
线性方程、结构方程模型、边缘结构模型和G-computation等其他方法都需要假设没有测量误差,也不存在未测的混杂因素,不适用DNA甲基化分析
2. Causal inference test (CIT)
与Baron and Kenny提出的方法原理相近,主要用遗传变异,也即是以基因型为基础。
优势:
通过使用基因型作为因果关系锚,避免Exposure–outcomemediation中可能出现的混淆和反向因果关系
应用简单
局限:
只依赖于一个p值来确定因果效应
结果易受测量误差影响
不能区分多效性
3. Mendelian randomization
目前应用发展最快的方法,目前已有自动平台: http://www.mrbase.org/
优势:
可对效应大小进行预估
克服了测量误差
有在线工具,方便易用
局限:
依赖于cis-mQTLs标记感兴趣的甲基化位点
需要的样本量较大
基因变异体的潜在多效性问题
/End.
生信者言推荐阅读
点击下方图片即可阅读
《第一作者》是生信者言新设的一个科学采访栏目。第一时间、第一视角、第一深度,聚焦国内外生命科学领域最新研究成果。
好的研究成果需要被知道,欢迎大家推荐和自荐。
扫码关注,获取更多精彩内容
我
是
彩
蛋
喜马拉雅FM搜索并订阅:生信者言;收听内容:
《一分钟听懂NGS基础概念》,让生信分析不再遥不可及
《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事
《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史
回复文字:果然科学,看一篇好玩的科普文。