查看原文
其他

Nature子刊11月13日 | DNA甲基化数据的统计与整合分析

wei 生信者言 2022-03-29

11月13日,Nature子刊《Nature Reviews Genetic》在线发表最新综述文章,题为:Statistical and integrative system-level analysis of DNA methylation data.


文章作者为Andrew E. Teschendorff与Caroline L. Relton。分别来自中国科学院-马普学会计算生物学伙伴研究所与英国布里斯托大学。


请输入标题


表观遗传学细胞发育和功能中起着关键的作用。表观基因的改变被认为是介导复杂疾病遗传和环境的危险因素。而DNA甲基化是唯一可以在大量样品中进行可靠的全基因组检测的标记物。


这篇综述讨论了DNA甲基化数据处理中关键的统计和算法问题。


细胞类型的异质性,细胞特征选择,反向因果关系与系统分析等,都需要与其他的数据类型,例如基因表达、基因型、转录因子结合和其他表观遗传信息等进行结合。(点击阅读原文查看本实验室链接)


细胞类型反卷积算法

Cell-type deconvolutiontools algorithms


 

1.有参细胞类型反卷积算法(Reference-based cell-typedeconvolution tools)

 

使用已有DNA甲基化(DNAm)数据库来帮助纠正细胞类型的异质性。

 

优势:

  • 可在每个独立样本中预估绝对或相对的细胞分型评估

  • 如果需要,可以很容易地联合COMBAT 等批处理方法使用

  • 模型本身相对自由

 

局限:

  • 需要预先知道组织中存在的细胞类型,并且通过这些细胞类型找到相应的可靠DNA甲基化集作参考

  • 算法本身无法区分未知的混杂因素

  • 模型假设样本中的细胞相互作用不影响单个细胞类型的DNA甲基化谱

  • 参考集可能被年龄或基因型等因素混淆

 

2. 无参考细胞类型反卷积算法(Reference-free cell-typedeconvolution tools)

 

从完整的数据矩阵“替代变量”中推断出细胞类型的异质性

 

优势:

  • 无需预先了解组织内的主要细胞类型或有参考DNA甲基化谱,因此原则上适用于任何组织类型

  • 无监督模式能帮助能发现新的细胞亚型

  • 模型允许细胞间的相互作用改变个体甲基化谱的可能性

  • 可调节其他已知和未知的混杂因素


局限:

  • 如无进一步的生物信息输入,无法提供个体样本中细胞分型的评估

  • 表现严重依赖于模型假设,然而模型假设往往难以满足条件

 


3. 半参考细胞类型反卷积算法(Semi-reference-free cell-typedeconvolution tools)

 

可通过推断替代变量来纠正细胞类型的异质性,但与纯无参方法不同的是,结合了基于CpGs在细胞类型之间的差异的先验知识。

 

优势:

  • 模型允许细胞间的相互作用改变个体甲基化谱的可能性

  • 如果需要,可以很容易地联合COMBAT 等批处理方法使用

  • 非常适用于解析感兴趣组织中不完全了解的潜在细胞类型

  • 可在每个独立样本中进行相对的细胞分型评估

 

局限:

  • 表现仍然依赖于模型假设,模型假设仍有可能无法满足

  • 单个独立样本的绝对细胞分型仍是巨大挑战

  • 高度相似的细胞难于区分


DNA甲基化数据下游统计分析的算法与软件



细胞类型异质性的甲基化分析

DNA methylation analysis of cell-type heterogeneity 


差异变异分析:一种新的特征选择算法

Differential variability: a novel feature-selection paradigm 


1. 微分方差(Differential variance, DV)


DV是一种新的特征性统计算法,在甲基化缺失研究中被证明价值巨大。根据测试,软件通常包含不同数量的异常值,一般主要出现在一个表型。另外,软件尽在一种表型中稳定性高(即,低方差);


2. 微分方差统计检验


Bartlett’s test。在前癌病变中,DNAm异常已被证明与肿瘤生物学发展相关。这个测试用于表观遗传变量异常值的风险预测分析(Evora)和主要识别宫颈癌和乳腺癌DNAm缺失。


3. EVORA 


对于一个给定的风险标记 CpG,这种方法假设DNAm离群值可能具有随机性,也就是说,它们定义了独立样本之间的非频繁事件。使用DV的特征选择与自适应索引分类算法相结合来构造风险评分。

DNA甲基化数据的系统综合分析实例

Examples of system-level integrative analysis of DNA methylationdata 

DNA甲基化统计方法

Statistical approaches for establishing mediation by DNA methylation


应用一系列统计方法对因果关系进行剖析,构建包括DNAm在内的分子中间体的致病通路。这些方法目前仅适用于差异甲基化胞嘧啶(Differentially methylated cytosines , DMCs),不同甲基化区域(DMRs)的介导研究还有待进一步扩展。


1. Exposure–outcome mediation


最普遍应用的一种流行病学方法是Baron and Kenny在1998年提出的一种回归方法,应用Sobel test作检验。

 

优势:

  • 便于管理

  • 调节的比例可量化

 

局限:

  • 需要强有力的假设

  • 仅适用于完全(非局部)介导

  • 线性方程、结构方程模型、边缘结构模型和G-computation等其他方法都需要假设没有测量误差,也不存在未测的混杂因素,不适用DNA甲基化分析


 2. Causal inference test (CIT)


与Baron and Kenny提出的方法原理相近,主要用遗传变异,也即是以基因型为基础。


优势:

  • 通过使用基因型作为因果关系锚,避免Exposure–outcomemediation中可能出现的混淆和反向因果关系

  • 应用简单

 

局限:

  • 只依赖于一个p值来确定因果效应

  • 结果易受测量误差影响

  • 不能区分多效性


3. Mendelian randomization


目前应用发展最快的方法,目前已有自动平台: http://www.mrbase.org/


优势:

  • 可对效应大小进行预估

  • 克服了测量误差

  • 有在线工具,方便易用


局限:

  • 依赖于cis-mQTLs标记感兴趣的甲基化位点

  • 需要的样本量较大

  • 基因变异体的潜在多效性问题



/End.



生信者言推荐阅读

点击下方图片即可阅读

《第一作者》是生信者言新设的一个科学采访栏目。第一时间、第一视角、第一深度,聚焦国内外生命科学领域最新研究成果。


好的研究成果需要被知道,欢迎大家推荐和自荐。

扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存