Nature子刊11月13日 | DNA甲基化数据的统计与整合分析

Original wei 生信者言 2022-03-29

11月13日，Nature子刊《Nature Reviews Genetic》在线发表最新综述文章，题为：Statistical and integrative system-level analysis of DNA methylation data.

文章作者为Andrew E. Teschendorff与Caroline L. Relton。分别来自中国科学院-马普学会计算生物学伙伴研究所与英国布里斯托大学。

请输入标题

表观遗传学细胞发育和功能中起着关键的作用。表观基因的改变被认为是介导复杂疾病遗传和环境的危险因素。而DNA甲基化是唯一可以在大量样品中进行可靠的全基因组检测的标记物。

这篇综述讨论了DNA甲基化数据处理中关键的统计和算法问题。

细胞类型的异质性，细胞特征选择，反向因果关系与系统分析等，都需要与其他的数据类型，例如基因表达、基因型、转录因子结合和其他表观遗传信息等进行结合。（点击阅读原文查看本实验室链接）

细胞类型反卷积算法

Cell-type deconvolutiontools algorithms

1.有参细胞类型反卷积算法（Reference-based cell-typedeconvolution tools）

使用已有DNA甲基化(DNAm)数据库来帮助纠正细胞类型的异质性。

优势：

可在每个独立样本中预估绝对或相对的细胞分型评估
如果需要，可以很容易地联合COMBAT 等批处理方法使用
模型本身相对自由

局限：

需要预先知道组织中存在的细胞类型，并且通过这些细胞类型找到相应的可靠DNA甲基化集作参考
算法本身无法区分未知的混杂因素
模型假设样本中的细胞相互作用不影响单个细胞类型的DNA甲基化谱
参考集可能被年龄或基因型等因素混淆

2. 无参考细胞类型反卷积算法（Reference-free cell-typedeconvolution tools）

从完整的数据矩阵“替代变量”中推断出细胞类型的异质性

优势：

无需预先了解组织内的主要细胞类型或有参考DNA甲基化谱，因此原则上适用于任何组织类型
无监督模式能帮助能发现新的细胞亚型
模型允许细胞间的相互作用改变个体甲基化谱的可能性
可调节其他已知和未知的混杂因素

局限：

如无进一步的生物信息输入，无法提供个体样本中细胞分型的评估
表现严重依赖于模型假设，然而模型假设往往难以满足条件

3. 半参考细胞类型反卷积算法（Semi-reference-free cell-typedeconvolution tools）

可通过推断替代变量来纠正细胞类型的异质性，但与纯无参方法不同的是，结合了基于CpGs在细胞类型之间的差异的先验知识。

优势：

模型允许细胞间的相互作用改变个体甲基化谱的可能性
如果需要，可以很容易地联合COMBAT 等批处理方法使用
非常适用于解析感兴趣组织中不完全了解的潜在细胞类型
可在每个独立样本中进行相对的细胞分型评估

局限：

表现仍然依赖于模型假设，模型假设仍有可能无法满足
单个独立样本的绝对细胞分型仍是巨大挑战
高度相似的细胞难于区分

DNA甲基化数据下游统计分析的算法与软件

细胞类型异质性的甲基化分析

DNA methylation analysis of cell-type heterogeneity

差异变异分析：一种新的特征选择算法

Differential variability: a novel feature-selection paradigm

1. 微分方差（Differential variance, DV）

DV是一种新的特征性统计算法，在甲基化缺失研究中被证明价值巨大。根据测试，软件通常包含不同数量的异常值，一般主要出现在一个表型。另外，软件尽在一种表型中稳定性高（即，低方差）；

2. 微分方差统计检验

Bartlett’s test。在前癌病变中，DNAm异常已被证明与肿瘤生物学发展相关。这个测试用于表观遗传变量异常值的风险预测分析（Evora）和主要识别宫颈癌和乳腺癌DNAm缺失。

3. EVORA

对于一个给定的风险标记 CpG，这种方法假设DNAm离群值可能具有随机性，也就是说，它们定义了独立样本之间的非频繁事件。使用DV的特征选择与自适应索引分类算法相结合来构造风险评分。

DNA甲基化数据的系统综合分析实例

Examples of system-level integrative analysis of DNA methylationdata

DNA甲基化统计方法

Statistical approaches for establishing mediation by DNA methylation

应用一系列统计方法对因果关系进行剖析，构建包括DNAm在内的分子中间体的致病通路。这些方法目前仅适用于差异甲基化胞嘧啶(Differentially methylated cytosines , DMCs)，不同甲基化区域(DMRs)的介导研究还有待进一步扩展。

1. Exposure–outcome mediation

最普遍应用的一种流行病学方法是Baron and Kenny在1998年提出的一种回归方法，应用Sobel test作检验。

优势：

便于管理
调节的比例可量化

局限：

需要强有力的假设
仅适用于完全(非局部)介导
线性方程、结构方程模型、边缘结构模型和G-computation等其他方法都需要假设没有测量误差，也不存在未测的混杂因素，不适用DNA甲基化分析

2. Causal inference test (CIT)

与Baron and Kenny提出的方法原理相近，主要用遗传变异，也即是以基因型为基础。

优势：

通过使用基因型作为因果关系锚，避免Exposure–outcomemediation中可能出现的混淆和反向因果关系
应用简单

局限：

只依赖于一个p值来确定因果效应
结果易受测量误差影响
不能区分多效性

3. Mendelian randomization

目前应用发展最快的方法，目前已有自动平台: http://www.mrbase.org/

优势：

可对效应大小进行预估
克服了测量误差
有在线工具，方便易用

局限：

依赖于cis-mQTLs标记感兴趣的甲基化位点
需要的样本量较大
基因变异体的潜在多效性问题

／End.

生信者言推荐阅读

点击下方图片即可阅读

《第一作者》是生信者言新设的一个科学采访栏目。第一时间、第一视角、第一深度，聚焦国内外生命科学领域最新研究成果。

好的研究成果需要被知道，欢迎大家推荐和自荐。

扫码关注，获取更多精彩内容

我

是

彩

蛋

喜马拉雅FM搜索并订阅：生信者言；收听内容：

《一分钟听懂NGS基础概念》，让生信分析不再遥不可及

《亲爱的姑娘，你值得被温柔以待》，11个真实的人物故事

《众病之王：癌症传》，一起聆听人类对抗癌症的斗争史

回复文字：果然科学，看一篇好玩的科普文。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

Nature子刊11月13日 | DNA甲基化数据的统计与整合分析

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

Nature子刊11月13日 | DNA甲基化数据的统计与整合分析

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡