干货 | 甲基化和表达数据整合分析策略 | FEM包
ActionFree 关注常见复杂疾病的遗传学研究,分享科研思路,传播生物信息分析方法,云集各路学习资料,带你了解大牛实验室,助你的科研道路妙趣横生~戳这里ActionFree公众号原文,请多关注哦~
继我们介绍了DNA甲基化的相关概念后,今天冯生来给大家介绍如何利用DNA甲基化和基因表达数据构建功能模块。
PART
01 DNA甲基化数据的优势
让我们先来谈谈DNA甲基化数据的优势。首先,DNA甲基化数据非常稳定,对所需要的样本的限制较小,冰冻的组织,福尔马林固定后的样本,石蜡包埋的样本都可以用来进行DNA甲基化的研究。其次,DNA甲基化的变化可能导致疾病的发生发展,这种影响可能通过基因表达的相关变化来产生作用。
PART 02 工具需求
越来越多的研究发表了同时具有甲基化(Illumina Infinium HumanMethylation450芯片数据)和基因表达的数据,但研究者却没有一个统计学工具,能把这些数据进行整合分析。因此我们希望能有一个工具能够来发掘表观遗传调控的基因模块或分子通路。
PART
03 FEM工具的出现
Andrew E. Teschendorff的研究团队在2014年发表了功能表观遗传模块算法(Functional Epigenetic Module algorithm, FEM)[1]。这个算法利用蛋白质相互作用网络(protein-protein interaction network)作为框架,将Illumina Infinium 450k数据和匹配的基因表达数据进行关联分析,来鉴定表观遗传调控的基因模块或信号通路。该算法已经作为R包进行了发表。
FEM包代码示例
因为FEM包是bioconductor平台的包,所以先要安装R语言和Bioconductor。同时,FEM包中引用了其他包的功能(例如limma包),因此R的版本要尽可能的高。
另外,因为FEM包引用了其他很多包,所以安装时间可能会比较长,要耐心等待哦!代码如下:
source(“http://bioconductor.org/biocLite.R”)
biocLite(“FEM”)
library(FEM)
读入甲基化数据和表达数据,并进行表型关联处理。值得注意的是,表达数据需要用Entrez ID表示基因名。
methydata<-read.csv(“methy.csv”,header=T)
expdata<-read.csv(“exp.csv”,header=T)
statM<-GenStatM(methydata,pheno.v)
#pheno.v即表型向量,是与表型相关的参数
starR<-GemStatR(expdata,phenol.v)
下图分别展示了计算完的statM和statR:
终于到了关键的计算步骤了,我们首先将上步得到的结果进行准备:
intFEM<-list(statM=statM,statR=statR,adj=adj)
#adj即蛋白相互作用网络的邻接矩阵
fembi<- DoFEMbi(intFEM,nseeds=100,gamma=0.5,nMC=1000,sizeR.v=c(1,100),minsizeOUT=10,writeOUT=TRUE,nameSTUDY="test",ew.v=NULL)
##这里计算同样需要一点时间,请耐心等待哦!
fembi$fem可以查看计算得到的模块的细节
fembi$topmod$HAND2可以查看HAND2基因的计算结果
下面两个命令可以画出指定基因的热图:
HAND2.mod<- fembi$topmod$HAND2
HAND2.graphNEL.o=FemModShow(fembi$topmod$HAND2,name="HAND2", fembi)
当然你可以选择把所有的模块图一次性画出来:
for(x in 1:length(names(fembi$topmod))){
FemModShow(fembi$topmod[[x]],
name=names(fembi$topmod)[x],fembi)}
FEM算法主要分为两个步骤:(i)构建关联网络,将数据的表型进行封装,作为网络的权重,(ii)根据PPI网络和加权网络推导子网络。
以肿瘤数据为例,经过计算可以得到以HAND2基因为中心的功能表观遗传模块(图2)。每个点表示模块内的基因,点中心的颜色表示差异甲基化的变化趋势,点边缘的颜色表示差异表达的变化趋势。图中的HAND2基因表现出高甲基化和低表达的趋势,在文献中已经证明了该基因在子宫内膜癌中有类似的生物学表现[2]。
关于FEM算法,笔者也还在学习中。在对这个算法有了更深的了解之后,会给读者们介绍更多相关知识的~
参考文献
1. Jiao Y, Widschwendter M, Teschendorff AE. A systems-level integrative framework for genome-wide dna methylation and gene expression data identifies differential gene expression modules under epigenetic control. Bioinformatics. 2014;30(16):2360–66.
2. Jones A, Teschendorff AE, Li Q, Hayward JD, Kannan A, et al. (2013) Role of dna methylation and epigenetic silencing of hand2 in endometrial cancer development. PLoS Med 10:e1001551.
学术手拉手
长按关注生信草堂
长按关注ActionFree