Reduce函数实现多个数据框批量合并
当单个GEO数据集的挖掘成为红海后,我们常常会整合多个数据集在一起分析。这个过程需要去除批次效应。
在去除批次效应之前,我们需要把多个数据框合并在一起,今天就是解决的这个问题
假如我们现在需要合并以下三个数据框,
首先,加载数据
load(file = "df1.Rdata")
load(file = "df2.Rdata")
load(file = "df3.Rdata")
每一个数据框的第一列是探针,这个是甲基化数据,所以是甲基化的探针。
如果行都相同,我们使用cbind函数就可以了,但是这里的行明显不一样,所以需要先统一行名,
我的策略是取出探针名称,用intersect函数两两取交集
然后连着做两次就可以,
index1 <- intersect(df1$probe,df2$probe)
index2 <- intersect(index1,df3$probe)
最终获得的探针集合长度为
length(index2)
247986
这时候,我们可以用这个index取提取数据,这样三个数据框的行就统一了, 我喜欢用行名调取数据,比较简单, 所以先用设置行名。
rownames(df1) <- df1$probe
rownames(df2) <- df2$probe
rownames(df3) <- df3$probe
此时,再连续使用两次cbind即可,df2和df3的第一列在合并前要去除
edata <- cbind(df1[index2,],df2[index2,-1])
edata1 <- cbind(edata,df3[index2,-1])
查看一下维度
> dim(edata1)
[1] 247986 328
打完收工!! 假如我们只会基本的R语言函数,就可以这样实现,很多高级的函数都可以拼接
实际上这个事情是merge这个函数干的,我们只要连续使用两次merge也可以方便地实现以上的效果
edata <- merge(df1,df2,by="probe")
edata2 <- merge(edata,df3,by="probe")
两种方法,效果一样。
假如,我们现在有6个数据集,也要实现同样的功能,怎么办呢?
很容易想到lapply,我们以前讲过,重复的操作超过3次,就要写循环了。
读入数据:
files = list.files(pattern="*.Rdata")
fload = lapply(files, function(x) get(load(x)))
然后尝试一下四种方式中的do.call来转换
edata3 <- do.call(merge,fload)
最终发现,merge需要传入两个参数,所以这种方法不能实现,还好,lapply的亲戚Reduce可以解决这个问题。
我知道Reduce这个函数就是上次发了lapply的帖子后,熊给我说的。我当时没有这个需求,就没在意。不过,现在我离不开他了。
以下,一句代码,实现六个数据框的merge合并。
edata4 <- Reduce(function(x,y) merge(x = x, y = y, by = "probe"),
fload)
从此以后,那些需要传入两个参数的函数都可以批量实现,比如,我们一开始的intersect求交集,
Reduce的使用格式是,给出函数,再给出list形式的数据,比如这里的函数是intersect,这里的list是三个数据框的探针名称
index3 <- Reduce(intersect,list(df1$probe,df2$probe,df3$probe))
我们看一下他的长度
length(index3)
247986
跟前面的一模一样。
最后,大家国庆快乐,有的人两天前就在朋友圈抱怨,说自己根本没有心思上班,心里想的只有给祖国庆生。