如何使用R的apply

查看原文

其他

如何使用R的apply

原创 2017-05-01 hoptop 生信媛

由于R语言的apply家族函数是用C写的，所以使用apply进行遍历的执行效率远远高于自己编写的循环语句。

函数介绍

apply的用法很简单：

apply(X, MARGIN, FUN, ...)

X: 是一个数组(array)，也就是说输入必须都是相同类型的数据，要么都是数值型，要么都是字符型。如果是一个混合数据类型的data.frame，那么就会尝试用as.matrix强制转换数据

MARGIN：表示对行(1)或者是对列(2)应用函数。

FUN: 可是R自带函数，如mean，sum等。也可以是自己编写的函数。

...: 是FUN中的额外参数

简单案例

首先创建一个2行4列的矩阵。

ma <- matrix(c(1:4, 1, 6:8), nrow = 2)
> ma
     [,1] [,2] [,3] [,4]
[1,]    1    3    1    7[2,]    2    4    6    8

对每一行求平均

> apply(ma,1,mean)
[1] 3 5

相当于

mean(ma[1,]) # 3mean(ma[2,]) # 5

对每一列求平均

> apply(ma,2,mean)
[1] 1.5 3.5 3.5 7.5

相当于：

mean(ma[,1]) # 1.5mean(ma[,2]) # 3.5...

PS:于是我发现MARGIN的1对应ma[x,y]的x，MARGIN的2对应[x,y]的y.

进阶：`...`的作用

用法说明中，...适用于为函数的提供额外参数。具体的说就是如果一个函数有多个参数，那么...就是负责传入除了一个个参数以外的其他参数。
比如说mean(x, trim = 0, na.rm = FALSE, ...)，就有一个如何处理na值的参数。

# 手动增加NA值> ma[1,1] <- NA> ma
     [,1] [,2] [,3] [,4]
[1,]   NA    3    1    7[2,]    2    4    6    8

默认情况：

> apply(ma,1,mean)
[1] NA  5

添加参数na.rm=TRUE后

> apply(ma,1,mean,na.rm=TRUE)
[1] 3.666667 5.000000

进阶：自定义函数

由于Python用惯了，每次用R遍历数组，套用多个函数的时候，基本上首先都会想到用for循环。
但是在R里面写循环非常低效，一定要尽可能使用apply。不过如果一次循环中涉及到多个运算，是不可能直接用R自带函数的。不过好在apply允许我们自己编一个函数。

下面计算一个稍微复杂点的例子，按行循环，让矩阵的第1列加1，并计算出第1和第2列的均值，还有对每一行进行求和。
吐槽：我也不知道为什么要做这些操作，但是是为了演示函数把

ma
     [,1] [,2] [,3] [,4]
[1,]    1    3    1    7[2,]    2    4    6    8myfunc <- function(x){
  plusone <- x[1]+1
  mysum <- sum(x)
  mymean <- mean(c(x[1],x[2]))  return(c(plusone,mysum,mymean))
}

apply(ma,1,myfunc)
     [,1] [,2]
[1,]    2    3[2,]   12   20[3,]    2    3

PS: 在《我是如何做统计学作业的》中，我就是定义了一个my.t.test用于对每一行进行T检验，返回结果。

PPS： apply家族还有其他很实用的函数用于处理数据框，列表等，你们可以自己去探索哦。

这周一的内容就那么点了，我继续去修改我的生物统计的作业代码了。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…