如何使用R的apply
由于R语言的apply家族函数是用C写的,所以使用apply进行遍历的执行效率远远高于自己编写的循环语句。
函数介绍
apply的用法很简单:
apply(X, MARGIN, FUN, ...)
X: 是一个数组(array),也就是说输入必须都是相同类型的数据,要么都是数值型,要么都是字符型。如果是一个混合数据类型的data.frame
,那么就会尝试用as.matrix
强制转换数据
MARGIN:表示对行(1)或者是对列(2)应用函数。
FUN: 可是R自带函数,如mean,sum等。也可以是自己编写的函数。
...
: 是FUN中的额外参数
简单案例
首先创建一个2行4列的矩阵。
ma <- matrix(c(1:4, 1, 6:8), nrow = 2)
> ma
[,1] [,2] [,3] [,4]
[1,] 1 3 1 7[2,] 2 4 6 8
对每一行求平均
> apply(ma,1,mean)
[1] 3 5
相当于
mean(ma[1,]) # 3mean(ma[2,]) # 5
对每一列求平均
> apply(ma,2,mean)
[1] 1.5 3.5 3.5 7.5
相当于:
mean(ma[,1]) # 1.5mean(ma[,2]) # 3.5...
PS:于是我发现MARGIN的1对应ma[x,y]的x,MARGIN的2对应[x,y]的y.
进阶:...
的作用
用法说明中,...
适用于为函数的提供额外参数。具体的说就是如果一个函数有多个参数,那么...
就是负责传入除了一个个参数以外的其他参数。
比如说mean(x, trim = 0, na.rm = FALSE, ...)
,就有一个如何处理na值的参数。
# 手动增加NA值> ma[1,1] <- NA> ma
[,1] [,2] [,3] [,4]
[1,] NA 3 1 7[2,] 2 4 6 8
默认情况:
> apply(ma,1,mean)
[1] NA 5
添加参数na.rm=TRUE
后
> apply(ma,1,mean,na.rm=TRUE)
[1] 3.666667 5.000000
进阶:自定义函数
由于Python用惯了,每次用R遍历数组,套用多个函数的时候,基本上首先都会想到用for
循环。
但是在R里面写循环非常低效,一定要尽可能使用apply。不过如果一次循环中涉及到多个运算,是不可能直接用R自带函数的。不过好在apply允许我们自己编一个函数。
下面计算一个稍微复杂点的例子,按行循环,让矩阵的第1列加1,并计算出第1和第2列的均值,还有对每一行进行求和。
吐槽:我也不知道为什么要做这些操作,但是是为了演示函数把
ma
[,1] [,2] [,3] [,4]
[1,] 1 3 1 7[2,] 2 4 6 8myfunc <- function(x){
plusone <- x[1]+1
mysum <- sum(x)
mymean <- mean(c(x[1],x[2])) return(c(plusone,mysum,mymean))
}
apply(ma,1,myfunc)
[,1] [,2]
[1,] 2 3[2,] 12 20[3,] 2 3
PS: 在《我是如何做统计学作业的》中,我就是定义了一个my.t.test用于对每一行进行T检验,返回结果。
PPS: apply家族还有其他很实用的函数用于处理数据框,列表等,你们可以自己去探索哦。
这周一的内容就那么点了,我继续去修改我的生物统计的作业代码了。