查看原文
其他

如何使用R的apply

2017-05-01 hoptop 生信媛

由于R语言的apply家族函数是用C写的,所以使用apply进行遍历的执行效率远远高于自己编写的循环语句。

函数介绍

apply的用法很简单:

apply(X, MARGIN, FUN, ...)

X: 是一个数组(array),也就是说输入必须都是相同类型的数据,要么都是数值型,要么都是字符型。如果是一个混合数据类型的data.frame,那么就会尝试用as.matrix强制转换数据

MARGIN:表示对行(1)或者是对列(2)应用函数。

FUN: 可是R自带函数,如mean,sum等。也可以是自己编写的函数。

...: 是FUN中的额外参数

简单案例

首先创建一个2行4列的矩阵。

ma <- matrix(c(1:4, 1, 6:8), nrow = 2) > ma     [,1] [,2] [,3] [,4] [1,]    1    3    1    7[2,]    2    4    6    8

对每一行求平均

> apply(ma,1,mean) [1] 3 5

相当于

mean(ma[1,]) # 3mean(ma[2,]) # 5

对每一列求平均

> apply(ma,2,mean) [1] 1.5 3.5 3.5 7.5

相当于:

mean(ma[,1]) # 1.5mean(ma[,2]) # 3.5...

PS:于是我发现MARGIN的1对应ma[x,y]的x,MARGIN的2对应[x,y]的y.

进阶:...的作用

用法说明中,...适用于为函数的提供额外参数。具体的说就是如果一个函数有多个参数,那么...就是负责传入除了一个个参数以外的其他参数。
比如说mean(x, trim = 0, na.rm = FALSE, ...),就有一个如何处理na值的参数。

# 手动增加NA值> ma[1,1] <- NA> ma     [,1] [,2] [,3] [,4] [1,]   NA    3    1    7[2,]    2    4    6    8

默认情况:

> apply(ma,1,mean) [1] NA  5

添加参数na.rm=TRUE

> apply(ma,1,mean,na.rm=TRUE) [1] 3.666667 5.000000

进阶:自定义函数

由于Python用惯了,每次用R遍历数组,套用多个函数的时候,基本上首先都会想到用for循环。
但是在R里面写循环非常低效,一定要尽可能使用apply。不过如果一次循环中涉及到多个运算,是不可能直接用R自带函数的。不过好在apply允许我们自己编一个函数。

下面计算一个稍微复杂点的例子,按行循环,让矩阵的第1列加1,并计算出第1和第2列的均值,还有对每一行进行求和。
吐槽:我也不知道为什么要做这些操作,但是是为了演示函数把

ma     [,1] [,2] [,3] [,4] [1,]    1    3    1    7[2,]    2    4    6    8myfunc <- function(x){  plusone <- x[1]+1  mysum <- sum(x)  mymean <- mean(c(x[1],x[2]))  return(c(plusone,mysum,mymean)) } apply(ma,1,myfunc)     [,1] [,2] [1,]    2    3[2,]   12   20[3,]    2    3

PS: 在《我是如何做统计学作业的》中,我就是定义了一个my.t.test用于对每一行进行T检验,返回结果。

PPS: apply家族还有其他很实用的函数用于处理数据框,列表等,你们可以自己去探索哦。

这周一的内容就那么点了,我继续去修改我的生物统计的作业代码了。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存