你知道R中的赋值符号箭头(<-)和等号(=)的区别吗?
The following article is from 宏基因组 Author 陈亮
作为一门高级语言,R语言拥有独特的语法,比如今天说道的赋值符号。在其他语言里,赋值符合通常用一个等号(=)表示,而在R语言里,承担这个任务的可以是箭头(<-)符号,也可以是等号(=)。这就导致许多R语言初学者,分不清R语言中的赋值到底是使用箭头(<-)还是等号(=)?许多早期学习R的童鞋都比较喜欢使用等号(=)进行赋值。毕竟,简简单单的a = 5
用起来比较符合大多数现有语言的习惯。出于对某种赋值方式的偏好,甚至出现了等号党和箭头党,但是到底孰好孰坏,显然争不出任何结果,相对来说更重要的是了解这两者的区别。只有我们深刻理解了其相同与不同之后,才能更好的运用他们。
R语言最开始设计的时候,是采用箭头(<-)作为赋值符号的,这是从APL语言继承而来的(箭头表示赋值,等号表示判断)。之后的S语言也沿用了这个用法,再之后R语言为了保持和S语言的兼容性保留了这个箭头。直到2001年,R的更新版本中 才加入了等号(=)赋值。因此,对于一般的赋值语句,箭头(<-)与 等号(=)在 功能上是没有区别的,可以通用。但是等号(=)的作用有两个:它既可以赋值,也可以传递函数参数(实际上传参可以看作一种特殊形式的赋值,给参数赋值)。通常情况下,如果等号(=)出现在单独的环境中,它就是赋值;如果写在函数的参数位置,它就是传参。如果你在设置参数的时候使用了箭头(<-),那么你会发现在全局变量里,会多出一个和参数名相同的赋值的变量,容易导致歧义和错误,而且占用命名空间。
下面,我们通过几个个例子来具体讲一下这两个函数的区别。
箭头(<-)和等号(=)赋值在作用域上的不同。
箭头(<-)创建的变量的作用范围为整个全局环境(Global environment),而等号(=)通常在一个局部环境(Local environment)。例如:> rm(x) ## 如果变量 x 存在的话,先删除此变量 > mean(x = 1:10) [1] 5.5 > x Error: object 'x' not found
在以上范例里,变量 x 是在函数的作用域里进行声明的,所以它只存在于此函数中,一旦运算完成便“消失”。
> mean(x <- 1:10) [1] 5.5 > x [1] 1 2 3 4 5 6 7 8 9 10
而采用箭头(<-)赋值,
x
变量则出现在了Global Environment 里,并且我们可以调用它。 在此例中,实际上是先构建了x
变量,再将x
传递给mean函数的第一个参数,我们看到,采用这种方式,程序也正确运行了,但是采用箭头(<-)赋值的方式去传参时要非常小心。可以看下面例子中引起错误地情况。箭头(<-)和等号(=)在参数传递时的区别
> x <- rnorm(100) # 采用箭头(<-)进行变量赋值 > y <- 2*x + rnorm(100) # 采用箭头(<-)进行变量赋值 > lm(formula=y~x) #上面的代码完全等价于下面的代码 > x = rnorm(100) # 采用等号(=)进行变量赋值 > y = 2*x + rnorm(100) # 采用等号(=)进行变量赋值 > lm(formula=y~x)
两段代码中前两行都是赋值语句,分别为
x
变量和y
变量赋值,此时等号(=)与箭头(<-)的功能相同,作用域也相同,因为等号(=)赋值是在全局环境中进行的,而代码第三行中的等号(=)则是调用函数时规定命名参数,这就是通常情况下,我们直接将y~x
这个公式直接传递给lm
函数的第一个参数,也就是formula参数的用法。如果此时我们将等号(=)替换成箭头(<-),则会在全局环境中定义出一个新的formula变量,然后再将这个变量传递给了lm函数的第一个参数。如果是我们有意这么做的话,就需要保证命名参数的顺序和函数中定义参数的顺序相同,否则就会出现错误,或者将名称相同的变量传递给了错误的参数(但程序可能正常运行),导致结果错误。下面的例子可以突出了这种差别:> x <- rnorm(100) > y <- 2*x+rnorm(100) > z <- 3*x+rnorm(100) > data <- data.frame(z,x,y) > rm(x, y, z)
此时,环境中已经没有
x
,y
,z
变量,就只有变量data可以用来做z~x+y
的线性回归。标准写法:> lm(formula=z~x+y,data = data) #也可以写成如下形式: > lm(data=data,formula=z~x+y)
当我们将等号(=)替换成箭头(<-)时,正确的命名参数传递应该按函数参数顺序来逐个传参:
> lm(formula <- z~x+y, data <- data) Call: lm(formula = formula <- z ~ x + y, data = data <- data) Coefficients: (Intercept) x y 0.069869 3.062565 0.007503 > formula z ~ x + y
运行也不会出错,但是我们会发现函数实际上是调用的
lm(formula = formula <- z ~ x + y, data = data <- data)
,这时产生了一个新的变量formula到环境中,并且在全局环境中就可以使用(实际上data变量也被更新了)。
但是如果我们对lm函数的参数顺序不了解或者由于马虎搞错了参数顺序,这个时候就会容易出现错误。#错误的写法: > lm(data <- data,formula <- z~x+y) Error in as.data.frame.default(data) : cannot coerce class ""formula"" to a data.frame
执行时会报告异常,说明data被当作第一个参数formula传递,而formula被当作第二个参数data传递,而参数类型不匹配因而导致异常。因此,在函数的命名参数传递时,尽量不要用箭头(<-),因为既会产生副作用(创建新变量),也无法利用命名参数传递的功能。上面的例子是程序提示了错误,但是有时候程序并不一定会提示错误,就很容易让我们忽视结果实际上是错误的结果。例如:我们构建矩阵时,
# 构建一个3列的矩阵 > matrix(c(1:12),ncol=3) [,1] [,2] [,3] [1,] 1 5 9 [2,] 2 6 10 [3,] 3 7 11 [4,] 4 8 12 > matrix(c(1:12),ncol<-3) [,1] [,2] [,3] [,4] [1,] 1 4 7 10 [2,] 2 5 8 11 [3,] 3 6 9 12
我们可以看到,尽管两种方法,都运行成功,且得到了一个矩阵,但是第二个结果是一个错误的结果,此处出错的原因就是,
ncol<-3
是将3
赋值给变量ncol
,然后再传递给函数对应位置的参数,而在函数内第二个参数实际上是对应的nrow
参数。在实际编写代码时,遇到这种情况,如果我们不注意,就会导致后续所有结果都出错。此外,还需要注意的一点就是,在传参中采用箭头(<-)进行赋值的变量只有在需要使用时才会改变其值。例如:
> a <- 1 > f <- function(x) return(TRUE) > f(a <- a + 1); a [1] TRUE [1] 1
请注意,以上范例里,
a
的值并没有改变,也就是a
并没有加1
,还是原来的a
值,这是在函数内部并未用到参数a。这会导致程序里出现一些不可预期的结果并且降低代码可读性,所以不推荐在函数参数里使用箭头(<-)这种赋值方式。在看下面的例子:> a <- 1 > f <- function(x) { + if(runif(1)>0.5) TRUE + else print(x) + } > f(a <- a+1);a [1] TRUE [1] 1 > f(a <- a+1);a [1] TRUE [1] 1 > f(a <- a+1);a [1] TRUE [1] 1 > f(a <- a+1);a [1] 2 [1] 2 > f(a <- a+1);a [1] TRUE [1] 2 > f(a <- a+1);a [1] 3 [1] 3
上述代码中,向函数 f() 传递传递参数
a <- a + 1
后,只有在随机数runif(1)
小于0.5的时候,a
的值才会改变,即执行+1
操作,然后打印a
。否则传递TRUE值。因此,因为随机数runif(1)
的随机性,每次调用函数f()
后a
的值是不确定的。
现在大家应该清楚了解箭头(<-)和等号(=)的区别了吧!个人建议,大家写赋值语句时采用箭头(<-),传参时使用等号(=)。这也是大部分老师都会强烈推荐的用法。是因为使用箭头(<-)赋值,意义清晰,可以保持代码良好的可读性,尤其是书写复杂函数时,避免造成混乱。Google 的 R style guide(https://google.github.io/styleguide/Rguide.xml)也推荐使用箭头(<-)赋值。 况且有些情况下,只能采用箭头(<-)赋值,例如:system.time(c<-1:10)中就不能使用等号(=)。而从数学的角度来说,等号两边是相等的,即等号左边的等于等号右边的,等号右边的也等于等号左边的。等号本身并没有指向性,因此并没有办法体现”赋值“这一含义。而在R中,箭头(<-)符号生动的阐释了赋值的含义,一个非等号(=)的赋值符从根本上向学习者暗示这样一个真理: 赋值操作与数学上的等于是完全不同的。此外,箭头(<-)符号可以双向赋值,即x <- 10
与10 -> x
等价。习惯 <-
和 ->
的使用以后,也对后来习惯使用更为复杂的 <<-
以及 ->>
这两个赋值符号(<<-
或->>
一般用于函数内部,表示给上一层环境中的变量赋值)做好铺垫,而 =
无法实现类似的功能。
另外也有等号党提出异议,认为采用箭头(<-)不如使用等号(=)。例如:如果我想判断一个变量是否小于10,可以写成 x<10
;如果我想判断一个变量是否小于-10,然后顺手写成x<-10
,这时候就会产生歧义。关于处理负数时产生歧义的说法,只能说是没有正确养成良好的空格习惯造成的,句号逗号后加空格,括号外围加空格,运算符号两边加空格,这些应该是学习代码前就应该懂得的常识。会犯出 a <- 5
和 a < -5
混淆的错误只能说明自己的代码风格糟糕,建议大家Google 的 R style guide(https://google.github.io/styleguide/Rguide.xml )中其他的一些代码写作规则。
Reference
https://www.cnblogs.com/loca/p/4301344.html
https://google.github.io/styleguide/Rguide.xml
http://stat.ethz.ch/R-manual/R-patched/library/base/html/assignOps.html
https://stackoverflow.com/questions/1741820/what-are-the-differences-between-and-in-r
http://bbs.pinggu.org/thread-1247151-1-1.html
https://cran.r-project.org/doc/manuals/R-lang.html#Argument-matching