R | 数据处理(三)
R
数据处理(三)
1、判断数据框的列是否为数字?
使用sapply 函数
sapply 有循环之意,即返回了dataframe 的每一列的信息,同样还可以显示内存中所有对象的占用大小:
2、一组数中随机抽取数据?
函数 sample( )
3、如何根据共有的列将两个数据框合并?
我们经常会遇到两个数据框拥有相同的时间或观测值,但这些列却不尽相同。处理的办法就是使用 merge(x, y ,by.x = ,by.y = ,all = ) 函数。
如果你对SQL 语言非常熟悉,还可以使用sqldf 包来进行数据框合并,这个包可以让用户在R 环境下使用标准SQL 语言进行数据的预处理:
当然sqldf 的作用远远不止于此,一般性SQL 数据操作均可以实现。
4、如何将数据标准化?
参考scale 函数。
5、为什么fivenum 和 summary 两个函数返回的结果不同?
因为他们对数据描述机理一致,所以有些教材将二者等同,但他们确实有细微差别。
我们看下他们的的定义:分位数是指有百分之多少的数据小于的数值,我们可以看到关于1/4 , 3/4分位数位置的定义:
那么数据
的两个四分位数的位置分别为
故对应分位数为
而 fivenum( ) 函数中NL(下)和NU(上)两个数,是两次利用中位数概念:先取中位数将数据分为上下两部分当然,如果 length(x) 为偶数,那么数据刚好被分为两部分,如果lenght(x)为奇数,那么中位数同属上下两部分,然后再取各部分的中位数,即为NL, NU。
来源:刘思喆老师
声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。
感谢您抽出
更多精彩请点击下列分类文章
↓↓↓
如果患者有自杀倾向,没有打电话而爽约了1次预约好的治疗,大多数治疗师可能会给患者打电话,看一下患者是否在思考自杀或计划某种自伤。