查看原文
其他

R | 数据处理(三)

软件操作 自我整合 2023-02-24

R

数据处理(三)


1、判断数据框的列是否为数字?

使用sapply 函数

sapply 有循环之意,即返回了dataframe 的每一列的信息,同样还可以显示内存中所有对象的占用大小:

2、一组数中随机抽取数据?

函数 sample( )


3、如何根据共有的列将两个数据框合并?

我们经常会遇到两个数据框拥有相同的时间或观测值,但这些列却不尽相同。处理的办法就是使用 merge(x, y ,by.x = ,by.y = ,all = ) 函数。

如果你对SQL 语言非常熟悉,还可以使用sqldf 包来进行数据框合并,这个包可以让用户在R 环境下使用标准SQL 语言进行数据的预处理:

当然sqldf 的作用远远不止于此,一般性SQL 数据操作均可以实现。

4、如何将数据标准化?

参考scale 函数。

5、为什么fivenum 和 summary 两个函数返回的结果不同?

因为他们对数据描述机理一致,所以有些教材将二者等同,但他们确实有细微差别。

我们看下他们的的定义:分位数是指有百分之多少的数据小于的数值,我们可以看到关于1/4 , 3/4分位数位置的定义:

那么数据

的两个四分位数的位置分别为

故对应分位数为

fivenum( ) 函数中NL(下)和NU(上)两个数,是两次利用中位数概念:先取中位数将数据分为上下两部分当然,如果 length(x) 为偶数,那么数据刚好被分为两部分,如果lenght(x)为奇数,那么中位数同属上下两部分,然后再取各部分的中位数,即为NL, NU

来源:刘思喆老师

声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。

感谢您抽出  · 来阅读此文

更多精彩请点击下列分类文章

↓↓↓

R | 基本概况

R | 基础知识

R | 输入输出

一周年 | 微信公众号改版通知

RStudio | 学习手册中文翻译(四)

治疗

如果患者有自杀倾向,没有打电话而爽约了1次预约好的治疗,大多数治疗师可能会给患者打电话,看一下患者是否在思考自杀或计划某种自伤。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存