如何在RStudio中预览数据
作者:师爷,R语言中文社区作者,
知乎专栏:
https://zhuanlan.zhihu.com/rstudio
简介
RStudio有数据预览功能,能够一目了然的查看数据和数据结构,并且能够做简单的数据分析,更容易理解如何在R中整理数的过程。
开始预览
可以在控制台调用View函数来请求数据预览,例如:
>data(iris)
>view(iris)
排序
正如需求,你可以对数据的列进行排序,只需要点击数据的对应列,然后点击字段名,自由切换排序方式。
筛选
为了过滤,点击过滤的标志,只要显示all都可以筛选,点击box,然后选点你需要的数据范围,例如下图sepal大于3.6
不是所有的数据字段都可以筛选,一下数据类型支持筛选:
数字型
字符型
因子型(最多256个水平)
布尔型
删除一个筛选器点击筛选器旁边的x,如果想清除所有的筛选器,点击工具栏的筛选器。
查询
你可以通过全局查询来对所有的数据进行查询。
查询和筛选可以叠加的,结果是查询和筛选的交集。
深入了解
自动刷新
在大多数情况下,viewer会自动保存更新,例如:
> data(Orange) > View(Orange) > Orange[1, "age"] <- 120你可以看到数据由118变成120如下情况下不能自动保存更新:
数据只是copy,但是没有更新
变量必须在全局环境能够找到
标签
支持为列增加标签的功能,正如Hmisc包的功能:
> library(Hmisc) > data(women) > label(women[[1]]) <- "Woman's Height" > label(women[[2]]) <- "Woman's Weight" > View(women)有如上效果。
限制与性能
展现数据的数量是无限的,展现速度也不会因为数据量大而减缓速度,例如datatables的java脚本规则,在当下只有一小部分数据被上载。
若行无限制,那么列最多有100列,行展示的规则在列方向是无效的,如果列多了,那么会导致加载数据能力大大下降。
最终,当追求速度极致遭遇大量数据,那么会导致延缓的局限性,为了满足R的浏览功能,我们作用大量数据,尽量采取筛选器来提高整体性能。
保存筛选结果
在当下,不能抽取当下数据作为R的对象,或者保存当下的脚本操作,viewer的作用是可视化的提高预览功能,而不是作为数据操作。
如果想做数据操作,请参考dplyr脚本。
公众号后台回复关键字即可学习
回复 R R语言快速入门免费视频
回复 统计 统计方法及其在R中的实现
回复 用户画像 民生银行客户画像搭建与应用
回复 大数据 大数据系列免费视频教程
回复 可视化 利用R语言做数据可视化
回复 数据挖掘 数据挖掘算法原理解释与应用
回复 机器学习 R&Python机器学习入门