explore包——化繁为简,交互式数据探索分析
Editor's Note
这个包对初学者很友好,学习学习。
The following article is from R语言统计与绘图 Author 段湘杰
今天在浏览R包的时候又发现一个不错的包——explore包。
这个包干嘛的了?
看名字跟探索有关,查了下R包介绍,这个包可以用于简化探索性数据分析,并且可以在RStudio中以交互式的形式进行。
看起来就很棒!!!
下面来学习下这个包。
1. 安装和加载R包
安装可以直接从CRAN上安装。
install.packages("explore") # 安装包
library(dplyr) # 加载包
library(explore)
2. 加载演示数据集
使用iris数据集。
iris也称鸢尾花卉数据集,包含150个数据样本,分为3类(setosa、versicolour、virginica)
,每类50个数据,每个数据包含4个属性(花萼长度、花萼宽度、花瓣长度、花瓣宽度)。
data(iris) # 加载数据集
View(iris) # 预览数据集
3. explore包怎么用?
首先我们可以使用交互式的形式进行探索数据分析,使用很简单,一行代码就行了。
explore(iris) # 探索数据集
运行代码后会打开一个交互式界面,界面也很简单,可以自己点点看看每个功能的变化。
可以点击左上角的按钮在浏览器中打开。
界面上的variable
是我们想要探索分析的变量,在右边会显示该变量数据的分布图,下面显示的是该变量的描述统计信息。
可以点击界面上report all
按钮可以在浏览器显示数据集中所有变量的统计描述信息,同样是图形和数据相结合。
运行下面的代码也能得到同样的结果。
# 会在电脑C:\Rdata路径里生成一个report.html,打开即可
iris %>% report(output_file = "report.html",
output_dir = "C:/Rdata")
上面也会显示各个变量信息,比如数据类型、缺失值数量、最小值、最大值和均值等信息。
也可以在target中添加变量,比如说添加Species变量,我们可以看到右边会显示两个变量之间的分布关系。
同样点击report all
按钮可以显示数据集所有变量与Species变量的关系。
# 运行代码一样,打开report.html即可
iris %>%
report(output_file = "report.html",
output_dir = "C:/Rdata",
target = Species)
target可以是连续变量,也可以是分类变量。如果和探索变量都是连续变量,可以分析相关性。
iris %>% explore(Sepal.Length, Petal.Length)
iris %>% explore(Sepal.Length, Petal.Length,
target = Species)
都是分类变量或者一个分类一个连续可以自行尝试修改代码看看结果。
上面要么是单个变量,要么是所有变量,其实也可以选择性探索部分变量的信息。
iris %>%
select(Sepal.Length, Sepal.Width) %>% # 选两个变量
explore_all()
iris %>%
select(Sepal.Length, Sepal.Width, Species) %>%
explore_all(target = Species) # 添加target变量
好的,这个包就学到这里,有需要的可以查看帮助文件,学习更多知识。
参考资料
explore包帮助文件。
既往专辑