tidyverse —— readxl包
野菜团子,R语言中文社区专栏作者
博客:https://ask.hellobi.com/blog/esperanca
往期回顾:
readxl包,读取Excel文件专用包,有和tidyverse核心包一样的特点,快!效率特高!
话说Hadley大叔出品就没有效率低的,可能键盘是借来的,着急还。
独立性高,不外部依赖Java啥的,xls和xlsx文件读取都可以。
library(readxl)
一个提醒,因为本包不是tidyverse的核心包,所以,不像readr包一样,library(tidyverse)后就可以直接使用,还是要单独载入的。
现在进入正题了,有这么一个文件mydata.xlsx,内有两个表单,数据有缺失,各行的列数不一,要读取其中第二个表单的数据。
明确文件内表单
明确文件内表单
excel_sheets('mydata.xlsx')
#[1] "Sheet1" "Sheet2"
这函数用来列示文件中的表单名,之后就可以针对表单进行读取数据。
表单数据读取
表单数据读取
f <- read_excel('mydata.xlsx', sheet = "Sheet2", col_names = F)
view(f)
col_names表示是否以第一行作为变量名,可以给出一个向量自定义列名。sheet如果不声明的话,就默认读取第一张表单。read_excel自行截取最小的能够囊括所有观测值的矩阵范围进行读取,所以不用太担心各行变量列数不同而没有读取完整数据。
选取读取范围
选取读取范围
如果想要读取选定的范围的数据,则可以在range里声明。比如只读取第一张表单中的前三行前四列的数据:
(f <- read_excel('mydata.xlsx', sheet = "Sheet2", col_names = F,
range = 'A1:D3'))
公众号后台回复关键字即可学习
回复 R R语言快速入门及数据挖掘
回复 Kaggle案例 Kaggle十大案例精讲(连载中)
回复 文本挖掘 手把手教你做文本挖掘
回复 可视化 R语言可视化在商务场景中的应用
回复 大数据 大数据系列免费视频教程
回复 量化投资 张丹教你如何用R语言量化投资
回复 用户画像 京东大数据,揭秘用户画像
回复 数据挖掘 常用数据挖掘算法原理解释与应用
回复 机器学习 人工智能系列之机器学习与实践
回复 爬虫 R语言爬虫实战案例分享