查看原文
其他

tidyverse —— readxl包

野菜团子 R语言中文社区 2019-04-22


作者简介

野菜团子,R语言中文社区专栏作者 

博客:https://ask.hellobi.com/blog/esperanca 


往期回顾:

tidyverse —— dplyr包

tidyverse —— readr包

readxl包,读取Excel文件专用包,有和tidyverse核心包一样的特点,快!效率特高!

话说Hadley大叔出品就没有效率低的,可能键盘是借来的,着急还。

独立性高,不外部依赖Java啥的,xls和xlsx文件读取都可以。

library(readxl)

一个提醒,因为本包不是tidyverse的核心包,所以,不像readr包一样,library(tidyverse)后就可以直接使用,还是要单独载入的。

现在进入正题了,有这么一个文件mydata.xlsx,内有两个表单,数据有缺失,各行的列数不一,要读取其中第二个表单的数据。



  • 明确文件内表单

excel_sheets('mydata.xlsx')
#[1] "Sheet1" "Sheet2"

这函数用来列示文件中的表单名,之后就可以针对表单进行读取数据。

  • 表单数据读取

f <- read_excel('mydata.xlsx', sheet = "Sheet2", col_names = F)
view(f)


col_names表示是否以第一行作为变量名,可以给出一个向量自定义列名。sheet如果不声明的话,就默认读取第一张表单。read_excel自行截取最小的能够囊括所有观测值的矩阵范围进行读取,所以不用太担心各行变量列数不同而没有读取完整数据。

  • 选取读取范围

如果想要读取选定的范围的数据,则可以在range里声明。比如只读取第一张表单中的前三行前四列的数据:

(f <- read_excel('mydata.xlsx', sheet = "Sheet2", col_names = F,
                 range = 'A1:D3'))



 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存