【推荐】R for Data Science 新书抢先看 | 自由微信 | FreeWeChat

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

【推荐】R for Data Science 新书抢先看

原创 2016-12-14 marxsong R语言中文社区

编辑推荐

本书是由Garrett Grolemund与Hadley Wickham合著的一本R语言新书，预计在今年年底正式出版。提到Hadley，接触过R语言的童鞋应该都听过他开发的R包：图形可视化软件包ggplot2、数据加工处理包plyr、reshape2等等。为什么推荐这本书？一是大牛出品必属精品，详见大牛另一本书《Advanced R》；二是本书系统介绍最新和最流行的R知识，可以少走学习弯路。好，那我们就来看下本书的主要内容吧。

1、概述

本书目的：主要使读者能够掌握数据科学分析中重要的R语言工具。主要包括下面这些部分：数据导入、数据整理、数据转化、数据可视化、数据模型以及数据交互。如下图：

本书所涉及的R语言包：

pkgs <- c(  "broom", "dplyr", "ggplot2", "jpeg", "jsonlite", 
  "knitr", "Lahman", "microbenchmark", "png", "pryr", "purrr", 
  "rcorpora", "readr", "stringr", "tibble", "tidyr")
install.packages(pkgs)

比较有意思的是，书中强烈推荐修改Rstudio的两个默认设置。从之前使用经验看，这两个修改很有必要，这样每次新打开Rstudio都是全新环境，而不是上次会话的环境避免每次手动调整。当然，如果你需要保存的话，可以在程序最后加上save.image('*.RData')实现。

2、数据探索

探索性数据分析（EDA）：通过对原数据的图像化展示和数据转换，从而能够更加直观理解数据信息。

数据可视化：详细介绍 ggplot2 包，区别于基础画图的图层设计很有意思。

数据转换：详细介绍 dplyr 包，5个核心函数：

行排序 (arrange()),
刷选行 (filter()),
刷选列(select()),
增加新列 (mutate()),
汇总 (summarise()).

3、数据整理加工

数据导入：readr包中read_csv、read_fwf函数对基础函数速度和性能的提升（~时间减少10倍），同时提到data.table::fread()函数对超大csv数据极速读取（但性能没有readr包稳定）。

数据整理：tidyr包中spread() 和 gather()长表宽表转化；separate()和unite()列变量分割合并。

关系型数据：各种data相互联结操作。

string字符型数据：详细介绍 stringr 包和 stringi 包；stringr 包可以处理90%的字符数据问题，而剩余10%的问题可以通过stringi 包解决。

日期和时间：主要介绍 lubridate 包。

4、 R语言编程

如何使你的代码变得更加简便，更加易懂？这章主要介绍一下重要的编程技巧：

使用 pipe（管道操作）, %>%, 抛除冗余的代码；
使用functions函数，避免代码重复；
使用iteration迭代让代码做相同的事；
熟练掌握4种常见向量类型和3种重要的S3类，理解list和data frame关系区别；
使用purrr 包处理模型结果list问题等等。

5、模型

基础模型：线性模型、非线性模型、多元模型、分类变量、使用模型结果等等；

模型可视化：Gap Minder 未完成；

模型评估：P值、Bootstrap方法、Cross-Validation等等。

6、交互

R Markdown：可重复性研究；后续我转载一篇其应用文章。

动态交互：未完成，可能会包括像Slidify、shiny等很火的交互技术；

图形交互：介绍ggplot2的label、zooming和Themes等更清晰明了展示图片。

整本书还没有完成，但都是最新最流行的R工具，希望对大家有所帮助！

条件时间允许也可以和大家一起翻译哈~

参考：

大牛Hadley的github：https://github.com/hadley

所有开发源码，可以学习大牛如何写R语言哈。

本书网络版地址：http://r4ds.had.co.nz/

长按二维码或扫描二维码即可关注！ ↓↓↓↓

End

12月15日（周四）听台湾大数软件的创办人丘祐玮(DavidChiu)讲解机器学习技术在Python语言的商业应用，大家不要错过啊。

参与方式：阅读原文报名 | 扫描下方二维码

前期热门

用户画像专题热力来袭！两位专家现身说法授绝招

万字案例+视频揭开民生银行阿拉丁大数据的神秘面纱

给我百小时！陪你掌握数据分析报告全系技能

日进斗金不是梦？挥起神器R语言

案例 | R语言+机器学习合璧，剑指商业应用？

原创 | 太犀利！看我大R语言如何用主成分分析洞悉城管事件数据

原创 | 揭秘老九门真正主角，看我利器R语言

推荐文章

案例 | 利用R语言对玩家付费行为进行深度挖掘

案例 | 通过R对照片进行情绪分析

案例 | 基于R语言钻石价格预测

资讯 | RStudio 1.0版本正式发布

在Windows下R与Oracle的初次邂逅

R语言-用R眼看琅琊榜小说的正确姿势

中国R语言大会嘉宾教你shiny包应该这么用！

利用R语言爬取视频网站数据

用简单的文本处理方法优化我们的读书体验

RStudio IDE，那些你容易忽视的技巧

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存