R语言爬虫初尝试-基于RVEST包学习

原创 2017-01-04 尾巴AR R语言中文社区

本文作者：天善智能社区专家尾巴AR
本文来自天善智能社区：https://ask.hellobi.com/blog/weibaar/2963

在学完coursera的getting and Cleaning data后，继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖

查阅资料如下：

rvest的github
rvest自身的帮助文档
rvest + CSS Selector 网页数据抓取的最佳选择-戴申: 里面有提及如何快速获得html的位置。看完这篇，想想我之前看代码看半天分段真是逗比。。经测试，遨游浏览器，右键，审查元素可以得到类似结果。戴申的blog里面还有若干相关文章，国内RVEST资料基本就靠他的BLOG了，感激！

言归正传，拿了几个网页练手。包括对拉勾网爬了一下虫，还尝试了对国外某黄页爬虫，对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段（我查的那个卖家，卖8.99和39.99最多，鞋子类），做了一下文本挖掘，还有爬了一下股票数据，基金买入情况等等。

之所以放拉勾网为例子，因为这个大家都比较熟一点？其他的都有点小众=_=而且虽然我没有跳槽的心，但年初却是很多人跳槽的热点。另外，因为之前听人说过，要了解一个公司的动态，有一个办法是去看这个公司放出来的招聘岗位，可以知道他们最近哪个业务线要扩张了，哪个业务线要跑人了，以及了解技术需求。

rvest基础语法：

library(rvest)
lagou<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn=3"
web<-html(lagou,encoding="UTF-8") #读取数据，规定编码
#之前我是用关键字搜索，阅读html代码，获得html_nodes里需要什么属性，不过许多浏览器有开发者工具，可以直接获得层级信息。如遨游
position<-web %>% html_nodes("li div.hot_pos_l a") %>% html_text()
#上面就是直接读取数据，获得位置信息
#不过在后面做其他网站时发现，有时候信息储存在同类数据里(如div没有class等等)，建议是找一个大的分类，先获得表格信息，再做数据
list_lagou<-web %>% html_nodes("li.clearfix")
#这里正确找准正确的划分点很重要。有<li class="odd clearfix">，其实用li.clearfix一样可以取(对于空格二选一，如"li.odd"或者"li.clearfix")
#接下来的company/position照选即可，因为事先已经分好了list，所以每一个出多少心里有数。。

在讲完原理之后，现在开始尝试写代码

因为里面涉及太多的选取数据工作。为了避免出现太多变量，我最后是编了一个函数，输出数据库

函数部分

#下面开始写代码,首先写一个函数getdata，会输出一个数据框
getdata<-function(page,urlwithoutpage){
        url=paste0(urlwithoutpage,page) #这里输入拉勾网没有页码的url
        web<-html(url,encoding="UTF-8") #读取数据，规定编码,access用
        list_lagou<-web %>% html_nodes("li.clearfix") #获得一个清单，15个职位
        title<-list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_text()
        company<-list_lagou %>% html_nodes("div.hot_pos_r div.mb10 a")%>%html_text()
        link<-gsub("\\?source\\=search","",list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_attr("href"))
#接下来的由于数据都存在span里，没有很好的划分。这个取数要复杂一些。我在这里，研究他们的表，先取15个完整list，然后用seq等序列取数
#之后要研究是否有更好的方法
#如果有table，可以直接用data.table取数更快。。。
        temp<-list_lagou %>% html_nodes("div.hot_pos_l span")
        city<-temp[seq(1,90,by=6)] %>% html_text()
        salary<-gsub("月薪：","",temp[seq(2,90,by=6)]%>% html_text())
        year<-gsub("经验：","",temp[seq(3,90,by=6)]%>% html_text())
        degree<-gsub("最低学历：","",temp[seq(4,90,by=6)]%>%html_text())
        benefit<-gsub("职位诱惑：","",temp[seq(5,90,by=6)]%>% html_text())
        time<-temp[seq(6,90,by=6)]%>%html_text()
        data.frame(title,company,city,salary,year,degree,benefit,time,link)
}

然后是使用该函数，我这里就爬两页

#使用该函数，
library(rvest)
url<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn="
final<-data.frame()
for (i in 3:5){
        final<-rbind(final,getdata(i,url))        
} #定义个数，把上面的getdata得到的Data.frame合并
head(final)

上面完成了第一个列表。爬出效果如图

关于这个数据有什么用呢…… 简单来说，我们可以用它来看这个网上有多少在招的，各公司招人的比例，以及薪资水平，做一点基础的数据分析。

虽然我现在不跳槽，不过了解一下市场状况也是不错的~譬如见下图，从目前这网上的平均薪资与工作年限的关系来看，数据分析岗至少在职位前五年属于薪资增长期，初始涨得快，后面涨得慢，但平均应有13%左右的增长？然后这网上目前没有什么高级岗位开出来（工作5-10年的岗位很少），反而是有些公司搞错分类，放了一堆数据录入的到数据分析栏目。。。

值得一提的是，因为数据分析这个类目里包含了不同的类别，如数据录入的也被归到数据分析，还有高薪也被归到这里，所以不能完全按这个做参考。不过这个研究让我深刻体会到了爬虫的有效性！好玩！实用！可以用到工作中去:) 还可以像个猎头一样了解人才市场~~做个有情调的数据分析师~~

另外，其实我们还可以遍历JD，看近期是什么技术最吃香，是R还是Python还是SQL还是SAS还是别的啥啥啥。下面是我随机抽了个JD做的爬虫。可以直接拿到相关数据。

final[1,9]
## [1] http://www.lagou.com/jobs/378361.html
## 45 Levels: http://www.lagou.com/jobs/113293.html ...
url<-as.character(final[1,9])
w<-html(url,encoding = "UTF-8")
d<-w %>% html_nodes("dd.job_bt p") %>% html_text()
d
## [1] "1.金融、计算机、财务、经济相关专业；"
## [2] "2.有证券从业资格证者优先；"          
## [3] "3.想从事文职类工作，对办公软件熟悉；"
## [4] "4.可接收已拿到学历证的应届毕业生。"  
## [5] "<U+00A0>"

注意事项：

对于被编码保护的数据（如国外yellow.local.ch，email被编码保护了。需要用 decodeURIComponent函数反编译。）
xpath语句对html_nodes适用。但是它好像是全局语句。。就是如果用div[1]//span[4]取数的话，它直接就只出全局的那个结果。。。
如
取数，可以用li.da或者li.daew取数，两者等价
正则表达式很有用！！尤其是对网页数据，某些不会写，或者技术高超不愿意被我们爬虫的工程师，用rvest去抓数据，会抓到一堆堆乱码= =这几天练习下来感受到了无尽恶意
中文，html(data,encoding='UTF-8')还有iconv(data,'utf-8','gbk')可以有效避免大部分乱码。但是R对中文支持真的很渣。
rvest对于静态抓取很方便！但是对于脚本访问的网页，还需要继续学习RCurl包。备查资料如下：

javascript数据提取-RCurl包-戴申: 介绍对脚本解析后抓取数据经验
RCurl提取统计之都论坛数据演示-medo

　　等学会了再写总结。

以及最后的最后，近期研究重点应该是IT金融？受张丹老师的两条均线与R语言)鼓舞好大！我觉得学R嘛，用到实处才是重要的！玩爬虫玩的太开心都没跟JHU的课了。。。。

以后可以尝试按照自己和老爸的看股票习惯开发出类似的选股模型来~~

以及，我之前有看到有个牛人用python爬了各大网站程序员相关的招聘信息：程序员网站codejob 有兴趣的可以去看看。

微信回复关键字即可学习

回复 R              R语言快速入门免费视频
回复统计          统计方法及其在R中的实现
回复用户画像   民生银行客户画像搭建与应用
回复大数据      大数据系列免费视频教程
回复可视化   利用R语言做数据可视化
回复数据挖掘数据挖掘算法原理解释与应用
回复机器学习   R&Python机器学习入门

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…