【R图秀-5】将薪比薪

查看原文

其他

【R图秀-5】将薪比薪

傅兴 R语言中文社区 2019-04-22

作者简介Introduction

傅兴：个人公众号：Rapp

往期回顾

【R图秀-2】社交网络数据可视化（一）

【R图秀-3】——“全球和平指数”可视化

【R图秀】情人节快乐！

谨以此文送给即将毕业的学生们

又到一年毕业季，实验室又送走了一批硕士博士。无论是出国做博后，还是留在国内发展，大家总算结束了穷苦的学生生涯，自己多年的努力终于修成正果。诗和远方虽然是美好的，但是找个满意的高薪职位显然更有现实意义。听着毕业生们谈论着工资待遇，我这个毕业多年的老人家也按耐不住内心的小激动，想看看我们这个专业（生物信息学）现在到底有多少“钱景”。

现在的招聘网站有很多，但我个人比较喜欢猎聘网(https://www.liepin.com/)，所以我们今天就来分析猎聘网上的数据。

我们先用“生物信息”做关键词来搜索职位：

我喜欢猎聘网的一个主要原因就是他的搜索结果很合我的口味：

重要的信息一目了然。对求职者来说，最重要的信息无非就是工资（重中之重）、地点、教育背景和工作经验。如果想了解更详细的内容，可以点击职位链接。这样的设计不仅便于求职者浏览，还特别适合用爬虫程序来解析。

搜索的结果是分页显示的，我们点击>|按钮到达最后一页，并记下找到的最大页数（后面的爬虫程序需要用到）。

我的爬虫程序利用的是rvest包。策略如下：
1. 先用浏览器在猎聘网上搜索，通过浏览器地址栏中的URL弄清它的API有哪些参数（比如key，curPage等）
2. 用浏览器查看搜索结果页面的html代码，找到想要提取的element的class，attribute等信息
3. 先写一个解析单页面的函数
4. 再写一个解析所有页面的函数，实际上就是循环调用上一个函数，直到完成所有页面（这就是为什么要先搞清楚搜索结果总共有多少页）
5. 我对解析到的原始数据进行了一些处理：我想要具体的工资数，所以去掉了“面议”的结果；我想知道具体的城市，所以去掉了包含“省”的结果；工资数是一个从最低到最高的范围，我取它们的平均值。

2个函数的代码如下：

在调用函数的时候，我们只需要2个参数：搜索关键词（keyword）和搜索结果的最大页数（max_page）。除了我的专业外，我还对深度学习技术非常感兴趣，也在努力地恶补相关知识，所以今天也顺便了解一下深度学习的“钱景”如何。其实，从max_page=63就已经能看到它有多火热了。

爬虫程序得到的结果如下：

接下来的工作就是做一点简单的统计：
1. 首先是看工资的分布

生物信息：大约三分之一的职位处于10~15万的区间，25万以上只有10%
深度学习：20万以上的职位就占了90%！40万以上差不多有三分之一

2. 然后看看北京、上海、深圳的工资

生物信息：深圳有华大，北京有贝瑞和康、诺和致源，上海能叫的出名字的公司是哪家呢？工资水平也反映出了这种地域上差距。上海的同行们要加把劲啦！
深度学习：上海的公司很给力！是我们学习的好榜样！

3. 再看看学历要求

生物信息：尽管博士的需求不少，但是大部分职位本科生就可以胜任（跑跑流程而已）
深度学习：最起码读个硕士吧，门槛还是比较高

4. 最后是工作经验

生物信息：如果我把“经验不限”理解为没有经验，那么84%的职位只需要0~1年的工作经验，门槛较低
深度学习：显然对工作经验的要求更高

作图函数如下：

调用作图函数的代码：

今天R图秀让我充满了学习的动力和拼搏的勇气，为了更高的目标而努力吧！

　往期精彩内容整理合集　

2017年R语言发展报告（国内）

R语言中文社区历史文章整理（作者篇）

R语言中文社区历史文章整理（类型篇）

公众号后台回复关键字即可学习
回复 R                  R语言快速入门及数据挖掘
回复 Kaggle案例  Kaggle十大案例精讲（连载中）
回复文本挖掘   手把手教你做文本挖掘
回复可视化   R语言可视化在商务场景中的应用
回复大数据         大数据系列免费视频教程
回复量化投资      张丹教你如何用R语言量化投资
回复用户画像      京东大数据，揭秘用户画像
回复数据挖掘     常用数据挖掘算法原理解释与应用
回复机器学习人工智能系列之机器学习与实践
回复爬虫            R语言爬虫实战案例分享

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入