查看原文
其他

【R图秀-5】将薪比薪

傅兴 R语言中文社区 2019-04-22


作者简介Introduction

傅兴:个人公众号:Rapp

往期回顾

【R图秀-2】社交网络数据可视化(一)

【R图秀-3】——“全球和平指数”可视化

【R图秀】情人节快乐!


谨以此文送给即将毕业的学生们

又到一年毕业季,实验室又送走了一批硕士博士。无论是出国做博后,还是留在国内发展,大家总算结束了穷苦的学生生涯,自己多年的努力终于修成正果。诗和远方虽然是美好的,但是找个满意的高薪职位显然更有现实意义。听着毕业生们谈论着工资待遇,我这个毕业多年的老人家也按耐不住内心的小激动,想看看我们这个专业(生物信息学)现在到底有多少“钱景”。

现在的招聘网站有很多,但我个人比较喜欢猎聘网(https://www.liepin.com/),所以我们今天就来分析猎聘网上的数据。



我们先用“生物信息”做关键词来搜索职位:



我喜欢猎聘网的一个主要原因就是他的搜索结果很合我的口味:

重要的信息一目了然。对求职者来说,最重要的信息无非就是工资(重中之重)、地点、教育背景和工作经验。如果想了解更详细的内容,可以点击职位链接。这样的设计不仅便于求职者浏览,还特别适合用爬虫程序来解析。

搜索的结果是分页显示的,我们点击>|按钮到达最后一页,并记下找到的最大页数(后面的爬虫程序需要用到)。


我的爬虫程序利用的是rvest包。策略如下:
1. 先用浏览器在猎聘网上搜索,通过浏览器地址栏中的URL弄清它的API有哪些参数(比如key,curPage等)
2. 用浏览器查看搜索结果页面的html代码,找到想要提取的element的class,attribute等信息
3. 先写一个解析单页面的函数
4. 再写一个解析所有页面的函数,实际上就是循环调用上一个函数,直到完成所有页面(这就是为什么要先搞清楚搜索结果总共有多少页)
5. 我对解析到的原始数据进行了一些处理:我想要具体的工资数,所以去掉了“面议”的结果;我想知道具体的城市,所以去掉了包含“省”的结果;工资数是一个从最低到最高的范围,我取它们的平均值。


2个函数的代码如下:


在调用函数的时候,我们只需要2个参数:搜索关键词(keyword)和搜索结果的最大页数(max_page)。除了我的专业外,我还对深度学习技术非常感兴趣,也在努力地恶补相关知识,所以今天也顺便了解一下深度学习的“钱景”如何。其实,从max_page=63就已经能看到它有多火热了。



爬虫程序得到的结果如下:


接下来的工作就是做一点简单的统计:
1. 首先是看工资的分布



生物信息:大约三分之一的职位处于10~15万的区间,25万以上只有10%
深度学习:20万以上的职位就占了90%!40万以上差不多有三分之一

2. 然后看看北京、上海、深圳的工资



生物信息:深圳有华大,北京有贝瑞和康、诺和致源,上海能叫的出名字的公司是哪家呢?工资水平也反映出了这种地域上差距。上海的同行们要加把劲啦!
深度学习:上海的公司很给力!是我们学习的好榜样!

3. 再看看学历要求


生物信息:尽管博士的需求不少,但是大部分职位本科生就可以胜任(跑跑流程而已)
深度学习:最起码读个硕士吧,门槛还是比较高

4. 最后是工作经验

生物信息:如果我把“经验不限”理解为没有经验,那么84%的职位只需要0~1年的工作经验,门槛较低
深度学习:显然对工作经验的要求更高


作图函数如下:


调用作图函数的代码:


今天R图秀让我充满了学习的动力和拼搏的勇气,为了更高的目标而努力吧!



 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存