【R图秀-5】将薪比薪
傅兴:个人公众号:Rapp
往期回顾
谨以此文送给即将毕业的学生们
又到一年毕业季,实验室又送走了一批硕士博士。无论是出国做博后,还是留在国内发展,大家总算结束了穷苦的学生生涯,自己多年的努力终于修成正果。诗和远方虽然是美好的,但是找个满意的高薪职位显然更有现实意义。听着毕业生们谈论着工资待遇,我这个毕业多年的老人家也按耐不住内心的小激动,想看看我们这个专业(生物信息学)现在到底有多少“钱景”。
现在的招聘网站有很多,但我个人比较喜欢猎聘网(https://www.liepin.com/),所以我们今天就来分析猎聘网上的数据。
我们先用“生物信息”做关键词来搜索职位:
我喜欢猎聘网的一个主要原因就是他的搜索结果很合我的口味:
重要的信息一目了然。对求职者来说,最重要的信息无非就是工资(重中之重)、地点、教育背景和工作经验。如果想了解更详细的内容,可以点击职位链接。这样的设计不仅便于求职者浏览,还特别适合用爬虫程序来解析。
搜索的结果是分页显示的,我们点击>|按钮到达最后一页,并记下找到的最大页数(后面的爬虫程序需要用到)。
我的爬虫程序利用的是rvest包。策略如下:
1. 先用浏览器在猎聘网上搜索,通过浏览器地址栏中的URL弄清它的API有哪些参数(比如key,curPage等)
2. 用浏览器查看搜索结果页面的html代码,找到想要提取的element的class,attribute等信息
3. 先写一个解析单页面的函数
4. 再写一个解析所有页面的函数,实际上就是循环调用上一个函数,直到完成所有页面(这就是为什么要先搞清楚搜索结果总共有多少页)
5. 我对解析到的原始数据进行了一些处理:我想要具体的工资数,所以去掉了“面议”的结果;我想知道具体的城市,所以去掉了包含“省”的结果;工资数是一个从最低到最高的范围,我取它们的平均值。
2个函数的代码如下:
在调用函数的时候,我们只需要2个参数:搜索关键词(keyword)和搜索结果的最大页数(max_page)。除了我的专业外,我还对深度学习技术非常感兴趣,也在努力地恶补相关知识,所以今天也顺便了解一下深度学习的“钱景”如何。其实,从max_page=63就已经能看到它有多火热了。
爬虫程序得到的结果如下:
接下来的工作就是做一点简单的统计:
1. 首先是看工资的分布
生物信息:大约三分之一的职位处于10~15万的区间,25万以上只有10%
深度学习:20万以上的职位就占了90%!40万以上差不多有三分之一
2. 然后看看北京、上海、深圳的工资
生物信息:深圳有华大,北京有贝瑞和康、诺和致源,上海能叫的出名字的公司是哪家呢?工资水平也反映出了这种地域上差距。上海的同行们要加把劲啦!
深度学习:上海的公司很给力!是我们学习的好榜样!
3. 再看看学历要求
生物信息:尽管博士的需求不少,但是大部分职位本科生就可以胜任(跑跑流程而已)
深度学习:最起码读个硕士吧,门槛还是比较高
4. 最后是工作经验
生物信息:如果我把“经验不限”理解为没有经验,那么84%的职位只需要0~1年的工作经验,门槛较低
深度学习:显然对工作经验的要求更高
作图函数如下:
调用作图函数的代码:
今天R图秀让我充满了学习的动力和拼搏的勇气,为了更高的目标而努力吧!
公众号后台回复关键字即可学习
回复 R R语言快速入门及数据挖掘
回复 Kaggle案例 Kaggle十大案例精讲(连载中)
回复 文本挖掘 手把手教你做文本挖掘
回复 可视化 R语言可视化在商务场景中的应用
回复 大数据 大数据系列免费视频教程
回复 量化投资 张丹教你如何用R语言量化投资
回复 用户画像 京东大数据,揭秘用户画像
回复 数据挖掘 常用数据挖掘算法原理解释与应用
回复 机器学习 人工智能系列之机器学习与实践
回复 爬虫 R语言爬虫实战案例分享