其他
数据集 | 用来练习pandas的招聘数据
相关推文
一、数据集概况
- 数据集名:招聘数据集
- 采集时间:2018.7
- 数据来源:58同城、智联招聘
- 记录数: 1701992
百度网盘链接: https://pan.baidu.com/s/1arYXcrexLW__SFF5AbjAaA?pwd=sfg5 提取码: sfg5
注意: 免费公开,大家可以用来练习Pandas。
该数据集是有偏的, 不太适合做研究。如果你想用这个数据集做研究, 拿去不谢,但不要加我微信提问呀!!我知道的都在推文里!!
二、Pandas练习
2.1 读取
import pandas as pd
df = pd.read_csv('2018.7招聘数据.csv.gz', compression='gzip')
#使用bandizip或winrar解压gz,得到csv
#df = pd.read_csv('2018.7招聘数据.csv')
df.head()
记录数
len(df)
Run
1701992
2.2 省份
不同省份的记录数
df['省份'].value_counts()
Run
省份
北京市 410142
上海市 364047
河南省 156374
福建省 120816
广东省 101390
湖北省 63507
河北省 57152
江苏省 52360
四川省 51849
山东省 46956
重庆市 43153
湖南省 41438
陕西省 32108
浙江省 31838
黑龙江省 20466
贵州省 17837
辽宁省 15015
海南省 14412
云南省 13542
广西壮族自治区 12842
吉林省 11502
江西省 9638
新疆维吾尔自治区 5071
天津市 3681
安徽省 3547
山西省 1308
Name: count, dtype: int64
2.3 学历
不同学历的记录数
df['学历'].value_counts()
Run
学历
学历不限 999542
大专 286629
高中 123481
中专 100423
不限 84206
本科 83400
中技 10810
技校 6736
硕士 6151
博士 613
Name: count, dtype: int64
筛选出需要博士学历的记录
df[df['学历']=='博士']
2.4 岗位描述
2.4.1 文本长度
岗位描述文本长度
df['岗位描述'].fillna('').str.len()
Run
0 974
1 457
2 731
3 430
4 348
...
1701987 294
1701988 1029
1701989 322
1701990 25
1701991 377
Name: 岗位描述, Length: 1701992, dtype: int64
2.4.2 是否含某个(类)词
岗位描述是否含 抗压能力强
或 压力大
#一个词
#df[df['岗位描述'].fillna('').str.contains('抗压能力强')].head()
#多个词用|间隔
df[df['岗位描述'].fillna('').str.contains('抗压能力强|压力大')].head()
岗位描述含 抗压能力强|压力大
的工作占比
print('压力占比', df['岗位描述'].fillna('').str.contains('抗压能力强|压力大').sum()/ len(df))
print('轻松占比', df['岗位描述'].fillna('').str.contains('工作轻松|压力小').sum()/ len(df))
Run
压力占比 0.012797357449388716
轻松占比 0.018608195573187183
...
三、获取数据
百度网盘链接: https://pan.baidu.com/s/1arYXcrexLW__SFF5AbjAaA?pwd=sfg5 提取码: sfg5
注意: 免费公开,大家可以用来练习Pandas。
该数据集是有偏的, 不太适合做研究。如果你想用这个数据集做研究, 拿去不谢,但不要加我微信提问呀!!我知道的都在推文里!!