查看原文
其他

​数据集 | 用来练习pandas的招聘数据

大邓 大邓和他的Python
2024-09-10

相关推文

推荐 | 如何处理远超电脑内存的csv文件



一、数据集概况

- 数据集名:招聘数据集
- 采集时间:2018.7
- 数据来源:58同城、智联招聘
- 记录数: 1701992

百度网盘链接: https://pan.baidu.com/s/1arYXcrexLW__SFF5AbjAaA?pwd=sfg5 提取码: sfg5 

注意:   免费公开,大家可以用来练习Pandas。

该数据集是有偏的, 不太适合做研究。如果你想用这个数据集做研究, 拿去不谢,但不要加我微信提问呀!!我知道的都在推文里!!



二、Pandas练习

2.1 读取

import pandas as pd

df = pd.read_csv('2018.7招聘数据.csv.gz', compression='gzip')

#使用bandizip或winrar解压gz,得到csv
#df = pd.read_csv('2018.7招聘数据.csv')
df.head()


记录数

len(df)

Run

1701992

2.2 省份

不同省份的记录数

df['省份'].value_counts()

Run

省份
北京市         410142
上海市         364047
河南省         156374
福建省         120816
广东省         101390
湖北省          63507
河北省          57152
江苏省          52360
四川省          51849
山东省          46956
重庆市          43153
湖南省          41438
陕西省          32108
浙江省          31838
黑龙江省         20466
贵州省          17837
辽宁省          15015
海南省          14412
云南省          13542
广西壮族自治区      12842
吉林省          11502
江西省           9638
新疆维吾尔自治区      5071
天津市           3681
安徽省           3547
山西省           1308
Name: count, dtype: int64

2.3 学历

不同学历的记录数

df['学历'].value_counts()

Run

学历
学历不限    999542
大专      286629
高中      123481
中专      100423
不限       84206
本科       83400
中技       10810
技校        6736
硕士        6151
博士         613
Name: count, dtype: int64

筛选出需要博士学历的记录

df[df['学历']=='博士']


2.4 岗位描述

2.4.1 文本长度

岗位描述文本长度

df['岗位描述'].fillna('').str.len()

Run

0           974
1           457
2           731
3           430
4           348
           ... 
1701987     294
1701988    1029
1701989     322
1701990      25
1701991     377
Name: 岗位描述, Length: 1701992, dtype: int64

2.4.2 是否含某个(类)词

岗位描述是否含 抗压能力强压力大

#一个词
#df[df['岗位描述'].fillna('').str.contains('抗压能力强')].head()

#多个词用|间隔
df[df['岗位描述'].fillna('').str.contains('抗压能力强|压力大')].head()


岗位描述含 抗压能力强|压力大 的工作占比

print('压力占比', df['岗位描述'].fillna('').str.contains('抗压能力强|压力大').sum()/ len(df))

print('轻松占比', df['岗位描述'].fillna('').str.contains('工作轻松|压力小').sum()/ len(df))

Run

压力占比 0.012797357449388716
轻松占比 0.018608195573187183

...

三、获取数据

百度网盘链接: https://pan.baidu.com/s/1arYXcrexLW__SFF5AbjAaA?pwd=sfg5 提取码: sfg5 

注意:   免费公开,大家可以用来练习Pandas。

该数据集是有偏的, 不太适合做研究。如果你想用这个数据集做研究, 拿去不谢,但不要加我微信提问呀!!我知道的都在推文里!!




精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 三板上市公司年报2002-2023.12
数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 288w政府采购合同公告明细数据(2023.09)
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了
cpca库 | 中国省、市区划匹配库
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存