Pandas筛选文本数据3部曲

Original 尤而小屋尤而小屋 2022-06-19

收录于合集

#字符串 3 个

#文本处理 2 个

#数据分析 136 个

#数据分析师 49 个

#pandas 66 个

公众号：尤而小屋
作者：Peter
编辑：Peter

大家好，我是Peter~

本文主要介绍的是通过使用Pandas中3个字符串相关函数来筛选满足需求的文本数据：

contains ：包含某个字符
startswith：以字符开头
endswith：以字符结尾

模拟数据

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "name":["xiao ming","Xiao zhang",np.nan,"sun quan","guan yu"],
    "age":["22","19","20","34","39"],
    "sex":["male","Female","female","Female","male"],
    "address":["广东省深圳市","浙江省杭州市","江苏省苏州市","福建省泉州市","广东省广州市"]
})

df

df.dtypes  # 查看字段类型

name       object
age        object
sex        object
address    object
dtype: object

在本次模拟的数据中，有4个特点：

name字段：存在缺失值np.nan，且Xiao和xiao存在大小写之分
age：年龄字段，正常应该是数值型，模拟的数据是字符类型object
sex：也存在F和f的大小写之分
address：正常写法

数据类型转换

我们将age字段的字符类型型转成数值型

df["age"] = df["age"].astype(float)
df

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市

如果不带上则会报错：

df[df["name"].str.contains("xiao")]

忽略大小写

# 例子3：case使用

df["name"].str.contains("xiao",case=False)

0     True
1     True
2      NaN
3    False
4    False
Name: name, dtype: object

上面的结果直接忽略了大小写，可以看到出现了两个True：也就是xiao和Xiao的数据都被筛选出来：

df[df["name"].str.contains("xiao",case=False, na=False)]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
1	Xiao zhang	19.0	Female	浙江省杭州市

忽略大小写和缺失值

# 例子4：忽略大小写和缺失值
df[df["sex"].str.contains("f",case=False, na=False)]

	name	age	sex	address
1	Xiao zhang	19.0	Female	浙江省杭州市
2	NaN	20.0	female	江苏省苏州市
3	sun quan	34.0	Female	福建省泉州市

正则表达式使用

# 例子5：正则表达式使用

df["address"].str.contains("^广")

0     True
1    False
2    False
3    False
4     True
Name: address, dtype: bool

其中^表示开始的符号，即：以广开头的数据

df[df["address"].str.contains("^广")]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
4	guan yu	39.0	male	广东省广州市

正则表达式中的$表示结尾的符号；下面是筛选以市结尾的数据：

df[df["address"].str.contains("市$")]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
1	Xiao zhang	19.0	Female	浙江省杭州市
2	NaN	20.0	female	江苏省苏州市
3	sun quan	34.0	Female	福建省泉州市
4	guan yu	39.0	male	广东省广州市

在下面的正则表达式例子中，会在深苏泉中任意选择一个，然后包含这个字符的数据：

df[df["address"].str.contains("[深苏泉]")]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
2	NaN	20.0	female	江苏省苏州市
3	sun quan	34.0	Female	福建省泉州市

startswith

startswith的语法相对简单：

Series.str.startswith(pat, na=None)

pat：表示一个字符；注意：不接受正则表达式
na：表示对缺失值的处理；na=False表示忽略缺失值

pat参数

指定一个字符；不接受正则表达式

df["address"].str.startswith("广")

0     True
1    False
2    False
3    False
4     True
Name: address, dtype: bool

df[df["address"].str.startswith("广")]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
4	guan yu	39.0	male	广东省广州市

这种写法和正则表达式的以某个字符开头是同样的效果：

df[df["address"].str.contains("^广")]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
4	guan yu	39.0	male	广东省广州市

自动区分大小写

startswith方法是自动区分大小写的：

df[df["sex"].str.startswith("f")]

	name	age	sex	address
2	NaN	20.0	female	江苏省苏州市

df[df["sex"].str.startswith("F")]

	name	age	sex	address
1	Xiao zhang	19.0	Female	浙江省杭州市
3	sun quan	34.0	Female	福建省泉州市

缺失值处理

df["name"].str.startswith("xiao")

0     True
1    False
2      NaN
3    False
4    False
Name: name, dtype: object

df[df["name"].str.startswith("xiao",na=False)]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市

endswith

指定以某个字符结尾，语法为：

Series.str.endswith(pat, na=None)

pat：表示一个字符；注意：不接受正则表达式
na：表示对缺失值的处理；na=False表示忽略缺失值

pat参数

# 以市结尾

df[df["address"].str.endswith("市")]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
1	Xiao zhang	19.0	Female	浙江省杭州市
2	NaN	20.0	female	江苏省苏州市
3	sun quan	34.0	Female	福建省泉州市
4	guan yu	39.0	male	广东省广州市

# 正则的写法：contains方法

df[df["address"].str.contains("市$")]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
1	Xiao zhang	19.0	Female	浙江省杭州市
2	NaN	20.0	female	江苏省苏州市
3	sun quan	34.0	Female	福建省泉州市
4	guan yu	39.0	male	广东省广州市

缺失值处理

df["name"].str.endswith("g")

0     True
1     True
2      NaN
3    False
4    False
Name: name, dtype: object

df[df["name"].str.endswith("g",na=False)]

	name	age	sex	address
0	xiao ming	22.0	male	广东省深圳市
1	Xiao zhang	19.0	Female	浙江省杭州市

# 不加na参数则报错
df[df["name"].str.endswith("g")]

报错的原因很明显：就是因为name字段下面存在缺失值。当使用了na参数就可以完美解决这个问题。

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

Pandas筛选文本数据3部曲

模拟数据

数据类型转换

忽略大小写

忽略大小写和缺失值

正则表达式使用

startswith

pat参数

自动区分大小写

缺失值处理

endswith

pat参数

缺失值处理

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

Pandas筛选文本数据3部曲

模拟数据

数据类型转换

忽略大小写

忽略大小写和缺失值

正则表达式使用

startswith

pat参数

自动区分大小写

缺失值处理

endswith

pat参数

缺失值处理

您可能也对以下帖子感兴趣