降本增效！5款超有用的开源 Python 工具包！

Original 喜欢就关注呀 Python学习与数据挖掘 2022-07-09

关注"Python学习与数据挖掘"

设为“置顶或星标”，第一时间送达干货

资料专栏

李航老师《统计学习方法（第二版）》课件&代码

【视频+PPT】李宏毅老师机器学习40讲

无论我们是用数据进行业务分析还是构建机器学习模型，糟糕的数据都会浪费我们大量的时间。疫情无法外出，在家逛了一下 Github，发现了几款不错的工具。

今天我就来分享5个有用的开源 Python 工具包，它们可有效提升日常工作效率。喜欢记得收藏、点赞、关注。

1、Pandas Profiling

从 Pandas Dataframes 生成数据分析报告的库。我们知道 df.describe() 函数很棒，但对于专业的探索性数据分析来说有点基础，pandas_profiling 使用 df.profile_report() 扩展了 pandas DataFrame 以进行快速数据分析。

Github链接：https://github.com/ydataai/pandas-profiling

主要特征：

数据分析（缺失值和唯一值，, ..）
数据分布和直方图
分位数和描述性统计（平均值、标准偏差、Q1、...）
类型推断
相互作用和相关性
创建 Html 格式报告

实战案例

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
df = pd.DataFrame(np.random.rand(100, 5), columns=["a", "b", "c", "d", "e"])
profile = ProfileReport(df, title="Pandas Profiling Report")

2、ydata_quality

ydata_quality 是一个开源 python 库，用于在数据开发的多个阶段评估数据质量。

这个库的好处在于它可以提供基于数据质量问题的排序，这是很有帮助的，我们也想优先处理对我们数据质量影响较大的问题。

Github链接：https://github.com/ydataai/ydata-quality

只需几行代码的全面质量检查

from ydata_quality import DataQuality
import pandas as pd

#Load in the data
df = pd.read_csv('./datasets/transformed/census_10k.csv')

# create a DataQuality object from the main class that holds all quality modules
dq = DataQuality(df=df)

# run the tests and outputs a summary of the quality tests
results = dq.evaluate()

3、Alibi Detect

Alibi Detect 是一个专注于异常值、对抗性和漂移检测的机器学习专用库。

Github链接：https://github.com/SeldonIO/alibi-detect

主要特征：

表格数据、文本、图像和时间序列的漂移和异常值检测
涵盖在线和离线检测器
TensorFlow 和 PyTorch 后端支持漂移检测。

异常检测对抗性检测漂移检测

使用案例

from alibi_detect.od import OutlierVAE
from alibi_detect.utils import save_detector, load_detector

# initialize and fit detector
od = OutlierVAE(threshold=0.1, encoder_net=encoder_net, decoder_net=decoder_net, latent_dim=1024)
od.fit(x_train)

# make predictions
preds = od.predict(x_test)

# save and load detectors
filepath = './my_detector/'
save_detector(od, filepath)
od = load_detector(filepath)

4、Dora

Dora 是一个 Python 库，旨在自动化探索性数据分析的痛苦部分。该库包含用于数据清理、特征选择和提取、可视化、模型验证的数据分区和数据版本转换的便利功能。

该库旨在成为常见 Python 数据分析工具（如 pandas、scikit-learn 和 matplotlib）的有用补充。

主要特征：

数据清理（空值、类别到序数、删除列、列转换）
特征选择和提取
可视化（绘图功能）
为模型验证划分数据
数据的版本转换

使用案例

# read data with missing and poorly scaled values
>>> import pandas as pd
>>> df = pd.DataFrame([
...   [1, 2, 100],
...   [2, None, 200],
...   [1, 6, None]
... ])
>>> dora = Dora(output = 0, data = df)
>>> dora.data
   0   1    2
0  1   2  100
1  2 NaN  200
2  1   6  NaN

# impute the missing values (using the average of each column)
>>> dora.impute_missing_values()
>>> dora.data
   0  1    2
0  1  2  100
1  2  4  200
2  1  6  150

# scale the values of the input variables (center to mean and scale to unit variance)
>>> dora.scale_input_values()
>>> dora.data
   0         1         2
0  1 -1.224745 -1.224745
1  2  0.000000  1.224745
2  1  1.224745  0.000000

5、Pretty Pandas

PrettyPandas 是一个 Pandas DataFrame Styler 类，可帮助你使用简单的 API 创建报告质量表。

通过以下方式使表格更具可读性：

添加汇总行和列
货币和百分比的数字格式
造型背景渐变

案例

   df.pipe(PrettyPandas)
   .as_currency('GBP', subset='A')
   .as_percent(subset='B')
   .total()
   .average()

长按或扫描下方二维码，后台回复：加群，即可申请入群。一定要备注：来源+研究方向+学校/公司，否则不拉入群中，见谅！

（长按三秒，进入后台）

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

这把绝对高端局，只有中国人才懂

降本增效！5款超有用的开源 Python 工具包！

1、Pandas Profiling

2、ydata_quality

3、Alibi Detect

4、Dora

5、Pretty Pandas

推荐阅读
深度盘点：7个关于 Pandas stack() 和 unstack() 使用技巧！
实战：使用机器学习算法进行航班票价预测！
神器！三行 Python 代码轻松提取 PDF 表格数据
四款可视化工具，解决99%的可视化大屏需求

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

这把绝对高端局，只有中国人才懂

生成图片，分享到微信朋友圈

降本增效！5款超有用的开源 Python 工具包！

1、Pandas Profiling

2、ydata_quality

3、Alibi Detect

4、Dora

5、Pretty Pandas

推荐阅读深度盘点：7个关于 Pandas stack() 和 unstack() 使用技巧！实战：使用机器学习算法进行航班票价预测！神器！三行 Python 代码轻松提取 PDF 表格数据四款可视化工具，解决99%的可视化大屏需求

您可能也对以下帖子感兴趣

推荐阅读
深度盘点：7个关于 Pandas stack() 和 unstack() 使用技巧！
实战：使用机器学习算法进行航班票价预测！
神器！三行 Python 代码轻松提取 PDF 表格数据
四款可视化工具，解决99%的可视化大屏需求