这4款数据自动化探索 Python 神器，解决99%的数据分析问题！

Original 喜欢就关注呀 Python学习与数据挖掘 2022-07-09

关注"Python学习与数据挖掘"

设为“置顶或星标”，第一时间送达干货

资料专栏

李航老师《统计学习方法（第二版）》课件&代码

【视频+PPT】李宏毅老师机器学习40讲

探索性数据分析是一种非常重要的数据探索技术，用于了解数据的各个方面，这是执行任何机器学习或深度学习任务之前最重要的步骤之一。

探索性数据分析可以帮助识别明显的错误，区分数据集中的异常，发现重要元素，发现内部信息的设计并提供新的知识。

背景

在任何机器学习项目的生命周期中，我们在数据分析、特征选择、特征工程等环节耗费时间占整个项目的 60% 的以上，一方面它是数据科学项目中最重要的部分，另一方面它是必须要进行的，比如清理数据、处理缺失值、处理异常值、处理不平衡的数据集、等等，高效完成数据探索任务势在必行。

自动化探索性数据分析

今天我给大家分享4款自动化探索数据分析的顶级 Python 库，列表如下：

dtale
pandas profiling
sweetviz
autoviz

1、D-tale

D-tale 是一个在 2020 年 2 月推出的库，可让我们轻松可视化 pandas 数据框。它具有许多功能，对于探索性数据分析非常方便、支持交互式绘图、3d 绘图、热图、特征之间的相关性、构建自定义列等等。

安装

pip install dtale

首先，我们分享一个 d-tale 的案例

import dtale
import pandas as pd
df = pd.read_csv("data.csv")
d = dtale.show(df)
d.open_browser()

上述代码的输出如下所示：它提供许多选项，例如对数据进行排序、描述数据集、列分析等等，也可以自行查看此功能。如果单击"Describe"，则会显示所选列的统计分析，例如平均值、中位数、最大值、最小值方差、标准差、四分位数等等。也可以自行尝试其他功能，例如列分析、格式、过滤器。如何相互关联呢？图表 - 建立自定义图表，如折线图、条形图、饼图、堆叠图、散点图、地质图等。这个工具非常方便，与使用传统的机器学习库（如 pandas、matplotlib 等）相比，它探索性数据分析更快。

2、Pandas Profiling

它是一个用 python 编写的开源库，生成交互式 HTML 报告并描述数据集的各个方面。关键功能包括处理缺失值、数据集的统计数据（如平均值、众数、中位数、偏度、标准差等），以及直方图和相关性等图表。

安装

pip install pandas-profiling

让我们深入研究使用这个库的探索性数据分析。使用示例数据集从 pandas 分析开始：

#importing required packages
import pandas as pd
import pandas_profiling
import numpy as np

#importing the data
df = pd.read_csv('sample.csv')

#descriptive statistics
pandas_profiling.ProfileReport(df)

下面是上述代码输出

这是一个数据分析报告，它返回数据集中的变量数量、行数、数据集中缺失的单元格、缺失单元格的百分比、重复行的数量和百分比。缺失和重复的单元格数据对于我们的分析非常重要，因为它描述了数据集的更广泛情况。该报告还显示内存的总大小。

变量部分显示特定列的分析。例如对于分类变量，将出现以下输出它提供对数值变量的深入分析，例如分位数、均值、中位数和、方差、单调性、范围、峰度、四分位间距等等。

描述变量如何相互关联，这些数据对于数据科学家来说是非常必要的。

3、Sweetviz

Sweetviz 是一个开源的 Python 库，用于获得可视化效果，只需几行代码即可用于探索性数据分析。该库可用于可视化变量和比较数据集。

安装

pip install sweetviz

让我们深入研究使用这个库的探索性数据分析，使用示例数据集开始

import sweetviz
import pandas as pd
df = pd.read_csv('sample.csv')
my_report  = sweetviz.analyze([df,'Train'], target_feat='SalePrice')
my_report.show_html('FinalReport.html')

4、Autoviz

Autoviz 代表自动可视化，只需几行代码，就可以使用任意大小的数据集进行可视化。安装

pip install autoviz

可视化

from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
df = AV.AutoViz('sample.csv')

长按或扫描下方二维码，后台回复：加群，即可申请入群。一定要备注：来源+研究方向+学校/公司，否则不拉入群中，见谅！

（长按三秒，进入后台）

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

这把绝对高端局，只有中国人才懂

这4款数据自动化探索 Python 神器，解决99%的数据分析问题！

背景

自动化探索性数据分析

1、D-tale

2、Pandas Profiling

3、Sweetviz

4、Autoviz

推荐阅读
5大步骤+10个案例，堪称SQL优化万能公式
30 个Python代码实现的常用功能，精心整理版
神器！三行 Python 代码轻松提取 PDF 表格数据
四款可视化工具，解决99%的可视化大屏需求

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

这把绝对高端局，只有中国人才懂

生成图片，分享到微信朋友圈

这4款数据自动化探索 Python 神器，解决99%的数据分析问题！

背景

自动化探索性数据分析

1、D-tale

2、Pandas Profiling

3、Sweetviz

4、Autoviz

推荐阅读5大步骤+10个案例，堪称SQL优化万能公式30 个Python代码实现的常用功能，精心整理版神器！三行 Python 代码轻松提取 PDF 表格数据四款可视化工具，解决99%的可视化大屏需求

您可能也对以下帖子感兴趣

推荐阅读
5大步骤+10个案例，堪称SQL优化万能公式
30 个Python代码实现的常用功能，精心整理版
神器！三行 Python 代码轻松提取 PDF 表格数据
四款可视化工具，解决99%的可视化大屏需求