查看原文
其他

Autoviz: 一行代码搞定数据集探索并可视化

IT服务圈儿 2022-09-10

The following article is from pythonic生物人 Author 点击关注👉

来源丨pythonic生物人(ID:gh_d6ea706a4619)

数据集各个特征有什么变化趋势、各个特征之间有何关系,我们可以借助Matplotlib、Seaborn等诸多工具来可视化展示,那么有没有一种工具能一次展示所有的关系了?

本文要介绍的Python工具Autoviz,一行代码即可完成对数据集所有关系的探索 (Exploratory Data Analysis,EDA)。

安装

pip install autoviz

一行代码搞定数据探索

本次以探索鸢尾花 (iris)数据集为例子,数据集详细介绍👉👉鸢尾花数据集详细介绍,大概是这样autoviz使用,

from autoviz.AutoViz_Class import AutoViz_Class

#AutoViz实例化
AV = AutoViz_Class()

#一行代码实现数据探索
dft = AV.AutoViz(
    filename='/Users/xmy/Desktop/jobs/py/iris.csv',  #读入数据集,注意和dfte的区别
    sep=",",  #设置数据集分隔符,默认为逗号
    depVar="species",  #设置因变量
    dfte=None,  #传入一个pandas.DataFrame,如果filename已设置,此处为None,反之亦然
    header=0,
    verbose=0,  #可选0, 1或者2,设置图形的保存形式
    lowess=False,  #是否启用lowess回归,适合小数据量数据集,100,000行以上数据不建议用
    chart_format="svg",  #设置图形保存格式
    max_rows_analyzed=150000,  #设置数据集待分析的行数
    max_cols_analyzed=30,  #设置数据集待分析的列数
)

结果输出一部分为Dataset的简单介绍结果输出另一部分为大量可视化图表, 以上整个过程仅仅需要4.226秒

No categorical or boolean vars in data set. Hence no pivot plots...
No categorical or numeric vars in data set. Hence no bar charts.
Time to run AutoViz \(in seconds\) = 4.226

###################### VISUALIZATION Completed ########################

参考:https://github.com/AutoViML/AutoViz

1、USB-C竟然也分“正反面”?Type-C 2.1规范已发布

2、百度网盘新版本上线:不是超级会员也可极速下载

3、9月份GitHub开源项目排行

4、动图图解!没有accept,能建立TCP连接吗?

点分享

点点赞

点在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存