查看原文
其他

1 行代码实现 Python 数据分析:图表美观清晰,还自带对比功能!

关注上方“Python数据科学”,选择星标,
关键时间,第一时间送达!
☞500g+超全学习资源免费领取

转自量子位
你是否也在朋友圈看过这样的小广告:
「你要悄悄学 Python,然后惊艳所有人。」
现在,GitHub 上一位博主告诉你:不用学,用 sweetviz 就行。
这是一个基于 Python 编写的数据分析软件,只要掌握 3 种函数用法,一行 Python 代码就能实现数据集可视化、分析与比较
我们以 Titanic 数据集为例,输入一行代码:
一个 1080p 的清晰网页界面就出现在了眼前。
不仅根据性别、年龄等不同栏目纵向分析数据,每个栏目下还有众数、最大值、最小值等横向对比。
所有输入的数值、文本信息都会被自动检测,并进行数据分析、可视化和对比,最后帮你进行数据总结。
在这样的数据分析下,结果一目了然。
 Titanic 数据集部分功能细节展示
这样的效果,是基于 3 个主函数实现的。

3 种函数用法

analyze () 丨数据分析

数据分析函数中,有 4 个参数 source,target_feat,feat_cfg 和 pairwise_analysis 需要被设置。
source:以 pandas 中的 DataFrame 数据结构、或是 DataFrame 中的某一类字符串作为分析对象。
target_feat:需要被标记为目标对象的字符串。
feat_cfg:需要被跳过、或是需要被强制转换为某种数据类型的特征。
pairwise_analysis:相关性和其他类型的数据关联可能需要花费较长时间。如果超过了某个阈值,就需要设置这个参数为 on 或者 off,以判断是否需要分析数据相关性。
 数据相关性分析效果,可能需要花费一定时间

compare () 丨两个数据集比较

如果想要对两个数据集进行对比分析,就使用这个比较函数。
例子中的 my_dataframe 和 test_df 是两个数据集,分别被命名为训练数据和测试数据。
除了这个被插入的数据集,剩余的参数与 analyze 中的一致。

compare_intra () 丨数据集栏目比较

想要对数据集中某个栏目下的参数进行分析,就采用这个函数进行。
例如,如果需要比较 “性别” 栏目下的 “男性” 和 “女性”,就可以采用这个函数。
理解这几种函数的变量后,一行代码就能实现 Python 数据分析。

使用指南

sweetviz 支持 Python 3.6 + 和 Pandas0.25.3 + 环境,配置好环境后,使用万能的 pip 下载安装包:
但有一个条件需要注意:sweetviz 需要用到基础「os」模块。所以,如果你在使用类似于 Google Colab 的自定义环境,可能会无法使用 sweetviz,目前开发者也在探索解决方案。
下载好后,使用 import 快速导入 sweetviz,就可以开始使用了~
sweetviz 使用的原理是,使用一行代码,生成一个数据报告的对象(其中,my_dataframe 是 pandas 中的 DataFrame,一种表格型数据结构):
在这里,analyze 函数可以被替换为 compare 或 compare_intra 函数,使用方法在上面已经给出,全看你需要什么类型的数据报告了。
最后,用 show 一键输出。(结果会以 SWEETVIZ_REPORT.html 网页形式展示)
由于在这个过程中,实际上真正需要编写的只有第二行的生成对象代码,可以说是名副其实的 1 行代码生成数据分析。
展示界面也非常简洁,只要鼠标停留在感兴趣的栏目上,右侧就会自动显示出数据分析的图表和报告。
感兴趣的小伙伴,快戳下方的传送门用起来吧~
传送门:
https://github.com/fbdesignpro/sweetviz
- 完 -

推荐阅读

业余时间如何学习数据分析?七步路径详解小白玩家进阶路线

再见, VS Code !你好,GitHub!

安利一个爱不释手的PDF神器网站

大写牛逼,用 Python 登录主流 24 个网站
这个只有1.5M的软件,能让你的网速快3倍
流弊!一张图完美解释 Python 3 全部用法

特别推荐

特别推荐:一个优质的推荐Github开源项目的公众号「GitHuboy」,每天给大家分享前沿、优质的项目,涉及 Java、Python、Go、Web前端、AI、数据分析等多个领域,非常值得大家关注。

回复「Java学习」获得 1024G Java学习资料
回复Python学习获得 100G Python学习资料


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存