查看原文
其他

数据呈现 | “Pandas”现在也可以绘制交互式的图形了,来看看怎么做的吧?

俊欣 数据Seminar 2022-12-31

本文转载自公众号:关于数据分析与可视化

01 Plotly作为后端支持

我们可以使用第三方的可视化模块来做“Pandas”的后端支持,例如“Plotly”以及“Bokeh”等模块,进而便可以绘制出交互式的图形了,我们先来看一下“Plotly”作为后端的支持,

在我们导入所需要用到的模块之后,我们需要导入进需要用到的数据库,并且添加下面这行代码,以激活“Plotly”作为后端的支持

import pandas as pdimport numpy as np
from sklearn.datasets import fetch_openml
pd.options.plotting.backend = 'plotly'
X,y = fetch_openml("wine", version=1, as_frame=True, return_X_y=True)data = pd.concat([X,y], axis=1)data.head()

我们来将“Alcohol”和“Proline”两列做一个散点图,其中“Proline”列为X轴,“Alcohol”列为Y轴,代码如下
fig = data[['Alcohol', 'Proline']].plot.scatter(y='Alcohol', x='Proline')fig.show()
出来的效果则如下图所示,

是不是和用“plotly”效果差不多?我们可以任意的放大特定的区域,以及下载高清的图像
当然我们也可以对散点图加上一个类别区分,酱紫来可视化不同类别之下的结果,代码如下
fig = data[['Hue', 'Proline', 'class']].plot.scatter(x='Hue', y='Proline', color='class', title='Proline and Hue by wine class')fig.show()
出来的效果如下图所示

我们也可以绘制一些直方图,例如下面的代码,我们对“class”这一列进行“groupby”之后,然后计算出平均值,画出直方图
data[['Hue','class']].groupby(['class']).mean().plot.bar()
出来的效果如下图所示

02 Bokeh作为后端支持

好了,我们来看一下用“Bokeh”作为后端支持的“Pandas”可视化该如何来操作,我们也同样来绘制一个散点图,通过不同的类别来区分的,代码如下
pd.options.plotting.backend = 'pandas_bokeh'
import pandas_bokehfrom bokeh.io import output_notebookfrom bokeh.plotting import figure, show
output_notebook()p1 = data.plot_bokeh.scatter(x='Hue', y='Proline', category='class', title='Proline and Hue by wine class', show_figure=False)show(p1)
绘制出来的结果如下,也是交互式的,

“Bokeh”模块当中有“plot_grid”方法可以用来绘制仪表盘,例如下面的代码绘制出了四个图形,分别是一张散点图,3张直方图,代码如下
output_notebook()
p1 = data.plot_bokeh.scatter(x='Hue', y='Proline', category='class', title='Proline and Hue by wine class', show_figure=False)
p2 = data[['Hue','class']].groupby(['class']).mean().plot.bar(title='Mean Hue per Class')
df_hue = pd.DataFrame({ 'class_1': data[data['class'] == '1']['Hue'], 'class_2': data[data['class'] == '2']['Hue'], 'class_3': data[data['class'] == '3']['Hue']}, columns=['class_1', 'class_2', 'class_3'])
p3 = df_hue.plot_bokeh.hist(title='Distribution per Class: Hue')
df_proline = pd.DataFrame({ 'class_1': data[data['class'] == '1']['Proline'], 'class_2': data[data['class'] == '2']['Proline'], 'class_3': data[data['class'] == '3']['Proline']}, columns=['class_1', 'class_2', 'class_3'])
p4 = df_proline.plot_bokeh.hist(title='Distribution per Class: Proline')
pandas_bokeh.plot_grid([[p1, p2], [p3, p4]], plot_width=450)
而最后出来的结果如下图所示

今天的分享就到这里,希望大家看了有所收获!





星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


推荐 | 分析195篇实证研究论文,发现期刊编辑喜欢这样的文章!

资讯 | 2021高校经济学研究力评估:北大、上财、清华表现突出!

推荐 | C刊(各学科)2021年重点选题方向汇总!

推荐 | 钱颖一:培养“问题意识”,做有意义的研究

统计计量 | Stata论文专题-经济学实证研究的“三大法宝”






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 张静红


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存