查看原文
其他

数据呈现丨使用pandas做数据可视化

大邓和他的Python 数据Seminar 2021-06-03

文来源于大邓和他的Python,转载自公众号Python数据之道



数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。
常见的数据可视化库有:
  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。
  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib
  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。
但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做
  • 数据采集
  • 数据读取 pd.read_csv/pd.read_excel
  • 数据清洗(预处理)
  • 可视化,兼容matplotlib语法(今天重点)
在本文我们可以学到用pandas做
  • 导入数据
  • 绘制最简单的图plot()
  • 多个y的绘制图
  • 折线图、条形图、饼形图和散点图绘制
  • 统计信息绘图
  • 箱型图
  • 轴坐标刻度
  • plot()更多精细化参数
  • 可视化结果输出保存




准备工作


如果你之前没有学过pandas和matpltolib,我们先安装好这几个库:
!pip3 install numpy!pip3 install pandas!pip3 install matplotlib
左右滑动查看更多
已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子:
#jupyter notebook中需要加这行代码%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd
#读取天气数据df = pd.read_csv('data/london2018.csv')df
左右滑动查看更多




plot最简单的图


选择Month作为横坐标,Tmax作为纵坐标,绘图。
大家注意下面两种写法:
#写法1df.plot(x='Month', y='Tmax')plt.show()
左右滑动查看更多

  • 横坐标轴参数x传入的是df中的列名Month

  • 纵坐标轴参数y传入的是df中的列名Tmax




折线图


上面的图就是折线图,折线图语法有三种
  • df.plot(x='Month', y='Tmax')
  • df.plot(x='Month', y='Tmax', kind='line')
  • df.plot.line(x='Month', y='Tmax')
df.plot.line(x='Month', y='Tmax')plt.show()
左右滑动查看更多


#grid绘制格线df.plot(x='Month', y='Tmax', kind='line', grid=True)plt.show()
左右滑动查看更多




多个y值


上面的折线图中只有一条线, 如何将多个y绘制到一个图中?
比如Tmax, Tmin:
df.plot(x='Month', y=['Tmax', 'Tmin'])plt.show()
左右滑动查看更多




条形图


df.plot(x='Month', y='Rain', kind='bar')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show()
左右滑动查看更多




水平条形图


bar环卫barh,就可以将条形图变为水平条形图:
df.plot(x='Month', y='Rain', kind='barh')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show()
左右滑动查看更多

多个变量的条形图:
df.plot(kind='bar', x = 'Month', y=['Tmax', 'Tmin'])plt.show()
左右滑动查看更多




散点图


df.plot(kind='scatter', x = 'Month', y = 'Sun')plt.show()
左右滑动查看更多




饼形图


df.plot(kind='pie', y='Sun')plt.show()
左右滑动查看更多

上图绘制有两个小问题:
  • legend图例不应该显示
  • 月份的显示用数字不太正规
df.index =['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']df.plot(kind='pie', y = 'Sun', legend=False)plt.show()
左右滑动查看更多




更多数据


一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据:
import pandas as pd
df2 = pd.read_csv('data/londonweather.csv')df2.head()
左右滑动查看更多

df2.Rain.describe()count 748.000000mean 50.408957std 29.721493min 0.30000025% 27.80000050% 46.10000075% 68.800000max 174.800000Name: Rain, dtype: float64
左右滑动查看更多
上面一共有748条记录, 即62年的记录。



箱型图


df2.plot.box(y='Rain')#df2.plot(y='Rain', kind='box')plt.show()
左右滑动查看更多




直方图


df2.plot(y='Rain', kind='hist')#df2.plot.hist(y='Rain')plt.show()
左右滑动查看更多

纵坐标的刻度可以通过bins设置:
df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175, 200])#df2.plot.hist(y='Rain')plt.show()
左右滑动查看更多




多图并存


df.plot(kind='line', y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化 subplots=True, #多子图并存 layout=(2, 2), #子图排列2行2列 figsize=(20, 10)) #图布的尺寸plt.show()
左右滑动查看更多


df.plot(kind='bar', y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化 subplots=True, #多子图并存 layout=(2, 2), #子图排列2行2列 figsize=(20, 10)) #图布的尺寸plt.show()
左右滑动查看更多




加标题


给可视化起个标题:

df.plot(kind='bar', y=['Tmax', 'Tmin'], #2个变量可视化 subplots=True, #多子图并存 layout=(1, 2), #子图排列1行2列 figsize=(20, 5),#图布的尺寸 title='The Weather of London') #标题plt.show()
左右滑动查看更多





保存结果


可视化的结果可以存储为图片文件:
df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), title='Pie of Weather in London')plt.savefig('img/pie.png')plt.show()
左右滑动查看更多




df.plot更多参数


df.plot(x, y, kind, figsize, title, grid, legend, style)
  • x 只有dataframe对象时,x可用。横坐标
  • y 同上,纵坐标变量
  • kind 可视化图的种类,如line,hist, bar, barh, pie, kde, scatter
  • figsize 画布尺寸
  • title 标题
  • grid 是否显示格子线条
  • legend 是否显示图例
  • style 图的风格
查看plot参数可以使用help:
import pandas as pdhelp(pd.DataFrame.plot)
左右滑动查看更多




·END·



点击搜索你感兴趣的内容吧

机器学习丨从何开始学习数据科学?小哥用亲身经历告诉你如何少走弯路


点击登录丨新型农业经营主体大数据库展示平台正式上线啦!


资讯丨《产业经济评论》关于“数字经济与人工智能专题“征文启事(文末有福利)




数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




转载:Python数据之道

推荐:青酱

排版编辑:青酱



    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存