查看原文
其他

使用pandas做数据可视化

大邓 大邓和他的Python 2022-07-09

寒假工作坊

Python&Stata数据分析课寒假工作坊

现在开始招生了,有兴趣的同学和老师可以戳进来了解

课程安排 

1月9-10日  Python爬虫&文本数据分析(模块)    

1月11-16日  Stata 应用能力提升与实证前沿(模块Ⅱ)  


地点

浙江 · 杭州(浙江工商大学)


数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。

常见的数据可视化库有:

  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。

  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib

  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。

但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做

在本文我们可以学到用pandas做

  • 导入数据

  • 绘制最简单的图plot()

  • 多个y的绘制图

  • 折线图、条形图、饼形图和散点图绘制

  • 统计信息绘图

  • 箱型图

  • 轴坐标刻度

  • plot()更多精细化参数

  • 可视化结果输出保存

准备工作

如果你之前没有学过pandas和matpltolib,我们先安装好这几个库

  1. !pip3 install numpy

  2. !pip3 install pandas

  3. !pip3 install matplotlib

已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子

  1. #jupyter notebook中需要加这行代码

  2. %matplotlib inline

  3. import matplotlib.pyplot as plt

  4. import numpy as np

  5. import pandas as pd


  6. #读取天气数据

  7. df = pd.read_csv('data/london2018.csv')

  8. df

plot最简单的图

选择Month作为横坐标,Tmax作为纵坐标,绘图。

大家注意下面两种写法

  1. #写法1

  2. df.plot(x='Month', y='Tmax')

  3. plt.show()

  • 横坐标轴参数x传入的是df中的列名Month

  • 纵坐标轴参数y传入的是df中的列名Tmax

折线图

上面的图就是折线图,折线图语法有三种

  • df.plot(x='Month', y='Tmax')

  • df.plot(x='Month', y='Tmax', kind='line')

  • df.plot.line(x='Month', y='Tmax')

  1. df.plot.line(x='Month', y='Tmax')

  2. plt.show()

  1. #grid绘制格线

  2. df.plot(x='Month', y='Tmax', kind='line', grid=True)

  3. plt.show()

多个y值

上面的折线图中只有一条线, 如何将多个y绘制到一个图中

比如Tmax, Tmin

  1. df.plot(x='Month', y=['Tmax', 'Tmin'])

  2. plt.show()

条形图

  1. df.plot(x='Month',

  2. y='Rain',

  3. kind='bar')

  4. #同样还可以这样画

  5. #df.plot.bar(x='Month', y='Rain')

  6. plt.show()

水平条形图

bar环卫barh,就可以将条形图变为水平条形图

  1. df.plot(x='Month',

  2. y='Rain',

  3. kind='barh')

  4. #同样还可以这样画

  5. #df.plot.bar(x='Month', y='Rain')

  6. plt.show()

多个变量的条形图

  1. df.plot(kind='bar',

  2. x = 'Month',

  3. y=['Tmax', 'Tmin'])

  4. plt.show()

散点图

  1. df.plot(kind='scatter',

  2. x = 'Month',

  3. y = 'Sun')

  4. plt.show()

饼形图

  1. df.plot(kind='pie', y='Sun')

  2. plt.show()

上图绘制有两个小问题:

  • legend图例不应该显示

  • 月份的显示用数字不太正规

  1. df.index = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']

  2. df.plot(kind='pie', y = 'Sun', legend=False)

  3. plt.show()

更多数据

一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据

  1. import pandas as pd


  2. df2 = pd.read_csv('data/londonweather.csv')

  3. df2.head()

  1. df2.Rain.describe()

  1. count 748.000000

  2. mean 50.408957

  3. std 29.721493

  4. min 0.300000

  5. 25% 27.800000

  6. 50% 46.100000

  7. 75% 68.800000

  8. max 174.800000

  9. Name: Rain, dtype: float64

上面一共有748条记录, 即62年的记录。

箱型图

  1. df2.plot.box(y='Rain')

  2. #df2.plot(y='Rain', kind='box')

  3. plt.show()

直方图

  1. df2.plot(y='Rain', kind='hist')

  2. #df2.plot.hist(y='Rain')

  3. plt.show()

纵坐标的刻度可以通过bins设置

  1. df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175, 200])

  2. #df2.plot.hist(y='Rain')

  3. plt.show()

多图并存

  1. df.plot(kind='line',

  2. y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化

  3. subplots=True, #多子图并存

  4. layout=(2, 2), #子图排列2行2列

  5. figsize=(20, 10)) #图布的尺寸

  6. plt.show()

  1. df.plot(kind='bar',

  2. y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化

  3. subplots=True, #多子图并存

  4. layout=(2, 2), #子图排列2行2列

  5. figsize=(20, 10)) #图布的尺寸

  6. plt.show()

加标题

给可视化起个标题

  1. df.plot(kind='bar',

  2. y=['Tmax', 'Tmin'], #2个变量可视化

  3. subplots=True, #多子图并存

  4. layout=(1, 2), #子图排列1行2列

  5. figsize=(20, 5),#图布的尺寸

  6. title='The Weather of London') #标题

  7. plt.show()

保存结果

可视化的结果可以存储为图片文件

  1. df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), title='Pie of Weather in London')

  2. plt.savefig('img/pie.png')

  3. plt.show()

df.plot更多参数

df.plot(x, y, kind, figsize, title, grid, legend, style)

  • x 只有dataframe对象时,x可用。横坐标

  • y 同上,纵坐标变量

  • kind 可视化图的种类,如line,hist, bar, barh, pie, kde, scatter

  • figsize 画布尺寸

  • title 标题

  • grid 是否显示格子线条

  • legend 是否显示图例

  • style 图的风格

查看plot参数可以使用help

  1. import pandas as pd

  2. help(pd.DataFrame.plot)

近期文章

精选课 | Python网络爬虫与文本数据分析(学术)

Python&Stata数据分析课寒假工作坊

如何批量采集网页表格数据?

用statsmodels库做计量分析

NRC词语情绪词典和词语色彩词典

Loughran&McDonald金融文本情感分析库

股评师分析报告文本情感分析预测股价

使用分析师报告中含有的情感信息预测上市公司股价变动

【公开视频课】Python语法快速入门

【公开视频课】Python爬虫快速入门

一行pandas代码生成哑变量

使用Python读取图片中的文本数据

代码不到40行的超燃动态排序图



课件获取方式,公众号后台回复关键词“20191230” 

如果想做文本分析

可购买网课 | Python文本数据分析实战(学术) 

或参加Python&Stata数据分析课寒假工作坊



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存