查看原文
其他

【翻译】《利用Python进行数据分析·第2版》第12章(上) pandas高级应用

SeanCheney Python爱好者社区 2019-04-07

作者:SeanCheney   Python爱好者社区专栏作者

简书专栏:https://www.jianshu.com/u/130f76596b02


前文传送门:

【翻译】《利用Python进行数据分析·第2版》第1章 准备工作

【翻译】《利用Python进行数据分析·第2版》第2章(上)Python语法基础,IPython和Jupyter

【翻译】《利用Python进行数据分析·第2版》第2章(中)Python语法基础,IPython和Jupyter

【翻译】《利用Python进行数据分析·第2版》第2章(下)Python语法基础,IPython和Jupyter

【翻译】《利用Python进行数据分析·第2版》第3章(上)Python的数据结构、函数和文件

【翻译】《利用Python进行数据分析·第2版》第3章(中)Python的数据结构、函数和文件

【翻译】《利用Python进行数据分析·第2版》第3章(下)Python的数据结构、函数和文件

【翻译】《利用Python进行数据分析·第2版》第4章(上)NumPy基础:数组和矢量计算

【翻译】《利用Python进行数据分析·第2版》第4章(中)NumPy基础:数组和矢量计算

【翻译】《利用Python进行数据分析·第2版》第4章(下)NumPy基础:数组和矢量计算

【翻译】《利用Python进行数据分析·第2版》第5章(上)pandas入门

【翻译】《利用Python进行数据分析·第2版》第5章(中)pandas入门

【翻译】《利用Python进行数据分析·第2版》第5章(下)pandas入门

【翻译】《利用Python进行数据分析·第2版》第6章(上) 数据加载、存储与文件格式

【翻译】《利用Python进行数据分析·第2版》第6章(中) 数据加载、存储与文件格式

【翻译】《利用Python进行数据分析·第2版》第6章(下) 数据加载、存储与文件格式

【翻译】《利用Python进行数据分析·第2版》第7章(上)数据清洗和准备

【翻译】《利用Python进行数据分析·第2版》第7章(中) 数据清洗和准备

【翻译】《利用Python进行数据分析·第2版》第7章(下) 数据清洗和准备

【翻译】《利用Python进行数据分析·第2版》第8章(上) 数据规整:聚合、合并和重塑

【翻译】《利用Python进行数据分析·第2版》第8章(中) 数据规整:聚合、合并和重塑

【翻译】《利用Python进行数据分析·第2版》第8章(下) 数据规整:聚合、合并和重塑

【翻译】《利用Python进行数据分析·第2版》第9章(上) 绘图和可视化

【翻译】《利用Python进行数据分析·第2版》第9章(中) 绘图和可视化

  【翻译】《利用Python进行数据分析·第2版》第9章(下) 绘图和可视化

  【翻译】《利用Python进行数据分析·第2版》第10章(上) 数据聚合与分组运算

  【翻译】《利用Python进行数据分析·第2版》第10章(中) 数据聚合与分组运算

  【翻译】《利用Python进行数据分析·第2版》第10章(下) 数据聚合与分组运算

  【翻译】《利用Python进行数据分析·第2版》第11章(上) 时间序列

  【翻译】《利用Python进行数据分析·第2版》第11章(中) 时间序列

  【翻译】《利用Python进行数据分析·第2版》第11章(中二) 时间序列

  【翻译】《利用Python进行数据分析·第2版》第11章(下) 时间序列


前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。


12.1 分类数据


这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。


背景和目的


表中的一列通常会有重复的包含不同值的小集合的情况。我们已经学过了unique和value_counts,它们可以从数组提取出不同的值,并分别计算频率:

In [10]: import numpy as np; import pandas as pd In [11]: values = pd.Series(['apple', 'orange', 'apple',   ....:                     'apple'] * 2) In [12]: values Out[12]: 0     apple 1    orange 2     apple 3     apple 4     apple 5    orange 6     apple 7     apple dtype: object In [13]: pd.unique(values) Out[13]: array(['apple', 'orange'], dtype=object) In [14]: pd.value_counts(values) Out[14]: apple     6 orange    2 dtype: int64

许多数据系统(数据仓库、统计计算或其它应用)都发展出了特定的表征重复值的方法,以进行高效的存储和计算。在数据仓库中,最好的方法是使用所谓的包含不同值得维表(Dimension Table),将主要的参数存储为引用维表整数键:

In [15]: values = pd.Series([0, 1, 0, 0] * 2) In [16]: dim = pd.Series(['apple', 'orange']) In [17]: values Out[17]: 0    0 1    1 2    0 3    0 4    0 5    1 6    0 7    0 dtype: int64 In [18]: dim Out[18]: 0     apple 1    orange dtype: object

可以使用take方法存储原始的字符串Series:

In [19]: dim.take(values) Out[19]: 0     apple 1    orange 0     apple 0     apple 0     apple 1    orange 0     apple 0     apple dtype: object

这种用整数表示的方法称为分类或字典编码表示法。不同值得数组称为分类、字典或数据级。本书中,我们使用分类的说法。表示分类的整数值称为分类编码或简单地称为编码。

分类表示可以在进行分析时大大的提高性能。你也可以在保持编码不变的情况下,对分类进行转换。一些相对简单的转变例子包括:

  • 重命名分类。

  • 加入一个新的分类,不改变已经存在的分类的顺序或位置。


pandas的分类类型

pandas有一个特殊的分类类型,用于保存使用整数分类表示法的数据。看一个之前的Series例子:

In [20]: fruits = ['apple', 'orange', 'apple', 'apple'] * 2 In [21]: N = len(fruits) In [22]: df = pd.DataFrame({'fruit': fruits,   ....:                    'basket_id': np.arange(N),   ....:                    'count': np.random.randint(3, 15, size=N),   ....:                    'weight': np.random.uniform(0, 4, size=N)},   ....:                   columns=['basket_id', 'fruit', 'count', 'weight']) In [23]: df Out[23]:   basket_id   fruit  count    weight 0          0   apple      5  3.858058 1          1  orange      8  2.612708 2          2   apple      4  2.995627 3          3   apple      7  2.614279 4          4   apple     12  2.990859 5          5  orange      8  3.845227 6          6   apple      5  0.033553 7          7   apple      4  0.425778

这里,df['fruit']是一个Python字符串对象的数组。我们可以通过调用它,将它转变为分类:

In [24]: fruit_cat = df['fruit'].astype('category') In [25]: fruit_cat Out[25]: 0     apple 1    orange 2     apple 3     apple 4     apple 5    orange 6     apple 7     apple Name: fruit, dtype: category Categories (2, object): [apple, orange]

fruit_cat的值不是NumPy数组,而是一个pandas.Categorical实例:

In [26]: c = fruit_cat.values In [27]: type(c) Out[27]: pandas.core.categorical.Categorical

分类对象有categories和codes属性:

In [28]: c.categories Out[28]: Index(['apple', 'orange'], dtype='object') In [29]: c.codes Out[29]: array([0, 1, 0, 0, 0, 1, 0, 0], dtype=int8)

你可将DataFrame的列通过分配转换结果,转换为分类:

In [30]: df['fruit'] = df['fruit'].astype('category') In [31]: df.fruit Out[31]: 0     apple 1    orange 2     apple 3     apple 4     apple 5    orange 6     apple 7     apple Name: fruit, dtype: category Categories (2, object): [apple, orange]

你还可以从其它Python序列直接创建pandas.Categorical:

In [32]: my_categories = pd.Categorical(['foo', 'bar', 'baz', 'foo', 'bar']) In [33]: my_categories Out[33]: [foo, bar, baz, foo, bar] Categories (3, object): [bar, baz, foo]

如果你已经从其它源获得了分类编码,你还可以使用from_codes构造器:

In [34]: categories = ['foo', 'bar', 'baz'] In [35]: codes = [0, 1, 2, 0, 0, 1] In [36]: my_cats_2 = pd.Categorical.from_codes(codes, categories) In [37]: my_cats_2 Out[37]: [foo, bar, baz, foo, foo, bar] Categories (3, object): [foo, bar, baz]

与显示指定不同,分类变换不认定指定的分类顺序。因此取决于输入数据的顺序,categories数组的顺序会不同。当使用from_codes或其它的构造器时,你可以指定分类一个有意义的顺序:

In [38]: ordered_cat = pd.Categorical.from_codes(codes, categories,   ....:                                         ordered=True) In [39]: ordered_cat Out[39]: [foo, bar, baz, foo, foo, bar] Categories (3, object): [foo < bar < baz]

输出[foo < bar < baz]指明‘foo’位于‘bar’的前面,以此类推。无序的分类实例可以通过as_ordered排序:

In [40]: my_cats_2.as_ordered() Out[40]: [foo, bar, baz, foo, foo, bar] Categories (3, object): [foo < bar < baz]

最后要注意,分类数据不需要字符串,尽管我仅仅展示了字符串的例子。分类数组可以包括任意不可变类型。


赞赏作者

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

小编的Python入门视频课程!!!

崔老师爬虫实战案例免费学习视频。

丘老师数据科学入门指导免费学习视频。

陈老师数据分析报告制作免费学习视频。

玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

丘老师Python网络爬虫实战免费学习视频。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存