查看原文
其他

Python数据处理:关于Pandas你需要知道的都在这里了

2017-07-21 刘天培 大数据应用

 文/Karlijn Willems   译/刘天培


使用Python 处理数据


数据整理是数据科学研究流程中的一个重要步骤。本文要介绍的pandas就是一个广受欢迎的数据整理库。这个应用最早基于NumPy开发,那么NumPy又是什么东西?NumPy其实是Python里进行数学计算的基础工具。Pandas库提供了快速、简捷、易懂的数据结构,简化了数据整理步骤。


然而,pandas简捷的数据结构并不是那么容易上手。正因为pandas数据结构比较简洁,所以许多常用的功能放置只能被在其他的函数当中。将这些极其常用的功能和数据本身进行了分离,这就是pandas刚开始不那么容易上手的原因。对新手来说,需要找到一个好的学习的切入点。现在市面上有许多pandas学习资料,涵盖了方方面面。但建议初学者打印一份pandas操作指南(或者叫它小抄)以备不时之需。


温馨提示:带好小抄再上路!


pandas操作指南

要在python里面使用pandas,第一件要做的事情就是导入。首先你需要了解python里面导入外部库的规范。一般来说,导入的时候将pandas简称为pd。这样的好处在于,在程序的任意位置,你都可以使用pd命令来调用pandas。


pandas数据结构

当你首先了解了如何导入pandas,你就可以开始了解pandas数据结构了。你可能会想,数据结构究竟是什么东西?最简单的答案是,当你有几千几万个数据点时,每一个存放数据点的位置之间的排列关系就是数据结构。如果你懂得一些NumPy,你肯定会想到这些数据结构就是可以用数字索引的数列。进一步的解释可以参考一个视频,讲述了pandas数据结构和NumPy数列之间的关系。


A Visual Guide To Pandas: https://www.youtube.com/watch?v=9d5-Ti6onew



pandas使用的数据结构基本上包括两类:Series和DataFrames。一个Series可以看作一个一维的向量,每个元素根据其位置被标上一个数字,从0到n,n是这个向量的长度。使用pd.Series()函数可以创造一个Series。在括号里你可以放一个list(python中最常见的数据结构),甚至你还可以加进去一个特定的索引数列。上图展示了这个过程。


注意,你可以把任意一种数据放入Series中,可以是整数、字符串等等。


使用pd.DataFrames( )可以创建DataFrames,它至少包括两列包含不同数据的Series。括号中你可以放字典进去,然后加上一些数字索引来明确地指出列的元素。


输入输出

当你使用pandas进行数据整理的时候,自己手动输入数据创造一个DataFrames并不是一个好选择。你可以选择直接从文件中导入数据,让pandas自己创建DataFrames。这就是pandas的简洁之处。



包含数据的文件有多种多样的储存形式,包括txt、csv、xlsx、SQL表格等。其中后三种将是你经常碰到的储存形式。pandas针对这三种储存方式,分别有一个对应的函数让你导入:pd.read_csv(), pd.read_excel()和pd.read_sql( )。


pandas甚至有专门对应SQL数据库查询(query)文件的导入函数:pd.read_sql_query( )。to_sql( )函数可以同时应对SQL表格和搜索文件,但是它其实只是上面提到的后两种函数的结合。使用to_sql( )函数时系统会自动探测文件类型,调用正确的函数。


当从python中输出文件的时候,可以使用pd.to_csv( ), pd.to_excel()和 pd.to_sql()。


如何求助

help( )函数始终能够方便地帮助你理解如何使用pandas函数。始终记住:当使用help( )函数的时候,尽量把你想了解的函数拼写完整,然后把指令放在help函数的括号里面:



选择特定的数据点

当你终于导入了外部的文件之后,你想进一步看看这些文件中的数据长什么样、结构如何时,你可以选择特定的元素进行查看。提示一下,你还可以顺便学习下NumPy中应该如何选取元素。



当然,pandas选择的过程和NumPy选择元素的过程很相似。如果你不懂NumPy也没有关系。其实很简单的。如果你想看一个Series中的一个元素,在Series 后面加上方括号[ ],方括号中间填上你想要看的元素的位置号码。如图所示,[ ]中是’b’,返回值是-5。去对照本文之前的内容,我们就会发现这是正确的数字。同样的,如果你要处理一个两维的序列(DataFrames),[ ]中就需要两个数字,用分号(;)隔开。分号前面的数字代表第几行,后面的数字代表第几列。第二个例子中,df[1:]会返回给你所有行,但是每一行都从第2个元素开始。


选择DataFrames里面的元素的第二种方法是使用iloc( )和iat( )。


第三种方法,则是通过行和列的名字(标签)进行选择。


再比如说你在之前章节已经看见每个列都有一个标签:“Country”、 “Capital”和“Population”。你可以通过把标签输入到这两个函数中:loc()和at(),选择你想要的元素。这是第四个方法。


第五种方法,则是输入标签到ix()函数中得到相应的元素,但如果DataFrames没有标签,ix函数也可以利用列的位置来进行选择。


操作指南中中还介绍了布尔索引,布尔索引能够帮助你选择DataFrames里面满足一定条件的元素。这些条件可以包括等于、不等、大于、小于和它们的和、或的并用。


最后,还可以改变一个Series的索引元素,比如说一个索引值可以从3改为6。


去除元素

你不仅可以选取、索引、设置你的数据结构中的元素的值,你还可以随意地去去除掉一些你不需要的值。使用drop( )来去除那些元素。在默认设置之下(axis=0),受到drop函数影响的是横行;如果你想对竖列进行改动,那么就必须明确的设置axis=1。



排序和排名

你还有可能要对你的数据进行排序或者排列。使用sort_index( )沿某一个方向进行索引排序,使用sort_values( )沿某一个方向进行值排序。相信你也理解了rank( )的功能,它能够沿着某一个方向排列值的大小,然后将排名输出为新的一列索引。



得到数据结构的信息

当你最终拿到你所要的数据后,你一定想对数据及其结构有个大概的认识。你可能想知道表格的大小、索引值、空值、列标签等。info()函数能够帮你总结出很多数据结构的特征和信息,能够帮助你快速地熟悉这个陌生的数据集。


上图左栏列出了一些得到数据结构特征的函数,还有一些常见的总结性指标,比如你肯定已经很熟悉的求和、平均、中位数等。


应用函数

在某些情况下,你想对你的DataFrames或Series应用一些计算函数。你的选择包括lambda函数,apply( )函数和applymap( )函数。其中apply( )函数将计算应用于整个数据集,applymap( )则将计算应用于每一个元素。



数据排列

你所需要知道的最后一件事情是,当你的两个数据集的索引不统一的时候,你的跨数据集操作将产生什么结果。指令参考中给出了一个例子,当新的数据集与已有的数据集的索引不同时,会发生:



这种事情经常发生。而pandas的默认设置是将那些两个表不共享的索引值的位置上填满NA(无值)。如果你想避免这种情况,可以设置fill_value参数,设置的值将取代原来的NA。


现在你已经非常懂得pandas的基本操作了。




原文:Pandas Cheat Sheet for Data Science in Python

作者:Karlijn Willems

链接:https://goo.gl/wmnpSy


12

数据应用学院

数据应用学院(Data Application Lab), 北美第一家培训-项目实习-职业辅导-内推一站式专业数据人才输送机构,提供大数据和数据科学培训和公司项目解决方案,由南加州与硅谷的高级数据科学家与数据工程师联合创办,致力于传播数据行业最新应用和知识、培训及输送优秀大数据人才,以填补人才缺口、充分发挥大数据在商业中的力量。2016年被北美著名科技杂志Tech Beacon评为Top Data Camp。 


 长期招募 

TECHNICAL WRITER/翻译志愿者  

  1. 职责:

    1. 深度讨论数据应用

    2. 调研行业发展

  2. 要求:

    1. 对数据应用极为感兴趣

    2.  具备数据分析基础

    3. 具有一定BUSINESS INSIGHT

    4. 写作能力强

感兴趣的同学发送简历writing samplehr@dataapplab.com,邮件标题“申请翻译/Technical Writer”。

往期文章内容


点击“阅读原文”查看数据应用学院核心课程


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存