DataFrame数组常用方法
本文作者:孙晓玲
文字编辑:孙晓玲
学习了Pandas的基本数据类型,今天为大家介绍Pandas中基本数据类型的常用操作方法,这里以DataFrame数组为例。
首先生成一个DataFrame数组,方法之前已经介绍这里将不再赘述,给出命令如下:
import numpy as np
import pandas as pd
dates = pd.date_range('20191101', periods=8)
df = pd.DataFrame(np.random.randn(8, 5), index=dates,columns=list('abcde'))
df
1.查看顶部和尾部数据
当数据集庞大时,查看数据的基本情况通常只需查看顶部与尾部数据,即可得知数据概貌,可用.head()和.tail()函数分别查看头部、尾部数据,默认为显示5条数据,也可以传入数字指定你想要查看的数据条数。这里示范输出默认情况下前5条数据与指定后3条数据。
df.head()
df.tail(3)
2.查看行列索引与值
本例中,行索引为日期索引dates,列索引为列表[a,b,c,d,e],值为交互式列表中的数据,可分别用.index、.columns和.values属性查看行列索引与数值。
df.index
df.columns
df.values
采用交互式输出方式,输出结果中除了行列索引,还包括其数据类型。这里行索引的数据类型为64位的datestime,是逐日型数据,当然还有逐月、逐年等其他类型,在生成datestime时传入不同的日期类型参数即可得到。这里的列索引类型为object,值为一个二维NumPy数组。
示例如下:
df.describe()
输出结果包括每一列的观测值数量、均值、标准差、最大值、最小值及重要的分位数。如果你想得到逐行的描述性统计结果,可对原数据进行转置再进行描述性统计。
df.T.describe()
2.常用的描述性统计方法
下表列出了Pandas数组中一些常用的描述性统计方法。
这里选取几个演示如下:
df.count()#计算每一列非空数值个数
df.cumsum()
df.count()返回每一列非空数值个数,df.cumsum()返回随着日期的累积和。
df.quantile(0.3) #0.3分位数
df.min()
df.idxmin()
动手操作,熟能生巧,快来练习一下吧~
自科基金项目信息爬取
rename group批量修改变量名
关于我们
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。