查看原文
其他

在Python中实现Stata的stack功能

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:王碧琪,中南财经政法大学金融学院

本文编辑:任   哲

技术总编:张馨月

爬虫俱乐部云端课程

  爬虫俱乐部于2020年暑期在线上举办的Stata与Python编程技术训练营和Stata数据分析法律与制度专题训练营在不久前已经圆满结束啦~应广大学员需求,我们的课程现已在腾讯课堂全面上线,且继续提供答疑服务。现在关注公众号并在朋友圈转发推文《来腾讯课堂学Stata和Python啦》或《8月Stata数据分析法律与制度专场来啦!》,即可获得600元课程优惠券,集赞50个再领200元课程优惠券!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元!   

在文章《用stack取代excel的数据重整操作吧》中介绍了Stata中的stack操作,今天本文将使用Python中的pandas库来实现相同功能。

一、多列变一列

(一)准备工作
首先,更改工作路径,导入相关库,读取xlsx文件。本文所使用的“身高.xlsx”文件中包含5列数据,每列数据包含12行,每一个变量值都是身高。将五列数据的列名分别设置为A、B、C、D、E,代表5个班级,我们的最终目的是把5列数据堆叠到1列中。
import os
os.chdir('g:/stack') #更改工作路径
import pandas as pd #导入pandas库
#多变一 读取xlsx文件
df1=pd.read_excel('身高.xlsx',header=None,names=['A','B','C','D','E']) #设置列名为A-E
print(df1)

(二)堆叠处理

下面,对该数据集进行堆叠处理,所使用的函数为pandas库中包含stack()函数。
该函数的官方描述为从列到索引堆叠指定类别。与当前数据相比,堆叠后的数据新生成了一个或者多个最内层索引,最内层索引是通过旋转当前数据的列而生成的。
该函数的语法为:
DataFrame.stack(level=-1,dropna=True)
其中,level代表从列到索引的层次,默认为-1,dropna为是否删除包含缺失值的行,默认为True。
接下来对df1进行操作:
df2=df1.stack()
print(df2)
#df2.to_excel('out身高.xlsx') #导出数据

部分结果如下:

结果显示,df2包含2列数据,第一列为df1的列名,第二列为df1中对应的身高数据。stack()函数将df1中的A-E列堆叠到df2的第一列中,形成了一层新的内层索引。
(三)返回原始数据

pandas中也包含stack()函数的反函数unstack(),可以返回到堆叠前的数据。

df3=df2.unstack()
df3

可以看到,df3与最初的df1完全相同。

二、多列变多列

(一)读取数据
首先,读入“股票行情.csv”,该数据集共包括16列、59行数据。其中,前8列与后8列均为股票交易数据,由于列名不能重复,9-16列的列名自动加上后缀.1。
#多变多 读取csv文件
df4=pd.read_csv('股票行情.csv',encoding='gb18030')
df4

部分结果如下:

(二)拆分数据

接下来,选取第9-16列数据,重命名为1-8列的列名,使二者列名完全相同,方便下一步合并。

df5=df4.iloc[:,8:] #选取第9-16列的数据
df5.columns=['交易日期','证券代码','证券简称','前收','今收','升跌(%)','成交金额(元)','市盈率'] #重命名列名
df5

部分结果如下:

(三)重整数据

按照类似的原理,将前8列数据进行重整,创建df6。之后,采用append()函数纵向拼接。

df6=df4.iloc[:,:8] #选取前8列数据
df7=df6.append(df5,ignore_index=True) #将前8列数据和后8列数据纵向拼接,忽略索引值
df7
#df7.to_excel('out股票行情.xlsx') #导出数据
结果如下:

结果显示,df7中包含118行、8列数据,append()函数将上述两个df纵向拼接起来,得到目标结果。
以上就是如何利用Python中pandas库进行操作来实现stack的功能。当然,本文只展示了其中部分功能,感兴趣的小伙伴们可以继续深挖学习pandas哦~




对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐

这些年,经管类C刊都在研究什么?

Seminar | 眼见为实吗?高管面部可信度、审计师任期与审计费用

Seminar | 恐怖袭击与CEO薪酬

代码补全,主题更换,Jupyter Notebook原来可以这样用?

【爬虫实战】“双十一”微博热搜实时跟进

Stata中的数值型变量分类神器--recode

fs命令——我们的小帮手

【邀请函】听说你还在为处理表格头大?

用stack取代excel的数据重整操作吧

  日期数据处理

          Seminar | 委托贷款:打开中国影子银行的黑匣子

          Seminar | 电话会议中的"non-answer"

         Python 爬虫必杀技:XPath

          面对相对路径和绝对路径的分岔口,你选对了吗?         空间数据可视化之spmap命令

快速计算两地距离——geodist命令介绍

Seminar | CFO:努力影响财务信息环境吗?

Seminar | 企业层面成本加成的测算

朴素贝叶斯算法——以20Newsgroups数据集为例

【爬虫实战】利用scrapy框架爬取豆瓣图书信息

《我和我的家乡》影评高频词原来是这些!


关于我们


微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存