用stack取代excel的数据重整操作吧
本文作者:王子一,中南财经政法大学金融学院
本文编辑:崔赵雯
技术总编:余术玲
爬虫俱乐部云端课程
有些时候大家从网页或者其他途径拿到的数据,作者为了展示数据的美观,通常会采用宽数据格式进行展示,那么什么叫做宽数据呢?pick一个小知识点:
宽数据是相对于长数据而言的,长数据是指没有对数据集中的变量做细分,即变量中至少有一个变量中的元素值存在重复循环的情况,表格整体的形状为长方形,变量少而观察值多的数据形式,如下图:
那么宽数据则是指对数据集中所有的变量进行了细分,各变量的值不存在重复循环的情况,数据集表现形式为变量多而观察值少的情况,以下图展示为例:
一般情况下,如果当我们拿到这种宽数据,并且需要对其进行转化使用分析时,小白同学通常就会选择用Excel进行手动操作,剪切粘贴剪贴粘贴...披星戴月...将多列数据归到一列中去,结果一眨眼!!你记不清处理到了哪里,两手抓虾只能重新来过。这时,Stata出现了一个简单的命令,简简单单的操作会给你带来极大的便利,它就是stack命令,一个可以取代Excel手动操作的数据重整命令,下面我们来展示它的风采。
首先对stack命令进行简单的介绍:
命令的语法:
stack varlist [if] [in] , {into(newvars)|group(#)} [options]
选项 | 描述 |
---|---|
into(newvars) | 数据重整生成的新变量名称 |
group(#) | 重整变量组所需要的组数 |
clear | 从内存中删除数据集 |
wide | 将未在新变量中指定的变量保存在变量组中 |
注释:into(newvars)和group(#)只能选择一个
简单来说,如果我们想要将4个变量放在1列,就以下图4个变量为例:
clear
input a b c d
1 2 3 4
5 6 7 8
end
stack a b c d, into(v1)
同样地,如果我们将上面例子中的那4个变量放在2列里面,我们可以这样做:
stack a b c d, into(v1 v2)
stack a b c d, into(v1-v2)
stack a b c d,group(2)
如果说,将4个变量划为3列呢,这是不可以的!因为3不是4的因数,所以不可以进行这样的重整数据。
而wide的用法则是将未在新变量中指定的变量保存在变量组中,以上面的例子为例进行下面的操作:
stack a b a c, into(a bc) clear wide
以上这些就是stack命令的基本操作啦。
接下来我们分为多对一和多对多这两种形式为大家讲解stack的应用案例,大家也可以感受到其真正的用途在哪里。
第一种形式:多对一
很容易理解,多对一就是将多列数据划为一列,这在什么时候需要用到呢?比如说绘制图形之前,第一步需要将宽数据转换成长数据,我们以下面的例子为例。
绘制班级同学身高(如下表)的直方图的前期准备工作,则需要将下图多列的形式转化为一列 ,如:
通过stack命令转换,变为我们所需要的格式,具体运行步骤如下:
cap mkdir d:/stack
cd d:/stack
clear
import excel 身高.xlsx
stack A B C D E,into(y) clear
drop _stack #这里的_stack是数据重整之后产生的一个变量
如下图:
接下来大家就可以进行其他数据处理操作了。
第二种形式:多对多
多列转化成多列的使用:我们以股票行情显示为例,比如说网站上为了方便,减小篇幅地展示当日所有股票的行情,会以8列为一单位分别展示出交易日期、证券代码、证券简称、前日收盘价、今日收盘价、涨跌幅度、成交金额及市盈率,然后9-16列会以同样的顺序展示股票行情,如下图:
这时如果你需要对这些股票数据进行分析,第一步需要整齐划一,将多列化为一列,以8列为一单位进行展示,以上面的例子为例,具体的运行步骤如下:
insheet using 股票行情.csv,clear
replace v3 = ustrfrom(v3,"gb18030",1) #命令ustrfrom可以将乱码形式转化为我们熟知的文字
replace v11 = ustrfrom(v11,"gb18030",1)
rename (ȯ ǰ ɽԪ ӯ) (v2 v4 v7 v8)
stack v1-v16,into(x1-x8) clear
drop _stack
rename (x1-x8) (交易日期 证券代码 证券简称 前收 今收 升跌 成交金额 市盈率)
save 股票行情1,replace
展示效果如下图:
这样一个简单的stack命令就会将宽数据转化为长数据,转化成符合我们要求的数据形式,进而可以进行下一步的数据处理。
以上就是今天分享的全部内容啦,简单的stack命令可以进行以上的数据堆栈处理,小小的内容有着大大的用处,大家一起动手操作起来,感受stack的便捷吧!
本文用到的所有数据集均可通过后台回复stack获取,快去打开Stata试试看吧~
Seminar | 委托贷款:打开中国影子银行的黑匣子
Seminar | 电话会议中的"non-answer"
Python 爬虫必杀技:XPath
朴素贝叶斯算法——以20Newsgroups数据集为例
【爬虫实战】利用scrapy框架爬取豆瓣图书信息
《我和我的家乡》影评高频词原来是这些!
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。