其他
Stata中的数值型变量分类神器--recode
本文作者:陈丹慧,中南财经政法大学金融学院
本文编辑:崔赵雯
技术总编:余术玲
爬虫俱乐部沙龙活动
导读
recode a (.=0)
replace a=0 if a=.
一、语法
recode varlist (erule) [(erule) . . .] [if] [in] [, options]
varlist
是指我们想改变的一到多个变量;erule
是我们指定的改变规则,形式为新值=旧值
。可以同时指定多个规则,每个规则用小括号括起来,用空格分隔;if
和in
是条件和范围筛选语句,可以根据目的自由添加;最后是一些重要的options
选项,后面会具体介绍。(1)一般的规则形式
recode x (3=1) //将变量x观测值中的3全部改为1
recode x y (8=1) (7=2) (6=3) //将变量x和y的观测值中的8改为1,7改为2,6改为3
recode x (2 .=0) //将变量x观测值中的2和缺失值改为0
recode x (1/5=4) //将变量x观测值为1到5闭区间内的实数都改为4
注意:在recode命令中的1/5和Stata数列表示中的1/5不同。数列表示中1/5指1,2,3,4,5这5个整数,但在recode命令中1/5包括1到5闭区间内全部实数。recode x (min/3=max) //将最小值到3这个区间内的值都改为最大值
(2)含关键词的规则形式:
clear
input v
1
2.1
3.2
.
5
6
7
8
end
recode v (1/5=0),prefix(new_)
观察新变量,我们注意到,规则指定外的数值都保持不变。此时,我们可以继续指定一般规则,也可以指定含关键词的规则。含关键词的规则是针对没被之前规则改变的数值而设定的,它必须放在一般规则的后面。主要的关键词有以下四个:nonmissing、missing、else和*。
recode v (1/5=0) (nonmissing=1),generate(v1) //将未被前面规则改变的非缺失值改为1
recode v (1/5=0) (missing=2),generate(v2) //将未被前面规则改变的缺失值改为2
recode v (1/5=0) (else=1),generate(v3) //将未被前面规则改变的所有值改为1
recode v (1/5=0) (*=1),generate(v4) //*和else作用完全一样
recode v (1/5=0) (nonmissing=1) (missing=2),generate(v5)
二、其他选项与案例
(1)test()选项
recode命令中的规则指定是有序的。从左到右的规则中,一旦一个值在前面已经被指定做出某种改变了,在后面的规则中如果再次指定这个值,会被忽视。以刚刚的数据为例:recode v (1/5=0) (5=1),generate(v6)
在这里,对数值5先后做出了两次指定:第一次要求将5变为0;第二次要求将5变为1。观察数值集可以发现,5变为0了,而将5变为1的指令被忽视了:但结果界面没有给出明显提示:
(2)copyrest()选项
在recode命令中,如果添加if或in语句限定了观测值改变范围,在产生的新变量中,范围外的数值将会变为缺失值。例如,指定前三行的数值进行相应改变:recode v (1/5=0) in 1/3,gen(v9)
观察数据集可发现,前三行外的数值全部变成了缺失值。这时加上copyrset选项,就会将范围外的观测值原样复制到新变量中。recode v (1/5=0) in 1/3,gen(v10) copyrest
(3)label()选项
label()选项可以说是recode命令的灵魂,正是因为有label()选项,recode才可无愧于分类神器这个称号。在之前的推文让你的数据一目了然--label命令介绍中,我们介绍过如何使用label命令来给值贴标签。一般分为两步走,先用label define 定义值标签,再用label value 贴标签。而recode命令中,简单一行命令就可以搞定这两步!下面我们以Stata提供的网络数据集来介绍一下recode命令中的label()选项:webuse fullauto, clear
观察变量窗口,我们可以发现rep77,rep78两个变量共享值标签repair。查看repair这个值标签的内容。
label list repair
我们发现repair这个值标签有5项内容:recode rep77 rep78 (1 2=1 "Below average") (3=2 "Average") (4 5=3 "Above average"),prefix(new) label(newrep)
list *rep* in 1/5,nolabel
label list repair newrep
此时,新的标签内容和部分数据集情况如下:对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!往期推文推荐fs命令——我们的小帮手
【邀请函】听说你还在为处理表格头大?
用stack取代excel的数据重整操作吧Seminar | 委托贷款:打开中国影子银行的黑匣子
Seminar | 电话会议中的"non-answer"
Python 爬虫必杀技:XPath
面对相对路径和绝对路径的分岔口,你选对了吗? 空间数据可视化之spmap命令朴素贝叶斯算法——以20Newsgroups数据集为例
【爬虫实战】利用scrapy框架爬取豆瓣图书信息
《我和我的家乡》影评高频词原来是这些!
Seminar | JPX400指数的公司治理效应Seminar | 企业社会责任披露如何影响企业绩效?【爬虫实战】恒大的底气?--恒大楼盘数量爬取Python遇上Stata--IPyStata介绍关于我们微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。