其他
读入文本文档,intext来帮忙
本文作者:宁刘莹
文字编辑:张馨月
我们知道,若想将stata内存中的数据导出为文本文件,outfile命令可以帮助我们方便快捷地实现,那么如果想要将文本文件导入到内存中呢?大家可能会想到,infile命令可以读入文本型的数据,但如果文本文档中是汉字呢?这时就需要用到intext模块。
intext模块包含两个命令:intext和tfconcat。小编首先为大家介绍一下intext命令,它主要用于将文本文件读入到stata内存中一组字符串变量下,并且不会删除掉空白字符。它可以理解为是outfile的逆命令,也就是说,如果一个文本文档由intext读入再由outfile导出,两个文档的内容将会是一模一样的。
intext using filename , generate(prefix) [ length(#) clear ]
tfconcat filename_list , generate(prefix) [ length(#) tfid(newvarname) tfname(newvarname) obsseq(newvarname) ]
下面我们用一个简单的例子来综合体会一下。
首先我们需要安装这个模块:
ssc install intext
cd "D:\mainwork\1statawork\intext"
intext using text.txt, clear gen(var) len(5)
tfconcat text.txt text2.txt text3.txt, gen(vname) len(5)
tfconcat text.txt text2.txt text3.txt, gen(vname) len(5) tfid(filelabel)
label list
tfconcat text.txt text2.txt text3.txt, gen(vname) len(5) tfid(filelabel) obsseq(clusternum)
可以看到每个文档都实现了组内编号,效果其实等同于下述命令:
bysort filelabel: gen newvarname = _n
关于我们
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。