Stata: 如何快速合并 3500 个无规则命名的数据文件？

查看原文

其他

Stata: 如何快速合并 3500 个无规则命名的数据文件？

Original 连玉君 Stata连享会 2020-02-10

作者：连玉君 (知乎 | 简书 | 码云)

Stata 现场培训报名中……
(北京 | 山西 | 广东)
点击底部【阅读原文】查看链接

1. 问题背景：

(1) 在 idata 文件夹下存放了 3500 个个股日交易资料的 .dta 数据文件。这些文件采用公司代码命名，因此，并不连续（参见 图 1）；
(2) 任务：(a) 部分文件中的 turnover 变量是文字型变量，需要使用 destring 命令将其转换为数值变量；(b) 将这 3500 个数据文件纵向合并起来 (append)；
(3) 使用 forvalues 语句无法奏效，因为文件名对应的数字不连续；

2. 解决思路：

(1) 使用 foreach 语句对无规则的文件名进行循环处理；
(2a) 难点：如何提取文件名到一个暂元或变量中？
(2b) 对策：使用 dir 命令以及暂元的高级功能，将 dir 查询到的文件名存放到一个暂元 s中，随后在循环语句中从 s 暂元中提取文件名；
(3) 关键命令： 提取特定文件夹下的所有文件的名称到一个暂元 s 中，可以使用如下语句(详情参见 help macro，以及 help extended_fcn)：
local s: dir "D:\data\idata'" files "*.dta", respectcase

命令含义：

执行如下语句可以在屏幕上呈现暂元 s 中存放的内容，如 图 3 所示：

. local s: dir "D:\data\idata'"  files "*.dta",  respectcase
. dis `"`s'"'

3. 采用循环语句将 turnover 变量转换为数值变量

global d "D:\data\idata"
cd "$d"
local s: dir "`d'"  files "*.dta",  respectcase
foreach i  in `s' {
  use "`i'", clear
  dis in red "ID = `i'"  //可以不要，只是为了标示公司代码
  destring turnover, replace force  
  qui save "`i'", replace 
  dis "." _c     //屏幕打点，纯属娱乐
}

4. 合并 3500 个数据文件

4.1 方法1：使用 foreach 语句

使用 append 命令可以合并纵向合并文件中的 3500 个文件，但有一个棘手的问题：使用 append 命令时，必须先将第一份数据调入内存，然后将剩余的 3499 份文件追加到这份文件的尾部。

然而，我们的数据文件名称是没有特定规则的，这就需要采用一种自动提取文件名的机制。此时，可以使用 gettoken 或 tokenize 命令对暂元 s 进行切割，其包含的第一个单词就是第一个文件的名称。这里以 gettoken 为例进行说明。

gettoken 的用法

  local a "Jack Rose Make Love"
  gettoken s1 s2: a, parse(" ")
  dis "`s1'"
  dis "`s2'"

结果如下：

.   dis "`s1'"
Jack

.   dis "`s2'"
 Rose Make Love

可见，gettoken 的作用是将暂元 a 的内容按照我们的要求以空格 (parse(" ") 的作用) 为切割点，分成两部分，第一空格之前的部分存入暂元 s1，剩余部分存入暂元 s2。

合并数据的命令

* 4.1 方法1：使用 foreach 语句
  local s: dir "$d"  files "*.dta",  respectcase
  gettoken f1 frest: s, parse(" ")
  dis "`f1'"        //第一个文件的名称
  dis `"`frest'"'   //其他文件的名称

  use "`f1'", clear
  foreach i of local frest {
    append using `i'
  }  
  save "D:\data\idata_all01.dta", replace //保存合并后的数据

4.2 方法2：使用外部命令 openall

若使用外部命令 openall，则上述繁杂的处理过程会简化成一条极其简洁的语句：

  cd "D:\data\idata"  // 将要合并该文件夹下的所有文件
  openall *           // 纵向合并当前工作路径下的所有文件
  save "D:\data\idata_all02.dta", replace //保存合并后的数据

可以使用如下命令安装外部命令 openall：

ssc install openall, replace

详细语法格式参见：help openall。

有兴趣的话，你可以对比一下上述两份最终文件是否有差异。

关于我们

【Stata 连享会(公众号：StataChina)】由中山大学连玉君老师团队创办，旨在定期与大家分享 Stata 应用的各种经验和技巧。
公众号推文同步发布于【简书-Stata连享会】和【知乎-连玉君Stata专栏】。可以在简书和知乎中搜索关键词Stata或Stata连享会后关注我们。
点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
Stata 现场培训报名中

联系我们

欢迎赐稿： 欢迎将您的文章或笔记投稿至Stata连享会(公众号: StataChina)，我们会保留您的署名；录用稿件达五篇以上，即可免费获得 Stata 现场培训 (初级或高级选其一) 资格。
意见和资料： 欢迎您的宝贵意见，您也可以来信索取推文中提及的程序和数据。
招募英才： 欢迎加入我们的团队，一起学习 Stata。合作编辑或撰写稿件五篇以上，即可免费获得 Stata 现场培训 (初级或高级选其一) 资格。
联系邮件： StataChina@163.com

往期精彩推文
Stata: 实时估计个股的贝塔(beta)系数
连玉君-2018暑期Stata研讨班(7.23-8.2)

Stata 现场培训报名中……
(北京 | 山西 | 广东)
点击底部【阅读原文】查看链接

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！