其他
fileexists:告诉你“我”存在吗?
本文作者:石 艳,中南财经政法大学统计与数学学院
本文编辑:崔赵雯
技术总编:余术玲
爬虫俱乐部云端课程
1.导读
2.命令语法
3.实例分析
clear all
cap mkdir d:/fileexists
cd d:/fileexists
set obs 1
gen v1=fileexists("temp.txt")
gen v2=fileexists("title_1.dta")
list v1 v2
clear all
cap mkdir d:/fileexists
cd d:/fileexists
forvalues j=1/37{
cap copy "https://www.boc.cn/custserv/bi2/index_`j'.html" temp`j'.txt,replace
while fileexists("temp`j'.txt") == 0 {
sleep 5000
cap copy "https://www.boc.cn/custserv/bi2/index_`j'.html" temp`j'.txt,replace
}
infix strL v 1-10000 using "temp`j'.txt",clear //观察后不用进行转码,可直接进行下一步
forvalues i=`=_N'(-1)2{
if index(v[`i'],"</li>") & !index(v[`i'],"</a>") {
replace v=v+v[`i'] in `=`i'-1'
drop in `i'
}
} //按某种标志进行合并
keep if index(v,"</span></li>")
gen url=ustrregexs(1) if ustrregexm(v,`"<a href="(.*?)""')
forvalues k=1/`=_N' {
if ustrregexm(url[`k'],"^../../"){
replace url= "https://www.boc.cn"+substr(url,6,.) in `k'
}
if ustrregexm(url[`k'],"^./"){
replace url= "https://www.boc.cn/custserv/bi2/"+substr(url,3,.) in `k'
}
} //两种不同的链接,分类进行处理。
gen title=ustrregexs(1) if ustrregexm(v,`"title="(.*?)""')
gen date=ustrregexs(1) if ustrregexm(v,"<span>(.*?)</span>")
replace date=substr(date,3,11)
drop v
save title_`j',replace
}
clear
forvalues i=1/37{
append using title_`i'
}
sort date
save title_total,replace
工作中一切困难的解决途径——motivatedolly
【爬虫实战】喜茶的门店都开在了哪里?
如何简洁地列出指定属性的变量?ds命令来了!
如何在Python中进行描述性统计分析?
分析师和他们的雇主重视与管理层接触吗?——分析师参与盈余电话会议的研究
爬虫俱乐部开发的命令更新及常见问题说明
Seminar | 道德培训真的有用吗?
统计年鉴数据整理小技巧
Seminar | 作为飞行员,我比别的CEO多了什么?
利用TensorFlow构建前馈神经网络
推文合集(1)| Stata学习者必看的n篇推文!
Seminar | 诚信的价值
利用tushare获取股票数据及实现可视化
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。