查看原文
其他

爬虫俱乐部新云端数据源启用

爬虫俱乐部 Stata and Python数据分析 2022-03-15

 

好消息!!!爬虫俱乐部将于2018年11月30日至2018年12月2日在武汉举行Stata编程技术培训。本次培训主要面向财务、会计和金融专业高校教师、硕博生,全部课程均是采用财务金融领域的案例,旨在帮助财务金融领域的研究者熟悉Stata数据分析技巧,通过简单的程序构造复杂的财务金融指标。详细培训大纲及及报名方式,请点击文末阅读原文呦~

爬虫俱乐部是您身边的科研助手,能够为您在数据处理、实证研究中提供帮助。承蒙30000+粉丝的支持与厚爱,我们在腾讯课堂推出了网络视频课程,专注于数据整理、网络爬虫、循环命令编制和结果输出,让您更加快速高效地掌握Stata技巧及数据处理的精髓,课程百分百好评,简单易学,一个月让您从入门到精通。绝对物超所值!观看学习网址:https://ke.qq.com/course/286526?tuin=1b60b462,敬请关注!

有问题,不要怕!爬虫俱乐部隆重推出数据定制及处理业务,您有任何网页数据获取及处理方面的难题,访问: http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx (复制到浏览器中)下载爬虫俱乐部用户问题登记表,并按要求填写后发送至邮箱statatraining@163.com,届时会有俱乐部高级会员为您排忧解难!

爬虫俱乐部的github主站正式上线了!我们的网站地址是:https://stata-club.github.io,粉丝们可以通过该网站访问过去的推文~

各位读者们大家好,今天的推文小编和大家分享一个好消息:爬虫俱乐部的云端数据源已正式更换至腾讯云。未来将拥有更快的下载速度、更大的云端空间,以便更好地服务各位读者朋友,俱乐部的其他涉及到数据的分享、下载,也会逐步迁移至腾讯云上。

现在,请让小编带领大家一起看一看,如何在Stata及日常生活中使用爬虫俱乐部提供的云端数据库吧。


一、Stata调用云端数据


在这里,小编已事先上传一份xls文件及一份zip压缩文件。它们的访问链接如下:

https://stata-club-1257787903.cos.ap-chengdu.myqcloud.com/SwClass.xls


https://stata-club-1257787903.cos.ap-chengdu.myqcloud.com/balance.zip

如果读者们在浏览器中打开这个链接,那么就会自动下载这两份文件。

而在Stata中,同样可以使用copy命令进行下载。如下:

cap mkdir D:/StataClub-data cd D:/StataClub-data copy "https://stata-club-1257787903.cos.ap-chengdu.myqcloud.com/SwClass.xls"  "SwClass.xls"

在下载完毕该xls文件后,就可以使用import delimited进行导入使用了,全程均可在Stata内完成。

为了压缩数据文件空间,方便大家下载使用,我们会对一些较大的dta文件压缩后上传,对于这类文件,我们可以先使用copy命令下载,再使用unzipfile命令进行解压缩,在解压缩完毕后即可使用。示例代码如下:

copy "https://stata-club-1257787903.cos.ap-chengdu.myqcloud.com/balance.zip"  "balance.zip"
unzipfile balance.zip,replace use balance.dta,clear

二、 浏览更多数据


 目前我们已将云端公共数据库开源,读者们可以通过链接https://stata-club-1257787903.cos.ap-chengdu.myqcloud.com/来查看线上有哪些数据文件可以被下载,在浏览器中打开该链接,返回的是如下形式的XML文档,详细列出了数据清单。

<ListBucketResult>
<Name>stata-club-1257787903</Name>
<Prefix/>
<Marker/>
<MaxKeys>1000</MaxKeys>
<IsTruncated>false</IsTruncated>
<Contents>
<Key>SwClass.xls</Key>
<LastModified>2018-11-01T03:00:10.000Z</LastModified>
<ETag>"96a640bedd13c4853070e33f2b7aa8fd"</ETag>
<Size>418304</Size>
<Owner>
<ID>1257787903</ID>
<DisplayName>1257787903</DisplayName>
</Owner>
<StorageClass>STANDARD</StorageClass>
</Contents>
<Contents>...</Contents>
<Contents>...</Contents>
<Contents>...</Contents>
<Contents>...</Contents>
</ListBucketResult>

XML文档是通用的用于传递结构化信息的文档格式,与html类似,所有的文档内容均存在所属的上级标签,标签直接相互嵌套构成一个完整的文档树,在本文档中,每个<Contents>标签内均包含一个数据集简介。在该数据库的内容逐渐丰富以后,读者们也可以使用往期推文所介绍的python中的beautifulSoup库快速解析该清单列表。

后期我们会逐渐上传更多数据服务大家,且关于该公共数据库的Stata查询命令也正在计划制作中,将来读者朋友们可以通过一个stata命令来查看近期爬虫俱乐部的数据是否有更新。后期俱乐部会对重点数据集开启CDN加速,保证全国各地的读者朋友们以最快的速度下载到需要的数据。


三、珍爱资源,请勿高频拉取


虽然俱乐部本着公益心做事情,但腾讯是完全的商业企业,所以大家下载所构成的下行流量在腾讯云中是按量按次计费的(这笔费用由俱乐部自己买单),因此小编在这里真诚地希望大家可以珍惜俱乐部小伙伴们的劳动成果,请勿高频次下载数据,以给我们的云端造成过大压力(以及长长的账单T^T),影响他人的正常使用。

对爬虫俱乐部的推文累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫!

往期回顾

关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:statatraining@163.com

投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存