爬虫俱乐部2019暑期Stata编程训练营报名啦！

Original 爬虫俱乐部 Stata and Python数据分析 2022-03-15

爬虫俱乐部

2019暑期Stata编程训练营

报名啦！

爬虫俱乐部将于2019年8月22日至28日在湖北武汉举行为期一周的Stata编程技术定制培训，此次采取初级班和高级班分批次培训。课程通过案例教学模式，旨在帮助大家在短期内掌握Stata软件编程、金融计量知识和实证分析方法，使大家熟悉Stata核心的爬虫技术，以及Stata与其他软件交互的高端技术。

初级班主要是为了让学员掌握Stata数据分析技巧，并能独立撰写相关的程序。涉及内容包括多种数据格式的读取和输出、数据的合并、实证结果的输出以及爬虫俱乐部编写的命令介绍等。

高级班主要是为了让学员掌握Stata软件进阶操作，涉及内容包括正则表达式、网络爬虫技巧、文本分析等技术。经过团队精心策划，此次课程新增北大法宝裁判文书信息提取和百度地图api调用两大案例，以及新兴实证研究方法介绍，相信定能让学员受益匪浅！

自创立以来，爬虫俱乐部团队开发了多个便捷高效的Stata命令，如cntrade、cnintraday、cnar等可以让用户快速获取中国股票日交易、日内分时数据、中国上市公司财务数据；chinagcode和chinaaddress实现了中文地址和经纬度的相互转换，reg2docx、t2docx、sum2docx和corr2docx使结果输出更加简洁，subinfile让网页内容分析和内容抓取异常简单……同时，团队也培养了众多优秀学生，向香港大学、香港理工大学、香港岭南大学和澳门大学等知名高校输送了一批高质量的研究助理，包括薛原、徐鑫、刘贝贝、李子健、赵一、周鹏、司海涛、张计宝等。由于技术精湛和工作勤奋受到用人单位的一致称赞。

迄今，爬虫俱乐部已开展近20期线下培训活动，曾应邀在武汉大学、华中科技大学、中央财经大学、中南财经政法大学、西南财经大学、兰州财经大学、华中农业大学、郑州大学、河南大学、长沙理工大学、湖北大学和湖北经济学院等高效举办Stata编程培训与实证研究方法分享，场场爆满座无虚席。

我们会继续努力，以培养学生、技术研发为己任，在少量盈利的基础上，努力将公益事业做好，传播实证技术和数据分析方法、开发数据分析的工具等，造福于学术界！

主要授课老师简介

李春涛

大学教授、博士生导师，香港大学博士，主要研究领域是公司治理和企业创新，在《经济研究》、《金融研究》、Journal of Comparative Economics等主流期刊上发表学术论文三十余篇。李老师是Stata统计软件的资深用户，有20多年的Stata编程经验，他有十多名学生正在或曾经在海外名校从事研究助理工作。

张川川

北京大学CCER经济学博士，哈佛大学经济系访问研究员、世界银行总部研究顾问。近年来在Journal of Population Economics、Health Economics、Demography等各领域顶级国际刊物和《中国社会科学》、《经济研究》、《经济学季刊》、《世界经济》、《金融研究》等国内权威刊物发表中英文论文40余篇；主持国家自然科学基金、北京市社科规划基金、霍英东高等院校青年教师基金和国家社科基金重大项目子课题等多项国家和省部级课题，并担任50余本国内外学术刊物的匿名评审专家。

薛原

香港岭南大学研究助理，爬虫俱乐部高级成员，擅长Stata编程、正则表达式、字符串处理及网络爬虫技术。与李老师合作开发了chinagcode、chinaaddress、cnintraday、cnstock、subinfile、reg2docx、sum2docx、wordconvert等重要命令，实现了中文地址与经纬度之间的转换，中国上市公司股票代码和分时交易数据的获取以及修改文本文件，在《金融研究》发表过文章

培训时间及内容

2019.08.22-2019.08.24

初级班

2019.08.25-2019.08.28

高级班

初级班课程大纲

第一部分：初识Stata与数据读入

1)熟悉界面

2)寻求帮助（在线帮助、搜索帮助等）

3)DOS命令（cd、dir、erase、rm、shell等）

4)Winexec调用windows系统相关操作

5)copy命令（文件操作、网页源代码读取等）

6)Stata常用30个命令介绍

7)日期定义（日期格式设置、日期函数等）

8)函数（字符串函数、随机函数、编程函数等）

9)egen函数与常见统计量

10) txt、csv、excel等格式文件读入

11)Wind交易数据整理案例

12)基金经理变更数据整理案例

第二部分：宏与循环

1)local与global概念与基本操作

2)宏扩展函数

3)while、foreach、forvalue循环

4)跳出循环的continue 和continue, break

5)批量处理多个目录下的多个文件（fs命令）

6)批量处理多个变量的多个取值（levelsof命令）

7)NBER工作论文下载案例

8)上交所年报爬取综合案例

9)CSMAR交易和财务数据整理案例

第三部分：数据库操作

1)数据的纵向合并、横向合并与长宽变换

2) 工企数据库运用案例

3) Wind财务数据整理案例

4)美国流行歌曲目录整理案例

5)起死回生命令（preserve与restore）

6) CSSCI期刊目录整理案例

7) label命令介绍

8) labelsof、label 的宏扩展函数

9)字符串处理（关键词、替换、提取等）

第四部分：Post命令

1)post原理

2)定义post

3)用post计算股价同步性和Beta

4)基于网络数据的事件研究

5)股本变更数据整理案例

第五部分：回归分析及结果输出

1)putdocx命令输出内容至word文档

a)编辑docx文件中的文字内容

b)输出并编辑表格内容

c)输出内存中的list结果

d)输出矩阵

e)输出绘图

2)putdocx命令相关案例

a)输出十进位制下的汉字unicode编码

b)结合常用汉字生成随机汉字组成的段落

c)爬取并输出陕西省人大代表信息

3)实证结果输出

a)描述性统计信息：sum2docx

b)分组均值t检验：t2docx

c)相关系数矩阵：corr2docx

d)回归结果：reg2docx

4)实证结果输出完整展示

高级班课程大纲

第一部分：正则表达式

1)正则表达式基本函数介绍

a)ustrregexm()

b)ustrregexs()

c)ustrregexrf()与ustrregexra()

2)正则表达式元字符介绍

a)基本元字符

b)数量元字符

c)位置元字符

d)前后查找

e)特殊字符元字符

f)回溯引用

g)unicode编码

3)正则表达式匹配模式

a)贪婪模式

b)懒惰模式

4)正则表达式例子

a)邮编提取

b)英文姓与名的拆分

c)CSSCI数据预处理

d)百度新闻数量

e)城市名称提取

f)pdf表格数据的提取

g)英文姓名的拆分

h)用正则表达式提取日期

i)北大法宝裁判文书信息提取

5)正则表达式相关命令

a)moss命令与简单的词频统计

b)subinfile命令对文本文档进行操作

第二部分：网络爬虫

1)爬虫初步

a)新浪高管任职数据抓取

b)NBER Working Paper信息的抓取

c)百度地图api调用

2)寻找真实链接

a)和讯网港股数据

b)深交所信息披露质量

c)百度新闻逐年数据获取

3)调用curl

a)新浪财经港股数据获取

b)环保部AQI获取

第三部分：文本分析

1)分词原理

2)分词的实现

a)ustrwordcount()和ustrword()

b)调用Python的jieba和pynlpir

c)Bosonnlp的API

d)词频统计

3)高亮输出文章重点

4)词云图的实现

5)情感分析原理

6)情感分析的实现

a)年报MDA语调分析

b)构建词库计算情感值

c)大众点评日料评论情感分析

第四部分：实证研究方法

1) 工具变量方法（IV）

a)工具变量方法介绍

b)现代IV方法：LATE

c)IV方法应用一般步骤：论文案例与Stata实操

2) 断点回归方法（RD）

a)RD方法思想和方法演进

b)精准断点(Shape RD)与模糊断点(Fuzzy RD)

c)RD方法应用一般步骤：论文案例与Stata实操

3) 倍差法（DID）

a)DID模型设定、参数估计和假设检验

b)DID方法与固定效应估计(FE)：联系和区别

c)IV方法应用一般步骤：论文案例与Stata实操

d)DDD(三重差分)方法介绍与应用

e)DDD论文案例与Stata实操

培训对象

国内高校教师、硕士生、博士生、科研院所科研人员、大数据工作者，出国留学人员、社会团体及Stata爱好者。

报名方式

扫描下方二维码（或点击文末阅读原文）提交报名信息→缴费→发送缴费截图至statatraining@163.com（邮件主题为“爬虫俱乐部2019暑期Stata培训+姓名+单位+班次”）→报名成功。

培训费用及优惠

	非学生	学生
初级班	3000	2400
高级班	4800	4000
初、高级班	7000	6000

（学生报名需提供有效学生证件）

支付方式

对公转账

开户名：武汉字符串数据科技有限公司

开户行：中国银行股份有限公司武汉中南财经政法大学分理处

对公账号：579473738265

对私转账

支付宝：13237670191（杨慧琳）

其他事项及培训安排

1.请学员自带笔记本电脑，我们将提供Stata原厂软件试用程序。

2.本次培训食宿及往返交通费用学员自理。

3.即日起开始正式报名和收费。

相关单位

主办方：武汉字符串数据科技有限公司、爬虫俱乐部

联系方式

联系人：杨慧琳

Q Q：1282571987

微信：13237670191

手机：13237670191

邮箱：13237670191@163.com

对爬虫俱乐部的推文累计打赏超过1000元我们即可给您开具发票，发票类别为“咨询费”。用心做事，只为做您更贴心的小爬虫！

关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令，欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

此外，欢迎大家踊跃投稿，介绍一些关于stata的数据处理和分析技巧。

投稿邮箱：statatraining@163.com

投稿要求：
1）必须原创，禁止抄袭；
2）必须准确，详细，有例子，有截图；
注意事项：
1）所有投稿都会经过本公众号运营团队成员的审核，审核通过才可录用，一经录用，会在该推文里为作者署名，并有赏金分成。
2）邮件请注明投稿，邮件名称为“投稿+推文名称”。
3）应广大读者要求，现开通有偿问答服务，如果大家遇到关于stata分析数据的问题，可以在公众号中提出，只需支付少量赏金，我们会在后期的推文里给予解答。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

爬虫俱乐部2019暑期Stata编程训练营报名啦！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

爬虫俱乐部2019暑期Stata编程训练营报名啦！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡