2019 Stata & Python 实证计量与爬虫分析暑期工作坊
Stata & Python 实证前沿与爬虫分析2019年暑期工作坊
1
工作坊信息
· 工作坊简介
为推动我国经济、统计等社会科学量化研究方法学习与应用,培养和训练社会科学相关领域的青年学者、硕博士研究生,促进社会科学相关领域研究方法科学化规范化,《Stata & Python实证前沿与爬虫分析暑期工作坊》提供一个高水平的学术交流、研究方法普及与研究经验分享的学术平台。工作坊采用模块式教学方法,不仅侧重经济、统计等社会科学量化基本方法的介绍,而且更加注重研究设计与研究选题训练,注重理论与实践相结合,培养学员的社会科学量化分析研究的综合能力。
经济学研究正经历大转型:最前沿研究越来越少依赖于个别脑力超群学者发展的数学模型,而更多取决于从不断增长的数据中挖掘真知灼见的能力。克拉克奖60%的获得者后来都获得诺贝尔经济学奖,他们主要研究领域变化很大程度上反映经济学科发展趋势。1995年以前,80%获得者主要研究领域为理论,20%为实证。1996-2005年,主要研究领域为理论获奖者比例降至50%,主要研究领域为实证的获奖者比例增至50%。2006-2016年,只有33%获奖者主要研究领域为理论,其余67%均为实证。克拉克奖获得者主要研究领域已由理论转为实证,经济研究前沿主要以数据来验证理论,较少出现新理论创新。
计算机的迅速发展,更加促进了以数据分析见长的计量经济学的发展。比如Stata软件功能日益强大,并不断开发新程序,以将最常用、最流行、最新计量方法推广应用,大幅提高数据分析效果。大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络数据进行研究,面临两大难点-数据获取与文本分析。数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。
前沿分析固然可能会给你的Paper加分,但不理解其假设,也不知道如何检验假设?在假设得不到满足时也不知道如何用更高级方法去控制?那么会导致前沿方法的滥用!会使你的研究大为失色!为此,邀请三位走在微观计量前沿和爬虫文本分析的学者,为青年教师、研究生们集中讲解前沿模型的基本思想、基于Stata和Python实操估计,并就研究设计、论文选题、国家课题申报等展开辅导和释疑,帮助大家了解数据采集和文本分析。
本课程结合案例,将每部分中学到的知识通过实战方式加深各位对知识的理解,具有极强实用性,内容涵盖了数据分析比较重要和前沿的几个方面。例如江艇老师在前次寒假工作坊关于识别匹配的讲解,让学员有茅塞顿开的感觉;慧航老师与学员分享了最近几个月的最新研究。本次工作坊二位老师又有新的讲解内容与大家分享,给学员带来可能未见或不熟悉的最新微观数据因果识别技术。新加盟工作坊的邓老师乃活跃在国内爬虫文本分析领域的青年学者,为学员带来新的爬虫文本分析技术。根据形势发展需要,工作坊将继续根据各界反馈筹划新的论文撰写与课题申报等期次。
· 工作坊特色
方法应用为基:讲解经济、统计、管理等科学量化前沿方法的机理与Stata & Python实操
经典论文复制:讲解高质量经典论文如何使用前沿量化方法
突出研究设计:突出量化方法和经典论文背后的精巧研究设计
强化互动交流:强化讲师与学员之间的工作论文和研究计划交流
2
主讲嘉宾简介
江艇:香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文。曾应邀在多所高校讲授“应用微观计量经济学”短期前沿课程,学员反响热烈。
司继春(慧航):上海对外经贸大学统计与信息学院助理教授,主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实,大家更熟悉的是知乎上大名鼎鼎的[慧航],拥有 219,753 个关注者,获得过 110,578 次赞同,他就是司继春老师 —— [慧航]。
邓旭东(大邓):哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学分享数据采集和文本分析培训课程,运营【公众号:大邓和他的Python】主要分享Python、爬虫、文本分析、机器学习等相关内容。
3
课程安排
Day 1 上午
主讲人:江艇
课程安排:《匹配方法(上)》
1、如何从反事实框架理解匹配方法?
2、匹配能解决内生性问题么?
3、匹配与OLS的区别何在?
4、为什么说匹配的本质是良好的控制?
5、匹配是一种估计方法还是一种数据预处理手段?
重点文献:Dale and Krueger (2002), Imbens (2015)等,Stata实操
Day 1 下午
主讲人:江艇
课程安排:《匹配方法(下)》
1、如何选择协变量?
2、如何估计倾向得分?
3、如何删截样本?
4、如何构造匹配样本?
5、应该用协变量匹配还是倾向得分匹配?
重点文献:Aidt &Franck (2015), Dehejia and Wahba (1999, 2002)等, Stata实操
Day 2 上午
主讲人:江艇
课程安排:《双重差分方法(上)》
1、双重差分要求随机分组么?
2、如何根据不同的数据结构设定不同的估计方程?
3、双重差分方法的威胁有哪些?
4、如何展示和解释结果?
5、如何进行稳健性分析?
重点文献:Card & Krueger (1994), Nunn & Qian (2011), Qian (2008)等,Stata实操
Day 2 下午
主讲人:江艇
课程安排:《双重差分方法(下)》、《合成控制方法》
1、双重差分方法与匹配方法的结合
2、半参数双重差分方法
3、模糊双重差分方法
4、单个处理组个体的合成控制方法
5、多个处理组个体的合成控制方法
重点文献:Abadie (2005), Abadie et al (2010), Abadie et al (2015), Acemoglu et al (2016), de Chaisemartin and D’HaultfŒuille (2018), Derrien and Kecskes (2013), Fowlie et al (2012)等, Stata实操
Day 3 上午
主讲人:司继春(慧航)
课程安排:《统计基础与机器学习》
1、条件期望的概念和应用
2、如何估计条件期望1:OLS
3、预测:过拟合、欠拟合与交叉验证
4、如何估计条件期望2:广义线性模型
5、离散选择模型:Probit、Logit回归与分类树
学习材料:Wooldridge(2010)、周志华(2016)等,Python等实操
Day 3 下午
主讲人:司继春(慧航)
课程安排:《外生性条件下的推断》
1、作为因果推断的OLS:控制变量与固定效应
2、作为因果推断的OLS:系数的解释
3、作为因果推断的OLS:标准误的估计与统计推断
4、计量经济学中的离散选择模型:理论基础与解释
5、面板数据:固定效应、随机效应、交互固定效应
6、面板数据离散选择模型介绍
学习材料:Wooldridge(2010)、Train(2009)等,Stata实操
Day 4 上午
主讲人:司继春(慧航)
课程安排:《内生性条件下的推断》
1、内生性问题:何时出现内生性?
2、工具变量法:两阶段最小二乘
3、工具变量法:控制函数法
4、使用控制函数法解决非线性模型中的内生性
5、局部平均处理效应(LATE)
学习材料:Imbens and Angrit(1004)、Wooldridge(2010)等,Stata实操
Day 4 下午
主讲人:司继春(慧航)
课程安排:《非线性模型与结构模型前沿选讲》
1、样本选择模型
2、半结构的政策评价:充分统计量简介
3、需求估计:几乎完美的需求系统(AIDS)介绍
4、需求估计:离散选择模型
5、动态规划与动态离散选择模型(DDC)介绍
重点文献:Wooldridge(2010)、Train(2009)、Chetty(2009)、Deaton and Muellbauer(1980)、Rust(1987)等,Python & Matlab实操
Day 5 上午
主讲人:邓旭东(大邓)
课程安排:《Python基础语法》
1、Anaconda安装及使用;Jupyter notebook使用方法;第三方库安装方法
2、初识python(python语法)
3、数据结构(编程语言的单词)-list、str、dict、tuple、set
4、for循环、if逻辑 try-except (编程语言中的句法)
5、常用函数、常用库
Day 5 下午
主讲人:邓旭东(大邓)
课程安排:《数据采集-Python网络爬虫》
1、爬虫原理、设计思路;数据抓包(开发者工具使用方法)
2、网络访问库(requests、selenium);网页数据定位库-bs4、re
3、静态网站与动态网站区别
4、数据存储(txt,csv,json)
5、案例
例1:(静态)抓取大众点评网酒店数据;
例2:(动态)淘宝商品商品信息
例3:selenium抓取百度企业信用
Day 6 上午
主讲人:邓旭东(大邓)
课程安排:《初识文本分析 》
1、文本分析应用场景;文件的读取(txt、pdf、docx等)
2、中文分词-jieba库;数据清洗-re、flashtext;pyecharts库制作词云图
3、数据分析-pandas库
4、可视化库-matplotlib/seaborn
5、案例
例1:词频统计
例2:excel文件中时间及文本数据处理方法
例3:共现法构建专业情感词典
例4:基于词典法进行情感计算
重点文献:王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
Day 6 下午
主讲人:邓旭东(大邓)
课程安排:《文本分析(数据分析)进阶》
1、监督学习与非监督学习
2、使用机器学习方法进行文本分析的方法和步骤
3、表达文本数据信息的方式(one-hot、bag-of-words、TF-IDF)
4、理解特征矩阵、语料、文档、特征
5、机器学习库 sklearn语法学习
6、协同过滤-推荐系统
7、案例
例1:lda话题模型实战
例2:文本分类实战
重点文献:Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.
4
课程概览
· 主办:杭州国商智库信息技术服务有限公司
· 时间:2019年7月13-18日
· 地点:浙江 · 杭州 · 钱塘新区高教园区东区
· 主讲嘉宾:江艇;司继春(慧航);邓旭东(大邓)
· 授课内容:Stata & Python 实证前沿与爬虫分析
5
报名信息
参加对象:全国高等院校及研究机构从事经济科学研究的青年教师。尤其适合那些希望掌握高级实证方法,提升量化研究设计能力和国家课题申报能力的研究者。
参会费用:4800元/人,可开具发票。交通与食宿费自理,提供歌江维嘉大酒店周边住宿信息,并协助安排附近校内就餐事宜。同一单位或机构三人九折,五人八折,同一单位十人七五折(同一税号单位),在校学生可凭学生证补贴折扣200元/人。
住宿安排:工作坊签约四星级酒店,标间或大床房每天约350元,含自助早餐;或附近旅馆标间、大床房每天约200元。
报名时间:从即日起(按缴费顺序安排教室座位)。
报名咨询:19817117852;18458247922
交通路线指南:杭州东站搭乘地铁1号线下沙江滨方向(注意不要选择间隔的临平方向),40分钟即达报到地点:钱塘新区高教园区东区27号大街301号(地铁1号线云水站旁)歌江维嘉大酒店;在萧山国际机场打的约半小时到达钱塘新区高教园区东区歌江维嘉大酒店。
缴费信息:
单位:杭州国商智库信息技术服务有限公司
开户银行: 中国银行杭州大学城支行
银行账户:6232636200100260588
特别提示:为不影响各单位、老师、同学的日常工作和学习,工作坊安排在假期举办。如果一些机构暑假期间暂停财务工作,建议拟报名同学老师在之前办理相关事项,报到则可拿到发票,以免等到秋季开学办理而可能有所影响相关程序。
扫描下方二维码报名(请注明:单位—姓名),提供参会人员个人信息、单位相关信息后缴费。
下载报名材料:
链接:https://pan.baidu.com/s/1bjZUPwHYjAjM2XbcLIhH7Q
提取码:d4zj
请扫码关注我们!