重磅!2023 Stata寒假班来啦—连玉君+王群勇主讲
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会:Stata 寒假班-2023
PDF 课纲:https://file.lianxh.cn/KC/lianxh_PX.pdf
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
A. 课程概要
B. 授课嘉宾
C. 本次课程相对于往期课程的变化
⭕ 1. Stata 初级班
1.1 课程导引
1.2 专题介绍(Stata 初级班)
A1. Stata 简介
A2. 数据处理和程序
A3. 实证分析可视化
A4. 线性回归分析
A5. 模型设定和解释
A6. 静态面板数据模型
A7. 一篇 Top 期刊论文重现
A8. 自行研读-提供复现数据和代码
⭕ 2. Stata 高级班
2.1 课程导引
2.2 专题介绍(Stata 高级班)
B1. 广义线性模型 (GLM)
B2. 样本选择与自选择 (selection-treatment)
B3. 非参数和半参数估计 (NP-SNP)
B4. 基于再抽样的统计推断方法
B5. 惩罚回归 (PR-Lasso)
B6. 回归控制法 (RCM) 与合成控制法 (SCM)
⭕ 3. 面板数据和混频回归专题
3.1 课程导引
3.2 专题介绍
C1. 面板门限模型
C2. 面板平滑转换模型
C3. 受限因变量非线性面板模型
C4. 内生转换模型
C5. 面板异质性与截面相关
C6. 混频回归:宏观和微观数据结合
最后的话
⏳ 4. 报名和缴费信息
缴费方式
⛳ 5. 听课指南
5.1 软件和课件
5.2 实名制报名
⚽ 6. 助教招聘
说明和要求
A. 课程概要
⌚ 时间: 2023 年 1 月 7-17 日
☕ 方式: 网络直播
⭐ 授课教师: 连玉君 (初级+高级) || 王群勇 (面板数据专题)
⛵ 报名链接: http://junquan18903405450.mikecrm.com/kILLnGa
⛪ 课程详情: https://www.lianxh.cn
授课时间安排
A. 初级班:2023 年 1 月 07-09 日 (三天), 网络直播 + 20 天回放 B. 高级班:2023 年 1 月 11-13 日 (三天), 网络直播 + 20 天回放 C. 面板专题:2023 年 1 月 15-17 日 (三天), 网络直播 + 20 天回放 全程班 (A+B+C):2013 年 1 月 7-17 日, 网络直播 + 60 天回放
回放安排
A. 初级班:1月10-20日(11天);1月28日-2月5日(9天) B. 高级班:1月14-20日(7天);1月28日-2月9日(13天) C. 面板专题:1月18日-20日(3天);1月28日-2月13日(17天) 初级+高级:1月14-20日(7天);1月28日-3月1日(33天) 初级+面板:1月10-20日(8天,不含面板直播日);1月28日-2月28日(32天) 高级+高级:1月18-20日(3天);1月28日-3月5日(37天) 全程:1月18-20日(3天);1月28日-3月25日(57天)
B. 授课嘉宾
本次课程由连玉君老师主讲 Stata 初级班 和 高级班;王群勇老师主讲 面板数据专题。
连玉君,西安交通大学经济学博士,中山大学岭南学院副教授,博士生导师。已在《China Economic Review》、《Stata Journal》、《经济研究》、《管理世界》、《经济学(季刊)》、《金融研究》、《统计研究》等期刊发表论文 60 余篇。目前已完成 Panel VAR、Panel Threshold、Two-tier Stochastic Frontier 等计量模型的 Stata 实现程序,并编写过几十个小程序,如 lianxh
, ihelp
, sftt
, winsor2
, xtbalance
, bdiff
, ua
等。连玉君老师团队一直积极分享 Stata 应用中的经验,开设了 连享会-博客,连享会-知乎 等专栏,已在微信公众号 (连享会(ID: lianxh_cn)) 分享推文 1000 余篇,各平台阅读量逾 3000 万人次。
王群勇,经济学教授、博士生导师,南开大学数量经济研究所所长,中国数量经济学会常务理事,中国统计学会常务理事。主持国家自科基金、国家社科基金、教育部人文社科、国家统计局重大等多项课题。获得首届国家统计科技进步三等奖、天津市科技进步二等奖等多项荣誉。在《China Economic Review》、《Stata Journal》、《Journal of Family and Economics Issues》、《数量经济技术经济研究》、《统计研究》等SSCI和CSSCI期刊发表多篇论文,并担任期刊匿名审稿人。编写了 xthreg
(平衡面板及非平衡面板固定效应面板门限模型)、cointreg
(协整回归)、sax12
(X12-ARIMA季节调整)、sax13
(X-13ARIMA-SEATS季节调整)、stregress
(平滑转换模型)、xtstregress
(面板平滑转换模型)、midasreg
(混频回归)、mixrereess
等 Stata 程序。
C. 本次课程相对于往期课程的变化
初级班 新增了「实证分析可视化」专题,包括:FWL 定理、固定效应、DID 的图形解释;边际效应、分仓散点图、系数差异可视化,以及 Stata 绘图的基本架构。 模型设定 专题更新了 70% 以上的内容,包括:条件均值模型的解释、边际效应分析、反事实框架等。 高级班 的内容是全新的,包括: 广义线性模型:Logit/Probit/Count Data 模型等非线性模型都可以借助这一框架来理解。 非参数估计:以核函数为基础,这部分内容是理解 RDD 和各类前沿因果推断方法 (如非参数合成控制法、合成 DID、局部因果推断) 的基础。 惩罚回归和基于机器学习的因果推断:以 Lasso 为基础的各类惩罚回归,以及交叉验证为基础的各类模型估计和检验方法是各类基于机器学习的因果推断模型的基础,也是解决遗漏变量、自选择偏误等内生性问题的未来趋势。可以做个类比,White (1980) 提出的夹心稳健性标准误为各类标准误的估计提供了一个一般性的框架;而 Chernozhukov, Chetverikov, Demirer, Duflo, Hansen, and Newey 提出的 Double-Machine-Learning (DML) 则将是日后各类处理效应的估计提供了一般性框架。 回归控制法。这些方法是理解因果推断 (如 RDD,合成 DID),以及基于机器学习的因果推断的基础。 合成控制法。本次课程将新增由 Cattaneo et al. (2022) 提出的交错合成控制法,以及置信区间的估计 (优于以排序检验为基础的安慰剂检验)。 面板数据专题 由王群勇教授主讲,基本上涵盖了目前最热门的面板模型,尤其是基于面板数据的结构变化和混频特征。具体包括: 面板门限模型扩展 (允许非平行面板;允许高维固定效应) 面板平滑转换模型 各类受限因变量模型 (Probit, Logit, Tobit, 泊松模型等) 面板变系数模型 共同因素模型和交互固定效应模型 内生转换模型 混频回归
⭕ 1. Stata 初级班
时间: 2023 年 1 月 7-9 日 (三天) 方式: 网络直播 + 20 天回放 授课嘉宾: 连玉君 (中山大学) 授课安排
(1) 授课方式: 幻灯片+Stata16/17 实操演示,全程电子板书+Stata 演示截图,课后以 PDF 形式分享给学员
(2) 授课时间: 上午 9:00-12:00,下午 14:30-17:30 (17:30-18:00 答疑)。
(3) 全程答疑: 由 10 位经验丰富的同学组成的助教团队会在课程群中全程答疑,并对答疑接龙文档进行详细的记录和分类,公布于 课程主页/Wikis,参见 往期答疑。课程详情: https://www.lianxh.cn 报名链接: http://junquan18903405450.mikecrm.com/kILLnGa
1.1 课程导引
实证分析中,最伤神和耗时的事情莫过于研究设计和数据处理。在以往的授课中,很多同学和老师都是在听完了高级班的课程以后,又返回头来听初级班的内容。他们有一个共同的感触就是,没有一个扎实的基础,以及对计量经济学和 Stata 整体架构的认识,后续的学习成本会越来越高。
在初级班中,我力求将三天的课程设置成一个比较完整的体系,目的有二:
其一,希望大家经过三天的学习(尚需另外花费 1-2 个月的时间演练吸收),能对基本的统计和计量分析方法有所掌握,能读懂多数期刊论文中使用的分析方法;
其二,希望诸位能建立起 Stata 的基本架构,熟知 Stata 能做什么、如何做?以期为后续学习打下宽厚扎实的基础。
翻阅 Top 期刊上的论文,你会发现多数论文并没有使用非常复杂的方法,关键在于论文的想法或视角比较独特,并使用了恰当的方法来论证。这里的关键在于研究设计,而这在目前的计量教科书中鲜有涉及。为此,本次研讨班突出两个特点:一方面,我会努力把基础知识讲解透彻,进度上不求快;另一方面,我在每个专题中都会提供了 2-3 篇比较经典的论文,展示这些方法的合理应用。
在内容安排上,基本上遵循了由浅入深,循序渐进的原则。
第 1-3 讲依序介绍 Stata 的基本用法、数据处理、程序编写和可视化分析,学习这些内容无需太多的计量经济学基础,但对于提高实证分析能力和分析效率,大有裨益。
第 4-5 讲介绍文献中使用频率最高的线性回归模型,包括 OLS 的原理、结果的解释,以及虚拟变量和交乘项的使用等。对于这些内容的深刻理解和熟练掌握,构成了后续,多种主流实证模型的基础,例如,目前文献中广泛使用的固定效应模型 (FE),倍分法 (DID),断点回归设计 (RDD) 等方法,本质上就是在传统的线性模型基础上,增加一些虚拟变量或交乘项,配合巧妙的研究设计,来实现对不可观测的个体效应的控制,以及对政策效应的估计。
第 6 讲介绍固定效应模型 (FE),涉及基本的 FE,TWFE 模型和进阶的高维固定效应模型、交互固定效应模型。本讲是第 4 讲和第 5 讲内容的延伸和应用,是目前解决遗漏变量和内生性问题比较常用的方法,也是理解多期 DID,动态面板和面板门槛等进阶模型的基础。
具体说明如下:
在第 1-2 讲中,我会以一篇文章为实例,说明 Stata 的基本语法结构,并对数据处理过程中的关键问题进行介绍,如离群值的处理、文字变量的处理等。就我个人的经验而言,数据处理能力的高低直接决定实证分析的效率,而对于离群值等问题的处理是否妥善会直接影响全文结果的稳健性,是多数人不够重视但却至关重要的问题。此前有不少学完了高级班的同学又回炉初级班,便是感悟到了这一点。
第 3 讲介绍 Stata 编程的基础知识。但凡提及写程序,很多人都会产生恐惧心理,其实,一旦掌握了最基本的原理和语法格式,Stata 中的程序设定并没有想象的那么困难。更为重要的是,对于多数人而言,由于并不需要写完整的 ado 文档,因此只需要学会最基本的条件语句和循环语句即可,难度又会进一步降低。一旦掌握了基本的编程知识和理念,你的实证分析便开始进入「快车道」了。
第 4 讲和第 5 讲介绍实证分析中的模型设定和结果解释问题。很多人会觉得 OLS 很简单,但 Top 期刊中使用最多的仍然是 OLS,如何合理的构建模型、解释结果便成为实证分析中必须掌握的。我精选了大家经常面临的几个专题并结合论文进行讲解,包括:虚拟变量的使用、交乘项的使用和解释、分组回归的合理设定和假设检验。我会终点强调对条件期望函数和 FWL 定理的解读,这构成了理解因果模型、面板模型以及机器学习中多种方法的基础。首经贸的一个博士生发信息给我:「连老师,我发现只要把你初级里面的虚拟变量相关的知识完全掌握,很多复杂的方法就都好理解了,甚至可以自己解决问题。」,我的回复是:「那看来你是把相关的东西基本搞明白了,我每次上初级班的时候会花很多时间讲虚拟变量和交乘项,这构成了双重差分、断点回归、时间中断分析、面板数据模型等一系列模型的重要基础。」
第 6 讲介绍了目前广泛应用的 面板数据模型。由于面板资料的获取越来越方便,目前多数研究中使用的都是面板数据。在讲解这些模型的基本思想和估计方法的过程中,笔者会将重点放在模型含义和应用范围上来。例如,对于同一笔数据而言,何时采用 OLS 进行估计,何时采用 FE 估计?不同的方法之间有何差异和关联?结果背后的经济含义如何解读?掌握这些方法有助于大家合理控制内生性问题,以便得到更为可信的结论。
第 7 讲 会拆解一篇发表于 QJE 的论文。该文基本上涵盖了第 1-6 讲的主要内容。我们可以尝试用新的方法来研究文中涉及的问题。在此过程中,既能巩固对现有模型和方法的理解,也能够对比后续文献来确定新的研究主题。
1.2 专题介绍(Stata 初级班)
A1. Stata 简介
实证分析的基本流程和编程习惯 数据的导入和导出 执行命令和基本统计分析 基本统计量的呈现 基本统计分析 do 文件和 log 文件的使用 帮助文件的使用和外部命令的安装
A2. 数据处理和程序
数据的横向合并和纵向追加 重复样本值、缺漏值和离群值的处理 文字变量的处理 局域暂元和全局暂元(local, global) 控制语句(条件语句、循环语句) Stata 中的各类函数 Matrix 和 Mata
A3. 实证分析可视化
为什要可视化? Stata 绘图命令的架构 直方图与密度函数图: histogram
,kdensity
,biplot
分仓散点图: binscatter
,binscatter2
系数及系数差异的可视化呈现: coefplot
调节效应、倒 U 型关系及边际效应的可视化 面板数据、多个控制变量、高维固定效应模型的可视化 长期与短期关系的可视化 范文:2 篇 Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication- Sherman M G, Tookes H E. Female representation in the academic finance profession. Journal of Finance, 2022, 77(1): 317-365. -Link-, -cited-, -PDF-, -Replication-
A4. 线性回归分析
条件期望函数:OLS, MLE 与 MM 的关系 线性概率模型 OLS 估计和系数含义 FWL 定理 (Frisch-Waugh-Lovell) 假设检验和统计推断 稳健性标准误:Bootstrap、Jackknife、聚类调整 结果输出与呈现
A5. 模型设定和解释
控制变量:选取、含义、可视化 变量缩放 取对数:弹性与半弹性 虚拟变量与固定效应 交乘项、平方项、高阶项与调节效应 因子变量与边际效应分析 DID, RDD 与 RKD
A6. 静态面板数据模型
何谓个体效应?FE v.s. RE 高维固定效应模型 长差分 (long difference) 交互固定效应模型 异方差和序列相关(Bootstrap、Cluster 调整标准误) 面板模型中的非时变变量和宏观变量如何分析? 实证分析中的常见问题 Stata 实操 Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication-
A7. 一篇 Top 期刊论文重现
Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication- 简介: 文章研究了美国公司税和个人税对创新的影响。作者将发明人数据库、公司税率数据库,以及州级个人所得税和其他经济数据关联起来,从宏观和微观两个层面估计了税收对创新 (数量、质量、发生地等) 的影响。文中采用了多种识别策略,得到了非常一致的结论:(1) 高税率对创新的数量和发生地具有负面影响,但不会影响平均创新质量;(2) 州级层面的「税收-创新产出」弹性很大;(3) 公司税主要影响受雇发明者 (相对于自由职业者) 的创新产出和跨州流动性;而个人所得税则会对整体创新数量和发明人的流动性产生影响。 方法: 高维固定效应、长差分、交互固定效应 实证结果可视化:分仓散点图、长期效应 交乘项 Note: 我只挑选一些与 A1-A5 相关的内容来讲解。
A8. 自行研读-提供复现数据和代码
Sherman M G, Tookes H E. Female representation in the academic finance profession. Journal of Finance, 2022, 77(1): 317-365. -Link-, -cited-, -PDF-, -Replication- 该文研究了金融学术圈中的性别失衡现象。2009-2017 年,美国排名前 100 的商学院中的金融教师中,女性仅占 16.0%。性别失衡表现在几个方面:其一,在控制了研究能力后,更多的女性在排名较低的机构中任职,晋升为正教授的可行性相对较低,伴以薪酬较低。其二,女性发表的论文数量较少,但质量上不存在差异。其三,女性多与同性合作,表明她们的社会关系网较小。时间序列数据表明,上述性别差距正在缩小。 该文没有使用任何复杂的回归方法,仅使用了固定效应模型。但在统计分析和结果可视化方面做了很多工作,是 Stata 入门学习的绝佳范本。 方法: 各种统计分析,列表和图形呈现: egen
,foreach
OLS, 高维固定效应模型, 交乘项, 因子变量: reghdfe
结果可视化: coefplot
结果输出: estadd
,estout
,esttab
,
温馨提示: 开课前请自学如下内容
a. 预习: 请提前观看 连玉君公开课:Stata 33 讲 b. 预习: 连玉君公开课-直击面板数据, 课件。 c. 预习: 连玉君 B 站视频:Stata程序的编写和发布,Stata 程序基础 d. 预习: 连享会公开课:计量基础及 Stata 应用
⭕ 2. Stata 高级班
时间: 2023 年 1 月 11-13 日 (三天) 方式: 网络直播 + 20 天回放 授课嘉宾: 连玉君 (中山大学) 授课安排
(1) 授课方式: 幻灯片+Stata16/17 实操演示,全程电子板书+Stata 演示截图,课后以 PDF 形式分享给学员
(2) 授课时间: 上午 9:00-12:00,下午 14:30-17:30 (17:30-18:00 答疑)。
(3) 全程答疑: 由 10 位经验丰富的同学组成的助教团队会在课程群中全程答疑,并对答疑接龙文档进行详细的记录和分类,公布于 课程主页/Wikis,参见 往期答疑。课程详情: https://www.lianxh.cn 报名链接: http://junquan18903405450.mikecrm.com/kILLnGa
2.1 课程导引
改版高级班的想法已经酝酿并准备了一年多,有很多思考,因此,虽然我反复删减,但这个课程介绍似乎仍然有点长。
我想通过梳理实证研究方法的发展趋势,对日后的学习方向和高级班的定位做些解读。
在过去的十年中,实证研究的方法发生了很大的变化。一方面,以「因果推断」为导向,涌现了多种估计方法,如 DID,RDD,匹配,合成控制法,回归控制法,聚束分析法 (bunching) 等;另一方面,得益于大数据和机器学习/统计学习的快速发展,各个领域之间的交叉和融合不断加速。面对此情此景,有些人可以快速适应,而有些人则颇感茫然,甚至担忧自己是否正在被时代抛弃。然而,稍加分析和比对就会发现,上述两个趋势背后并未新增太多令人望尘莫及的高深理论:OLS 仍旧是核心技术,「反事实」则是灵魂,新闯入的好像只有「稀疏性」和「降维」而已。大家会发现,有一些核心的概念和方法频繁地交错出现在各个领域。只要掌握了这些公共的、基础性的方法和理论就能做到「以不变应万变」。
举几个例子:读文献时大家会频繁地见到「交叉验证 (CV)」、「自抽样 (Bootstrap)」、「去一法 (Leave one out, LOO)」这些名词,但论文中往往不会深入解释这些名词的含义和具体的操作方法。因为,作者通常会把这些方法作为「常识」。然而,对于此前未曾接触过这些方法的读者而言,自我怀疑和困惑的心情会始终如影随形,导致对整篇论文的理解大打折扣,甚至不少人会选择中途放弃。事实上,这些方法的原理都很简单,核心思想都是通过「再抽样 (resampling)」来构造经验样本或经验分布,从而完成统计推断。
再比如,在 DID、RDD、SCM、PSM、bunching 等模型中,基本上都会同时采用参数估计和非参数估计,经常会提及「核匹配」、「局部核估计」等名词,其背后其实都对应着「核函数」这个概念,本质也很简单:核函数其实就是一个权重分配机制,离我们的分析对象越近的观察值得到的权重越大,否则越小,文献中使用的数十种核函数虽然形式上很复杂,但其实都近似为 ( 表示距离或其函数变换)。考虑的再细致一些就是限制一个范围 ,即所谓的「窗宽 (band width)」,以免纳入那些明显无关的观察值,以提高估计的精度。非参估计有其独特优势:不存在模型误设问题;能更好地捕捉非线性特征,等等。因此,了解非参数估计的核心思想和基本模型设定尤为必要。最近在政策评价中的新秀方法「聚束效应分析 (bunching)」中由于涉及局部概率密度的估计,也主要依赖于非参和半参估计。简言之,不了解半参和非参的基本概念,会导致我们为自己关上了一扇门。
在实证分析尤其是基于微观数据的实证分析中,被解释变量经常是离散变量,此时我们研究的目标将从「条件期望」转变为「条件概率」,换言之,我们此时关注:给定 后, (如,读博士) 的概率。由于概率的取值范围介于 0 和 1 之间,传统的线性回归模型无法直接使用,但我们可以对线性部分 进行转换,以便让转换后的 介于 和 之间。这就衍生出「广义线性回归模型 (GLM)」。大家平时经常听到的 Logit, Probit, Poisson 模型,甚至 Tobit 模型、生存分析模型等都可以在此框架下进行分析。在机器学习/统计学习的主流教科书中,也都会单列一章介绍 GLM,例如 Hastie et al. (2015, PDF, Chapter 2)。虽然其模型形式稍显复杂,边际效应也不再是常数,但却为系数的经济含义提供了更丰富的信息。在 GLM 架构下,各类离散选择模型都很容易理解,进一步扩展到 Lasso 等惩罚回归以便适应高维数据也很顺畅。简言之,GLM 是因果推断和机器学习中的一个重要组件。
至于机器学习,虽然市面上流行的教科书都会依序讲解十几种常用的方法,诸如判别分析、随机森林、神经网络、支持向量机等,但对于经济、金融领域而言,最为常用的是以 Lasso 为核心的惩罚回归,因为它具有变量筛选的功能,在应对高维数据 () 时非常有用。很多因果推断方法都会纳入 Lasso,如 Lasso-SCM (合成控制法),Lasso-IV,double maching learning (DML) 等。虽然 Lasso 在技术上有一定的复杂度,但其基本思想却容易接受,Stata 中的实操也非常方便。
2.2 专题介绍(Stata 高级班)
此次高级班共包括六讲:B1 将在广义线性模型架构下介绍 Logit, Probit, Count Data 等离散选择模型,这些模型是随后各讲的基础;B2 从选择性偏差问题入手介绍自选择模型和处理效应模型,它们常用于应对内生性问题;B3 介绍非参数估计的基本思想和估计方法;B4 介绍 Bootstrap, 交叉验证等统计推断he模型筛选方法,是 B5 和 B6 的基础。最后两讲介绍惩罚回归两个非常相似的反事实估计方法。
B1. 广义线性模型 (GLM)
从条件期望到条件概率 估计方法:MLE Logit, Probit 和计数模型 (Count Data models) 广义线性回归模型 (GLM) 边际效应分析和解读 Stata 应用: 方法: reghdfe
,线性概率模型方法:DID,PSM+DID,Probit-margins Chen, Yan, and Onur Kesten. 2017, Chinese College Admissions and School Choice Reforms: A Theoretical Analysis. Journal of Political Economy, 125 (1): 99–139. -Link-, -PDF-. 理论部分 Chen, Yan, et al., 2020, An Empirical Evaluation of Chinese College Admissions Reforms through a Natural Experiment.” Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(50): 31696–31705. -Link-, -PDF-, -附件附表-, -Stata Data-codes- 实证 Fisman, R., J. Shi, Y. Wang, W. Wu, 2020, Social ties and the selection of China’s political elite, American Economic Review, 110 (6): 1752-1781. -Link-, -PDF1-, -cited-, -Replication-
B2. 样本选择与自选择 (selection-treatment)
截断、截堵与选择性偏差 Tobit 模型 Heckman 选择模型 处理效应模型 两部模型和双栏模型 Stata 实操:范文 2 篇
B3. 非参数和半参数估计 (NP-SNP)
分布函数和密度函数 核函数 局部线性回归 局部多项式回归 partial linear regression (PLS) 应用:断点回归分析 (RDD) 范文: Chen Yu, S. Shi, Y. Tang. 2019, Valuing the urban hukou in China: Evidence from a regression discontinuity design for housing prices. The Journal of Development Economics, 141 (2019) 102381. -Link-,-PDF- Ludwig, J., D. L. Miller, 2007, Does head start improve children's life chances? Evidence from a regression discontinuity design, The Quarterly Journal of Economics, 122 (1): 159-208. -Link-, -PDF-
B4. 基于再抽样的统计推断方法
Bootstrap (自抽样) Jackknife (去一法, LOO) 交叉验证 (CV) 变量筛选规则:AIC, BIC, MBIC 应用: AP1:组间系数差异检验、面板门槛效应检验 AP2:回归控制法 AP3:Lasso-合成控制法 参考文献: Hansen, B. E., 1999, Threshold effects in non-dynamic panels: Estimation, testing, and inference, Journal of Econometrics, 93 (2): 345-368. -Link-, -PDF- Abadie, A., J. L’Hour, 2021, A penalized synthetic control estimator for disaggregated data, Journal of the American Statistical Association, 116 (536): 1817-1834. -Link-, -PDF-
B5. 惩罚回归 (PR-Lasso)
Lasso 已经成为变量筛选的一个重要手段。 高维数据/大数据的挑战; 偏差-方差权衡 岭回归、Lasso、弹性网、自适应 Lasso 扩展 Lasso 模型 adaptive Lasso IV - Lasso Post - Lasso Double robust regression (DR) Double Machine Learning (DML) 参考文献: Chernozhukov, Victor, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, and Whitney Newey. 2017. "Double/Debiased/Neyman Machine Learning of Treatment Effects." American Economic Review, 107 (5): 261-265. -Link-, -PDF-, -Replication-R, -2- Chernozhukov, V., D. Chetverikov, M. Demirer, E. Duflo, C. Hansen, W. Newey,J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters, The Econometrics Journal, 21 (1): C1-C68. -Link-, -PDF-, Replication
B6. 回归控制法 (RCM) 与合成控制法 (SCM)
回归控制法和合成控制法简介 Lasso-RCM:基于 Lasso 等惩罚回归的 RCM Lasso-SCM:基于 Lasso 等惩罚回归的 SCM、 队列 SCM 及处理效应的置信区间 (New) RCM 与 SCM 的对比 参考文献: Abadie, A., A. Diamond, J. Hainmueller, 2010, Synthetic control methods for comparative case studies: Estimating the effect of california's tobacco control program, Journal of the American Statistical Association, 105 (490): 493-505. PDF Hisao (2012) Hsiao, C., Q. Zhou, 2019, Panel parametric, semiparametric, and nonparametric construction of counterfactuals, Journal of Applied Econometrics, 34 (4): 463-481. -Link-, -PDF- Cattaneo et al. (2022)
⭕ 3. 面板数据和混频回归专题
时间: 2023 年 1 月 15-17 日 (三天) 方式: 网络直播 + 20 天回放 授课嘉宾: 王群勇 (南开大学) 授课安排
(1) 授课方式: 幻灯片+Stata16/17 实操演示,全程电子板书+Stata 演示截图,课后以 PDF 形式分享给学员
(2) 授课时间: 上午 9:00-12:00,下午 14:30-17:30 (17:30-18:00 答疑)。
(3) 全程答疑: 由 10 位经验丰富的同学组成的助教团队会在课程群中全程答疑,并对答疑接龙文档进行详细的记录和分类,公布于 课程主页/Wikis,参见 往期答疑。课程详情: https://www.lianxh.cn 报名链接: http://junquan18903405450.mikecrm.com/kILLnGa
3.1 课程导引
C1 讲 介绍面板门槛模型。在实证分析中,经常要处理结构变化问题,目前主要使用交乘项和分组回归等方式,但这两种设定方法都需要预先知道或假设结构变化点,使其合理性颇受质疑。本讲介绍的面板门槛模型则基于「让数据说话」的原则,自动搜索结构变化点,从而克服了上述方法的局限。Hansen (1999) 提出的门限模型只适用于平行面板数据,也无法应对高维固定效应。我和连玉君老师编写的 xthreg2
命令进行了扩展:可以用于非平行面板;亦可以借助 reghdfe
来控制高维固定效应。
C2 讲 介绍的面板平滑转换模型采用了另一种方式来刻画非线性关系,它通过引入转换函数 (如指数平滑转移函数或Logistic平滑转移函数),允许平滑的渐进变化,而不是像门限模型那样的突变。本讲还将介绍面板数据中更一般的非线性函数的设定与估计方法,比如面板固定效应不变替代弹性(CES)生产函数等,这在研究经济增长、要素替代弹性等领域都有非常重要的应用。
C3 讲 介绍受限因变量模型。因变量受限是微观数据中的典型特征,包括因变量为离散选择 (0-1 类型、排序类型、或者多项选择)、计数形式等。线性固定效应模型无法描述这类数据的分布特征。本讲介绍在面板数据中如何处理这类变量的固定效应或随机效应,包括面板 Probit/Logit 模型、面板 Tobit 模型、面板泊松回归等。这些模型适用于研究企业创新、环境保护、微观个体消费、上市公司违规违法等行为。
C4 讲 主要介绍在政策变量是内生情况下如何估计处理效应的因果推断方法。多数因果推断都将政策视作外生的,而现实中很多政策具有严重的内生性,比如企业或家庭可能存在自选择问题。一些因果推断方法(比如匹配法、DID 等)都只能在某些角度部分地解决了内生性问题,而双向因果关系、遗漏时变重要变量等导致的内生性问题对结论仍然存在关键威胁。本讲介绍的内生转换模型在处理此类问题时独具优势,也可以作为其它内生性处理方法的补充工具,用于稳健性检验。
C5 讲 主要介绍如何有效地处理面板中的异质性问题和截面相关问题。异质性和截面相关是面板数据的典型特征。这种异质性表现为形形色色,可以是观测到的,也可能是看不到的;可能表现在个体效应上,也可能表现在变量的效应上。截面相关也具有多种可能的表现,不同的表现对模型结论的影响是不同的。在国际贸易、区域经济增长、财政、企业投融资等行为的研究中,若无法有效控制共同因素导致的截面相关和序列相关,将会导致结果的严重偏误。
C6 讲 将结合我新近编写的 midasreg
和 mixregress
两个程序,介绍如何将混频数据或混合数据更有效地统一到模型中。混频数据非常普遍,研究者可以获得的数据经常是不同频率的,比如模型中有的指标是年度的,有的是季度(或月度)的。另外,有的指标是宏观层面的,有的指标是微观层面的。在当前「从微观视角研究宏观问题」、「基于宏观背景研究微观问题」的大背景下,混频数据模型将是一个重要的研究工具。
3.2 专题介绍
C1. 面板门限模型
非线性模型概述 门限模型 固定效应面板门限模型 非平行面板门限模型 预读文献: Hansen, B. E., 1999, Threshold effects in non-dynamic panels: Estimation, testing, and inference, Journal of Econometrics, 93 (2): 345-368. -Link-, -PDF-, -cited-4400+次 Wang, Q., 2015, Fixed-effect panel threshold model using stata, Stata Journal, 15: 121-134. -Link-, -PDF-, -cited240+次 应用:1-2 篇,随课件发布
C2. 面板平滑转换模型
平滑转换模型 估计与检验 预读文献: González, A., T. Teräsvirta, D. v. Dijk, Y. Yang, 2017, Panel smooth transition regression models, Working paper / Department of Statistics, Uppsala University. PDF, -Cited-800+次 应用:1-2 篇,随课件发布
C3. 受限因变量非线性面板模型
非线性面板 (NLS 估计) 面板 Probit/Logit 面板 Tobit(随机效应与相关随机效应) 面板泊松回归(随机效应与固定效应) 预读文献: Cruz-Gonzalez M., Iván Fernández-Val, Martin Weidner, 2017, Bias Corrections for Probit and Logit Models with Two-way Fixed Effects, Stata Journal, 17(3): 517–545. -PDF-, -PDF2- Alexander Plum, 2014, Simulated Multivariate Random-Effects Probit Models for Unbalanced Panels, Stata Journal, 14(2): 259–279. -PDF- Sergio Correia, Paulo Guimarães, Tom Z Zylkin, 2020, Fast Poisson estimation with high-dimensional fixed effects, Stata Journal, 20(1): 95–115. -PDF-, -PDF2- 应用:1-2 篇,随课件发布
C4. 内生转换模型
线性模型的内生转换模型 非线性模型的内生转换模型 内生处理效应 预读文献: Miranda A., 2004, FIML Estimation of an Endogenous Switching Model for Count Data, Stata Journal, 4(1): 40–49. -PDF- Lokshin M., Zurab Sajaia, 2004, Maximum Likelihood Estimation of Endogenous Switching Regression Models, Stata Journal, 4(3): 282–289. -PDF- Miranda A., Sophia Rabe-Hesketh, 2006, Maximum Likelihood Estimation of Endogenous Switching and Sample Selection Models for Binary, Ordinal, and Count Variables, Stata Journal, 6(3): 285–308. -PDF- Bostwick, V. K., D. G. Steigerwald, 2014, Obtaining Critical Values for Test of Markov Regime Switching, Stata Journal, 14(3): 481–498. -PDF- Takuya Hasebe, 2020, Endogenous switching regression model and treatment effects of count-data outcome, 20(3): 627–646. -PDF-, -Link- 应用:1-2 篇,随课件发布
C5. 面板异质性与截面相关
面板交互固定效应 面板变系数模型 面板截面相关 预读文献: Moon, H. R., M. Weidner, 2015, Linear regression for panel with unknown number of factors as interactive fixed effects, Econometrica, 83 (4): 1543-1579. -Link-, -PDF- Bai, J. S., 2009, Panel data models with interactive fixed effects, Econometrica, 77 (4): 1229-1279. -Link-, -PDF- Pesaran, M. H., 2006, Estimation and inference in large heterogeneous panels with a multifactor error structure, Econometrica, 74 (4): 967-1012. [-Link-](https://doi.org/DOI 10.1111/j.1468-0262.2006.00692.x), [-PDF-](https://sci-hub.ren/DOI 10.1111/j.1468-0262.2006.00692.x) Kahn, M. E., K. Mohaddes, R. N. C. Ng, M. H. Pesaran, M. Raissi,J.-C. Yang, 2021, Long-term macroeconomic effects of climate change: A cross-country analysis, Energy Economics, 104: 105624. -Link-, -PDF1-, -PDF2-, -Replication-, Cited. 应用:1-2 篇,随课件发布
C6. 混频回归:宏观和微观数据结合
混频回归模型(mixed frequency data sampling) 混合回归模型(mixed data sampling) 预读文献: Ghysels, E., A. Sinko, R. Valkanov, 2007, Midas regressions: Further results and new directions, Econometric Reviews, 26 (1): 53-90. -Link-, -PDF- Ghysels, E., H. Qian, 2019, Estimating midas regressions via ols with polynomial parameter profiling, Econometrics and Statistics, 9: 1-16. -Link-, -PDF- 应用:1-2 篇,随课件发布
最后的话
需要特别强调的是,自我提升从来都不是件轻松的事情。因此,在开课之前,大家务必认真研读每一篇论文,了解其研究背景、研究思路、计量方法和主要结论,带着问题听课。同时,也建议大家在开课前务必掌握文献的检索方法,学会使用微软学术、谷歌学术和 Endnote 等工具,以便追踪每篇论文的后续进展,发掘新的研究主题。
⏳ 4. 报名和缴费信息
主办方: 太原君泉教育咨询有限公司
标准费用(初级/高级/面板专题班 单班报名):3700 元/班/人
优惠方案:
专题课老学员单班报名: 9 折,3330 元/人 学生(需提供学生证/卡照片):9 折,3330 元/人 会员单班报名: 85折,3145 元/人 三班任意两班组合报名: 6100 元/人 全程班报名: 9000 元/人 温馨提示: 以上各项优惠不能叠加使用。
联系方式:
邮箱:wjx004@sina.com 王老师:18903405450 (微信同号) 李老师:18636102467 (微信同号)
报名链接: http://junquan18903405450.mikecrm.com/kILLnGa
⏩ 长按/扫描二维码报名:
缴费方式
方式 1:对公转账
户名:太原君泉教育咨询有限公司 账号:35117530000023891 (山西省太原市晋商银行南中环支行) 温馨提示: 对公转账时,请务必提供「汇款人姓名-单位」信息,以便确认。
方式 2:扫码支付
温馨提示:
扫码支付后,请将「付款记录」截屏发给王老师-18903405450(微信同号)
⛳ 5. 听课指南
5.1 软件和课件
课件/计量软件: Stata,提供全套 Stata 实操程序、数据和 dofiles。建议使用 Stata 16.0 或更高版本。 听课软件:本次课程可以在手机,ipad ,平板以及 windows/Mac 系统的电脑上听课,其中win不支持台式机。
特别提示:
为保护讲师的知识产权和您的账户安全,系统会自动在您观看的视频中嵌入您的「用户名」信息 一个账号绑定一个设备,且听课电脑不能外接显示屏,请大家提前准备好自己的听课设备。 本课程为虚拟产品,一经报名,不得退换。
5.2 实名制报名
本次课程实行实名参与,具体要求如下:
高校老师/同学报名时需要向连享会课程负责人 提供真实姓名,并附教师证/学生证图片; 研究所及其他单位报名需提供 能够证明姓名以及工作单位的证明; 报名即默认同意「连享会版权保护协议条款」。
⚽ 6. 助教招聘
说明和要求
名额: 30 名 (初级、高级和面板专题班各 10 名) 任务: A. 课前准备:协助完成 3 篇介绍 Stata 和计量经济学基础知识的文档; B. 开课前答疑:协助学员安装课件和软件,在微信群中回答一些常见问题; C. 上课期间答疑:针对前一天学习的内容,在微信群中答疑 (8:00-9:00,19:00-22:00); Note: 下午 5:30-6:00 的课后答疑由主讲教师负责。 要求: 热心、尽职,熟悉 Stata 的基本语法和常用命令,能对常见问题进行解答和记录 特别说明: 往期按期完成任务的助教可以直接联系连老师直录。 截止时间: 2022年12月31日 (将于1月3日公布遴选结果于连享会主页 lianxh.cn)
申请链接: https://www.wjx.top/vj/OT8gdao.aspx
扫码填写助教申请资料:
课程详情: https://www.lianxh.cn
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。