查看原文
其他

在实证研究中,“研究设计”的作用不能被低估!要想完成好它,需要注意哪些问题?

杯中鸟911 经管定量笔记 2022-12-31

点击上面“蓝字”关注我们!



在实证研究中,“研究设计”的作用不能被低估!要想完成好它,需要注意哪些问题?
屏幕前的你我他,你在撰写实证论文时,你轻视过“研究设计”部分内容的撰写吗?你是否用一片严谨的心去对待这部分内容?如果是,要想漂亮地完成它,你知道需要注意哪些问题吗? 相信大家都知道,相对于传统的理论定性研究,实证研究它的最为突出特点在于“实”和“证”两个字的内涵上。也正是因为这两个字的作用和意义,才使得当前几乎所有社科领域的研究逐渐走向“定量”的研究范式。 为什么会这么说呢?这可能得归因于科学研究的“科学性”和“严谨性”。相信大家都认同一点的是,相对于定性范式研究,合规科学设计下的实证研究往往更具有说服力,其所得的结论经得住经验证据的考证,用客观的数据和科学的统计方法来解释和分析现实世界的多种现象。 实际上,实证之“实”其含义在于用事实证据,用历史经验,用客观的数据,这是实证的基础;实证之“证”其含义在于用科学的方法来判断和证实,用严谨的设计思路来进行统计分析,这就是方法论的基本原则。 因此,在某种程度上来说,实证研究能在学术界发展中取得如此的影响力,科学性和严谨性起到了至关重要的作用。显然,这就要求我们在实证研究过程中尤为关注和重视实证研究的基础设计工作。 按照研究布局来看,一篇实证论文的“实证”起点在于“研究设计”部分。有人说,研究设计的部分撰写质量,将会决定你这篇文章的高度和品位,它犹如一个论文“撰写思路”指南针,为你后文所有的实证发展和模型分析、变量说明奠定了基础,描绘了清晰轮廓,使得论文的内容和思路通熟易懂! 笔者是同意这一观点的!该评价一针见血地指出了实证研究的核心“技术”所在!这是实证研究“严谨性”最为突出的地方。为什么会这么评价呢?因为“研究设计”是实证研究中最先展现“实证研究”定量思想的部分,它不仅能呈现实证论文的严谨性程度,而且还能直接反映出作者的实证训练的能力,从而间接地影响到论文质量、发表顺利以及读者阅览效果。 毫不犹豫地说,基础的研究设计工作可以说是一篇实证文章的重中之中,也是凸显作者实证基础知识储备能力的方式,从而这就决定了你所撰写论文的质量水平。 一般而言,“研究设计”通常会被安排在一篇实证论文的第三(或四)部分,处在第二部分“理论分析与研究假设”和第四部分“实证分析”之间。毫不夸张地说,“研究设计”部分在实证论文撰写中起到了“承上启下”的传递作用,即这部分内容为后文“实证分析”来验证前文“理论分析与研究假设”的观点提供了一套清晰科学的方法论体系。 所以,笔者认为“研究设计”在一篇实证论文中的作用不能被低估、被忽视。相反,我们还应该重视它的存在,认真谨慎地对待这部分内容的撰写和阅读,能把这部分“做好”就意味着一篇实证论文已经完成了一半(50%)。 鉴于此,为了漂亮地完成“研究设计”这部分内容,我们需要注意哪些问题呢?根据多年实证写作经验和文献积累总结,笔者将从“研究设计”内容的各个子部分来阐述在撰写该部分时需要哪些问题。 1、研究样本选择和来源 研究样本是实证研究的起点,要说明实证分析的数据对象是什么,它来源于途径或渠道是什么,是公开透明的合规数据样本,还是自己手工收集整理的数据样本,这是需要我们在撰写时要重视的问题!一般来讲,经管方面的学术研究,其研究样本主要来源于三个方面: 一种是公开透明的样本对象,这主要经过国家机关部门进行质量把关、审计合规的数据。在现实科研工作中,这类数据常见的包括中国上市公司样本数据、中国工业企业数据、国家统计年鉴(省级、市级等)……在运用这类样本数据时,我们一般需要交代样本的来源数据库是什么,以及需要按照一定的标准进行筛选,如剔除金融行业样本、剔除数据缺失样本、剔除极端值对本文结果的影响,对所有连续变量进行Winsorize缩尾,最后还需要说明最终所获取的有效样本量有多少…… 另一种是手工整理的数据样本对象,包括地方官员晋升数据、地方财政预算数据、地方环境污染数据、产业政策等诸多样本数据。具体到这些样本数据,突出它的严谨性、真实性十分重要,在描述样本数据时需要交代这些数据从哪里手工收集整理的,具体文本来源网址或书籍名称是什么。譬如:产业政策数据,可以描述为:本文产业政策数据为手工搜集,具体方法为登陆各地政府网站,逐年逐条地搜集政府发布的产业政策,在搜集到所有的产业政策后逐条阅读产业政策内容并剔除那些没有明确指出扶持行业的政策。 还有一种样本数据是被学界公认的权威数据,这类数据一般是由权威专家或机构发布的,譬如:市场化指数,来自于樊纲等编制的《中国市场化指数——各地区市场化相对进程2011报告》。 2、模型设计 模型设计也是实证研究中的重要组成部分。一般来讲,实证模型主要根据本文所考察内容来设计,或者根据前文所提出的研究假设来设计。在描述多元线性模型时,作者还需要明了地交代因变量、自变量和控制变量,以及残差项。 当然,有一点需要注意的是,最为严谨的模样设计思路在于站在“巨人”的肩膀上前进,即根据已有权威学者或文献的模型,来设计本文的实证模样,需要标注模型引用的文献。如:借鉴张三、李四(2018)的模型设计,本文设计如下多元线性模型:……或者,本文基于***模型(张三、李四,2018)和***假说,本文设计如下基准模型考察…… 当因变量为二元变量(0~1)哑变量时,作者可以选择的模型有概率模型probit和逻辑斯特模型logit。在处理相应的内生性问题时,可以采用对应的Ivprobit和Ivlogit工具变量法(推文导读因变量为二元变量时的内生性问题检验方法!)。 当因变量为连续变量时,作者可以选择的通常模型是最小二乘法OLS。在处理相应的内生性问题时,可以采用对应的IV工具变量法。如果因变量的连续变量含有大量的0样本时,作者可以选择的模型有最大似然估计法Tobit;在处理相应的内生性问题时,可以采用对应的IVtobit工具变量法。 当因变量为排序变量(0、1、2、3……)时,作者可以选择的模型有排序模型Ordered probit和排序模型Ordered logit。在处理相应的内生性问题时,可以采用ERM处理内生性问题的方法。这个ERM框架的优良之处在于不管你的内生性变量是连续性、二值性或有序性的,他都可以通过一个option通过工具变量进行回归。 3、变量选择与设计 变量选择与设计,可以说认识实证分析的基础。它的正确撰写,可以让读者更容易地了解实证方法,掌握实证分析的统计数据,理解基本的经济学内涵。 在模型设计的基础上,文章实证方法模型给我们设计变量提供了清晰的方向。其中,模型变量的选择和设计需要分类管理,主要体现在以下三个方面: 一是因变量的选择设计。针对一些成熟的变量,相关变量的设计,作者最好选择一些权威学者或文献作为引用参考,并备注文献资料来源。 二是自变量的选择设计。同样地,针对一些成熟的变量,相关变量的设计,作者最好选择一些权威学者或文献作为引用参考,并备注文献资料来源。但是,考虑到减轻因变量和自变量间可能存在的内生性问题,在设计自变量时一般可以选择自变量的滞后一期作为实证分析的基础,在这部分内容里可以对此进行说明。 当然,针对一些需要一定方法计算的因变量和自变量,作者在这部分内容中需要详细阐述各变量的计算方法和相关模型。譬如:融资约束变量的SA指数法,其计算过程就需要作者予以详细说明。而且,如果某一变量有多种度量方法,作者可以选择其他度量方法作为稳健性检验的思路,即“变量替换法”(推文导读实证研究中稳健性检验的思路有哪些?)。 还有一个特殊的变量选择与设计情景,那就是针对某一变量有很多度量方法,这个时候作者一般选取哪一种呢?笔者认为,首先,需要根据论文内容的基本情况来定,并说明本文选择这种度量方法,而不是其他方法的缘由。其次,作者可以根据数据采集整理情况来选择,因为你所掌握的数据并不能满足变量设计的基本需要,譬如:某变量的设计需要企业的TobinQ市值,到田野调研的数据无法提供,或者未上市的企业无法获知,这个时间我们可以排除这类方法的引用。最后,是一种可能最为流氓的抉择方法,即实证分析中那种方法最好用、操作方式最简单、结果最好,我们就用那种方法,但这个需要你提供排除其他方法引用的理由。 三是控制变量的选择设计。实际上,所选择的控制变量,都是选择一些常见的影响因变量的因素变量。如何选择这些控制变量,可能是一件比较棘手的事情。但是,依然有法可依。一是可以参考其他相关文献资料,二是根据自己掌握的理论知识来选择变量,三是根据一些经济常识来选择。此外,这变量都需要进行必要的简单定义以及度量方法的说明,这是必须的一项操作。 但是,考虑到减轻因变量和控制变量间可能存在的内生性问题,在设计控制变量时一般可以选择控制变量的滞后一期作为实证分析的基础,在这部分内容里可以对此进行说明。 当然,前文模型的设计中如果涉及到调节变量和中介变量,也需要按照因变量、自变量的基本选择设计思路来进行。其中,调节变量的设计下所形成的交叉项,笔者建议在后续实证分析中使用进行中心化处理,并由此形成的交叉项(推文导读中心化处理方法解读!)。 4、描述性统计和相关性分析。 首先,在描述性统计方面,作者没必要面面俱到,可以着重分析因变量和自变量的统计分析结果,主要分析变量的均值和最大值、最小值,必要时还应分析变量分布的差异性,也就是变量的标准差。在这里,作者也可以进行一项“锦上添花”的操作,如果针对某一变量的均值及其分布与其他已有文献基本保持一,作者可以在数据统计分析时予以备注参考文献,以提高文章内容的质量和严谨性。针对其他变量, 其次,在相关性分析方面,作者也可以无需面面俱到,专注于因变量和自变量之间的相关性分析结果即可。如果自变量和因变量的相关性系数的符号符合前文的研究假设的预期,作者可以在此予以说明,“这支持了本文的研究假设的预期。”。此外,在相关性分析部分,我们还应关注自变量和控制变量间相关系数的大小。为什么要关注呢?很多学者以它们间相关系数来初步判定模型设计是否存在多重共线性问题,如果相关系数较大(超过0.5),则可能表示变量之间存在一定的多重共线性问题,而这将可能对本文的结论造成偏误。但这种判定方法往往是不稳健的,需要进行膨胀因子分析方法(VIF)予以排除。 在膨胀因子分析时,多重共线性问题的判断需要参考一定的临界值,这个临界值VIF等于10。如果某变量的膨胀因子大于10,则意味着存在一定的多重共线性问题,需要作者予以考虑和排除。如果所有变量的膨胀因子值均处于10以下,即便存在相关性系数大于5,也可判定为所设计模型不存在较为严重的多重共线性问题(推文导读实证分析中多重共线性问题)。 显然,以上四点看法是笔者总结的经验要点,也是研究设计部分中的核心内容,但这部分想要完美地完成它,不仅需要作者具备系统性的知识储备,需要熟悉相关领域的理论知识,而且还需要掌握相关方面的文献资料,同时更为重要的是还要求作者具备系统性的计量经济学的方法论能力。 当然,笔者所总结的经验可能存在一定的不足之处,也不一定都面面俱到,仅供广大科研朋友参考,请多批评指正。 最后,笔者赠言:良好实证训练,是论文写作和发表顺利推进的保障!记住:你要多写,多总结,多思考!


本文为《社经研究社》的原创文章,未经授权不得转载或建立镜像。如需转载,请在后台留言申请白名单,并获取授权。




如有兴趣加入「学术与青椒」微信社群,可以添管理员微信,联系获得入群邀请(可在公号沟通界面,点击“加入社群”,了解入群的须知!。其中,管理员微信的对应二维码,如下:






你点的每个赞,我都认真当成了喜欢


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存