查看原文
其他

特别推荐丨老姚专栏:关于实证研究,我只能告诉你这么多了

姚耀军 数据Seminar 2021-06-03

与其说计量经济学是一门颇有技术含量的经济学课程,还不如说是一门通识课程。研习计量经济学可以改善我们的逻辑思维能力,提高我们的科学素养。本文源于笔者为计量经济学课程编写的大纲。每一届学生,以及我的一些同事与好友,都对这些内容提供了诸多极有价值的反馈,让笔者心怀感激。网络时代,分享既是情怀,也是美德。笔者在此不揣简陋,分享自己的一得之见,以供诸位参考。     



 一、经济学的科学属性与实证主义导向 

  • 科学就是建立假说并利用经验事实对其加以检验的过程。在此过程中,理论的逻辑演绎很重要,但最终“证据为王”。因此,实证研究是科学研究必不可少的组成部分。在某种意义上,科学研究就是实证研究,而理论研究不过是一份完整实证研究所需要的铺垫。

  • 如果经济学属于科学,那么它一定是实证主义导向的。因此,虽然利用了数学与统计学工具,但计量经济学从学科性质上看属于经济学,与微观经济学、宏观经济学一起构成了经济学的“三驾马车”。

  • 实证不等于证实。按照卡尔·波普尔的观点,任何理论都不过是推测和假说,不能够被证实,但可能被证伪。一个理论假说要么被证伪,要么没有被证伪。没有被证伪不代表证实,只是表明经验证据与理论假说相一致,理论假说暂时没有被推翻。



 二、计量分析实战精要 

  • 计量经济学教科书很少讲样本数据问题,然而在实证研究中,你初始接触的数据很可能很“脏”,需要进行清洗。如果有人帮你进行了清洗,你一定要知道他是如何清洗的。
  • 看到一个样本,你首先应该想到两个问题:第一,样本容量是否足够大;第二,样本是否存在选择偏差问题。其实这两个问题都指向一点:相对于总体,样本是否具有足够的代表性。
  • 如果条件允许,样本容量越大越好,数据层次越微观越好。记住,很多宏观数据都存在合成谬误。
  • 自变量的变化幅度越大,越有利于更清楚地发现它对因变量的影响。因此,对于横截面数据,样本要在契合研究目标的基础上具有多样性。例如,为考察教育年限对工资的影响,你最好收集从文盲到博士的数据;对于时间序列数据,你要关注数据的频率,有些规律只有在高频数据下才能发现,而有些规律只有在低频数据下才能发现。
  • 模型与变量设计既要接受经济学理论的指引,还要结合你所研究的问题。注意变量单位或者量纲,有些变量需要取对数,有些则不需要,关于是否取对数最重要的规则是:对应的估计系数有意义,解释起来也很方便。
  • 当发现变量间具有关系时,你首先要质疑的是,这是否纯属巧合。如果不是巧合,那么接下来你应该将其视为相关关系,而不要贸然认为相关就是因果。
  • 社会科学中的实证研究很多时候其实就是在模拟自然科学中的可控实验,所以要深刻理解“控制其他因素不变”的重要性。“控制其他因素不变”的目的在于进行“公平”的比较。只有进行比较,才能发现规律,但一定要做到公平!
  • 因果关系一定蕴含理论逻辑。如果没有需求定律背后的收入效应和替代效应,即使商品需求量随着商品价格的上涨而下跌,也不能说价格变动是因,需求量变动是果,只能视其为相关关系。谨慎地进行因果推断,你需要排除潜变量问题,还要当心反向因果关系。
  • 若进行因果识别,则内生性问题就是一个绕不过去的坑。解释坑如何形成,坑有多深,如何填平这个坑并评估其效果,这些工作一旦完成,那么恭喜你,你完成了论文的初稿。
  • 不是模型中所有的自变量都需要考虑内生性问题。只要你不将自变量前面的估计系数解释成因果效应,那么内生性问题就不是问题。
  • 不是所有的内生性问题都需进行工具变量估计。你可以用代理变量解决遗漏变量偏差,可以用虚拟变量方法解决异质性问题,可以用自然实验方法来识别因果关系。
  • 不要迷恋判定系数。太高的判定系数或许是研究失败的信号,因为社会科学的解释力真的十分有限。太高的判定系数往往源于,你研究了同一件事物两件“马甲”的关系。对于时间序列变量,太高的判定系数很可能暗示你进行了伪回归。谨防判定系数对模型选择的误导。特别是,对于因变量不同的模型(例如一个模型以某变量的对数为因变量,而另一个模型直接以该变量为因变量),相互间比较判定系数的大小是没有意义的,因为这些模型是在解释不同的东西。
  • 不要迷信统计显著性,很多时候,经济显著性往往更重要。举一个例子,基于大样本分析,一家企业发现,广告支出每增加一百万元,销售量显著上涨5%。如果5%的销售量上涨幅度意味着销售收入增加一百万元左右,那么其不具有经济显著性,故该企业并不会将广告支出视为重要的政策变量。
  • 不要过于担心多重共线问题。天下没有免费的午餐,多重共线是解决遗漏变量偏差问题所必须付出的代价,而一般来说,遗漏变量偏差问题要比多重共线问题重要得多。
  • 给定的信息越多,则估计越精确。这种信息可能来自于你拥有的样本,也可能来自样本外。样本外的信息又主要来自于理论给出的约束条件、已有文献的研究结论、基于经验或者常识的判断。在利用这些信息提高估计精度时,要当心不正确的信息会让估计结果丧失一致性。举一个例子,利用广义最小二法可以提高估计精度,但我们需要基于样本内或者样本外的信息对误差方差的函数形式作出具体假设。不幸的是,如果错误信息导致假设不成立,那么广义最小二乘估计结果就可能丧失一致性。估计结果满足一致性是实证研究的最低要求,不满足一致性的估计结果一般可视为垃圾。
  • 模型设定错误会导致误差项具有自相关或者异方差性。由于模型设定错误会导致估计结果丧失一致性,产生严重后果,我们不妨将残差项表现出的自相关与异方差视为模型设定错误的重要信号,对模型设定进行反思。
  • 若模型设定正确,则误差项具有自相关或者异方差性并不影响一致性。在样本容量较大的情况下,它们不应该成为你关注的焦点。不过,自相关与异方差会导致通常的标准误是错误的。因此,在进行假设检验时,你应该考虑用稳健标准误。
  • 若模型设定正确,根据中心极限定理,有理由认为误差项服从正态分布。因此,我们也不妨将残差项表现出的非正态性视为模型设定错误的重要信号。
  • 误差项可能不服从正态分布,虽然仅仅这一点通常不会导致模型估计结果丧失良好的性质,也不会影响大样本下的假设检验,但若有可能,我们不妨通过模型变换,比如对人口、资产与财富等规模类变量取对数(很多规模类变量不服从正态分布,但服从正态对数分布),使得新模型的误差项更趋于正态分布。如此处理通常会让模型变得更加稳健。
  • 稳健性分析一般来说是实证研究必不可少的一部分。然而,稳健性与有效性往往存在冲突。因此,当你发现一个实证结果很漂亮,具有很多小星星时,不妨质疑其稳健性。很多时候,这是数据挖掘的结果。


 三、学习和做研究的建议 

  • 进行实证研究不怕你全懂,也不怕你不懂,就怕你半懂不懂,以致“手里拿着一把锤子,眼里看到的全是钉子”,结果打造出很多垃圾,闹出笑话。因此,首先要好好学习宏微观经济理论,仔细揣摩诸如《计量经济学导论:现代观点》这类经典教材,不要急吼吼地想着文章发表。是的,功到自然成。

  • 尽量不要单独花时间学习软件使用,要“干中学”,要充分利用软件自带的help文件,要多多利用网络资源。记住,你在软件使用中碰到的问题很多人都会碰到,你要看看人家是怎样解决的。

  • 在实证研究选题时,要尝试用交互项或者平方项讲述非线性的故事,这是很多论文的创新点。如果已有文献大多研究的是收益问题,那么你可以考虑研究成本问题。其实,经济学是一门“忧郁的科学”,它通常最关心成本问题,而很多“专家”提出的政策建议往往忽略了成本问题。如果已有文献大多研究的是总量问题,那么你可以考虑研究结构问题。结构问题往往显得更“高大上”。如果已有文献没有对传导机制进行深入地研究,那么你应该深入研究各种可能的传导机制。是的,各种可能的传导机制。

  • 坦然承认并接受实证研究的不完美,无论你是作者还是审稿人,要重视的是文章的边际贡献。实证研究不可能是完美的,原因是:第一,没有完美的样本;第二,所有的实证模型都是错误的,只是有些模型是有用的。



企研学术顾问· 耀军

姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。


►往期推荐

回复【Python】👉 简单有用易上手


回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉 你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一


►一周热文

工具&方法 | 6张卡片,2分钟,轻松掌握R命令大集合(推荐收藏备用)

特别推荐丨老姚专栏:理解工具变量的工具——需求定律

工具&方法丨经生小白会敲代码,还会写爬虫防坑指南



数据Seminar

这里是大数据、分析技术与学术研究的三叉路口



作者:姚耀军推荐:杨奇明编辑:青酱




    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存