抛弃p值?经济显著性与统计显著性
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 2022暑期班
编译: 苗妙 、李舒颖 (华南理工大学)
邮箱: miaomiao@scut.edu.cn;251489244@qq.com
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
原文信息: Todd Mitton, Economic Significance in Corporate Finance, The Review of Corporate Finance Studies, 2022; cfac008, -Link-, -PDF-
目录
摘要
0. 编者按
1. 引言
1. 目前的做法
1.1 公司金融回归的样本
1.2 经济显著性的指标使用
1.3 当前做法的统计分析
2. 经济显著性测度的性质
2.1 标尺独立
2.2 来源独立
2.3 不存在虚假估计
2.4 反对挑选模型设定
2.5 对抗异常值
2.6 负变量的稳健性
3. 经济显著性的基准
3.1 已有文献的基准
3.2 控制变量的基准
5. 结论
6. 参考文献
7. 相关推文
摘要
在公司金融领域,报告研究结果的经济显著性越来越普遍了,但相关文献综述也揭示了一些典型报告实践中的不足。研究者可以采用如下方式更有效地传达研究结果的重要性:使用经过标准差调整的因变量的经济显著性指标,通过提供所有必要的用于计算经济显著性的统计数据,提供评估经济显著性的基准。为了达到这些目标,我展示了为什么用经过标准差调整的衡量指标更可取,同时我也依据文献提供了基准。
值得注意的是,作者 Mittion 的这篇论文和另一篇介绍统计显著性的论文(Mitton, 2022) 可以称得上是姊妹篇,有兴趣的朋友也可以参考(译者注)。
Mitton T., 2022, Methodological Variation in Empirical Corporate Finance, The Review of Financial Studies, 35(2): 527-575. -PDF-
0. 编者按
下面这幅颇具视觉冲击力的漫画源自 Amrhein et al. (2019) 发表于 Nature 的论文。论文的标题旗帜鲜明:
Scientists rise up against statistical significance (科学家们反对统计显著性!)
Amrhein, V., S. Greenland, B. McShane, 2019, Scientists rise up against statistical significance, Nature, 567: 305-307. -PDF-
事实上,类似的争论已经持续了多年。摆在大家面前的有两条路:
其一,放弃 p 值,寻求更好的统计指标和推断方法;
其二,仍然使用 p 值,但要谨慎,不要过度甚至错误解读。
现在看来,第一种方案的面临诸多阻力。一方面,大家在指责 p 值不好的同时,似乎也给不出令多数人信服的替代方案;另一方面,惯性使然,无论是教科书还是期刊文献,抑或统计和计量软件,想要转用一套新标准,并非易事。
第二种方案属于改良派思想,易于接受。今天要介绍的这篇论文便是按此路径尝试的一篇佳作。作者给出了一些颇具实操性的建议,尤其是强调「经济显著性」这一概念,这往往是追求 p 值的论文中现有讨论,甚至被完全忽略的问题。
举个简单的例子:假设我们评估一项扶贫政策,利用多种复杂的计量模型估计出的结果都表明政策效果很显著。然而,当我们仔细分析系数的经济含义时,却吃惊地发现:政府补贴每年农户 1000 元,可以使其家庭可支配收入在 1% 水平上显著增加 0.05 元。
这个颇具学术范儿的「建言」会被采纳吗?
1. 引言
近年来,各个学科的学者们反思,甚至质疑实证结果中统计显著性。
在公司金融的实证研究中,研究者除了要解释结果的统计显著性,也要对结果的经济显著性进行阐释,而且这种做法越来越常见。本文已有文献中对结果经济显著性解释的做法,目的是找到可行简单的改进方法,以增加对公司金融实证研究结果经济显著性的理解。
在公司金融实证论文中,一个评估经济显著性的标准框架是:根据估计的回归系数,报告被解释变量随解释变量变动而产生的变动。
Ghaly et al. (2017)的例子: 雇佣更高比例的熟练劳动力(用 LSI 指数衡量)的公司持有更多的预防性现金,其经济显著性解释为:LSI 指数增加一个标准差,现金-资产比率增加 4.2%,这相当于样本平均值的现金-资产比率增加了 21.2%。
然而,本文针对阻碍经济显著性的有效评估,提出了三个主要挑战。
挑战 1:对经济显著性的衡量缺乏理想的特性
在我们对文献考察的样本中,超过 56%的文献是用因变量的变化除以样本均值。这会存在五个问题。第一,虽然经过平均值调整的测量指标对数据的乘法变换具有稳健性,但它们可以通过因变量的加法转换而被夸大,比如行业调整。第二,经过平均值调整的衡量指标往往对不相关的自变量产生经济显著性的过高估计。第三,经过平均值调整的衡量指标较为敏感,研究者可以通过一些方法的组合得到对经济显著性的高估计。第四,经过平均值调整的衡量指标易受到异常值的影响。第五,当因变量包含负值时,例如当因变量是盈利能力时,经过平均值调整的衡量指标是不稳健的。
一个最简单的解决方式是,将因变量进行标准差的调整。经过标准差调整的衡量指标可以符合上述 5 个理想特性,很好地解决挑战一。尽管具有这些理想的特性,但本文的样本中只有 10%的文章使用了标准差的调整测度经济显著性。
挑战 2:无法提供评估经济显著性的必要统计数据
第二个挑战是,论文通常无法提供评估经济意显著性的必要统计数据。虽然对论文的经济显著性进行评估,只需要回归系数和自变量、因变量的标准差,但本文的样本中只有 33%的论文提供了上述数据。
挑战 3:没有提供便于对经济显著性的衡量进行比较的基准
第三个挑战是,作者通常没有提供基准来比较其经济显著性的衡量标准。当这一基准没有提供时,读者无法判断报告的效应有多大。本文提出了可以使用的两个基准。第一组基准来自于发表在 Journal of Finance (JF), Journal of Financial Economics (JFE), 以及 Review of Financial Studies (RFS) 三个顶级金融期刊上的关键结果的经济显著性。在样本中,我们进行了 954 次回归,计算了样本中所有论文中的关键解释变量的经济显著性标准度量。虽然要小心进行比较,但这一统计可以帮助研究者将他们的结果与发表在顶级期刊上的结果进行对比。附表 3-7 给出了常用的公司金融结果的影响因素的经济影响方向及大小,其中 A3 是利润率,A4 为企业价值,A5 是杠杆率,A6 是投资,A7 是支付,A8 是现金持有(具体表格,感兴趣的朋友可以在原文链接处下载后查看)。第二组基准是根据公司金融实证中通常包含的标准标制变量的经济显著性计算出来的。
总的来说,本文提出了三点改进的要求。研究者应该基于标准差而不是均值去评估经济显著性,应该提供必要的用以评估经济显著性的统计数据;研究者应该提供一个评估基准。
1. 目前的做法
为了更好地理解当前公司金融文献中,经济显著性是如何操作的,我们对金融顶级期刊的做法进行综述。实证公司金融选取了一系列的因变量进行回归,因此我们将综述中的因变量限定为以下 6 个方面:利润率、企业价值、杠杆率、投资、支付以及现金持有。
1.1 公司金融回归的样本
本文收集了 Journal of Finance, Journal of Financial Economics, 以及 Review of Financial Studies 的 2000-2018 的有关利润率、企业价值、杠杆率、投资、支付以及现金持有这六个方面的研究。如表 1 所示,在这一阶段,相关研究增长很快,从 2000 年的 181 篇增长到 2018 年的 299 篇。
1.2 经济显著性的指标使用
尽管表达经济显著性的一般框架是类似的,但研究者们使用了多种指标评估经济显著性。他们通常是这样做的:以回归估计系数为基准,说明一定幅度的解释变量变动,导致的被解释变量变动是多少。不同论文的差异主要是两方面:一是假定的解释变量变动量不同(例如,解释变量变动一个标准差);二是被解释变量的变动测度(例如,相对于被解释变量的均值变化的百分比)。
表 2 统计了 604 篇文章中 396 篇报告了经济显著性的文献。第 (1) - (6) 行是连续型解释变量,第 (7) 行是虚拟解释变量。第 (2) 列是研究者使用的不同的解释变量变动指标,包括一个标准差变动(one-standard-deviation)、从 25%-75%的分位数变动(interquartile range, IQR)、其他分位数变动(other percentile shifts, 比如从 10%到 90%分位数)、一个百分点变动(one percentage points)以及其他类型。表上半部分的(3)-(8)列是被解释变量变动测度的不同方式,包括均值的百分比(第 3 列)、标准差的百分比(第 4 列)、百分点(第 5 列)、概率(对虚拟因变量,第 6 列)、百分比(对于对数因变量,第 7 列)。
从表 2 我们也可以看到,无论是用连续型标准差还是二值虚拟变量作为解释变量的假定变动,都是用均值百分比表示因变量变动的占比较大,用标准差表示因变量的占比较小。整体上,在如何度量经济显著性方面,现有研究缺乏共识。
1.2.1 标准化测度的定义
测度 1第一个对经济显著性的测度是依据回归估计系数得到的,因变量与解释变量一标准差相比的变动,相对于其均值的变动。其计算公式为:
公式 (1) 中,b 是回归估计中解释变量的系数,
是样本中解释变量的标准差, 是因变量的样本均值。测度 2第二个对经济显著性的测度是被解释变量的变动与解释变量一个标准差的变动,相对于其标准差的百分比。其计算公式为:
其中,
是样本中被解释变量的标准差测度 3第三个对经济显著性的测度是被解释变量变动与解释变量在 IQR 变动,相对于被解释变量均值的变动。其计算公式为:
其中,
和 分别是解释变量第 25 和第 75 分位数。测度 4第四个对经济显著性的测度是被解释变量与解释变量的 IQR 变动,相对于被解释变量标准差的百分比。其计算公式为:
测度 5 和 6最后两个测度是对虚拟解释变量的计算。第一个是当解释变量从 0 变动到 1 时,被解释变量变动相对于其均值的百分比,计算公式为:
第二个测度是解释变量从 0 变动到 1 时,被解释变量变动相对于其标准差变动的百分比,计算公式为:
1.3 当前做法的统计分析
表 3 报告了当前文献中经济显著性指标的使用情况。Panel A 是讨论了经济显著性的文献占比,这一比例逐年提高。尽管很多文献没有直接提供对经济显著性的计算,但根据文献中提供的回归系数和描述性统计仍然可以计算。Panel B 汇报了已有文献中提供了用于计算经济显著性所需数据的文献占比,占比都不高。Panel C 展示了提供比较基准的文献占比,占比非常低。具体而言,主要有两种基准。第一种是将自己论文的回归结果与顶刊的回归结果进行比较,第二种是将关键解释变量的回归系数与控制变量的系数进行比较。Panel D 展示了研究者们是否声称自己的研究结果“就有经济显著性”,绝大部分(92%)论文都声称自己的研究结果“经济显著”。然而本文认为这存在两个问题:一是作者频繁在不提供证据的情况下声称自己的研究结果具有经济显著性;二是绝对性的经济显著性声明忽视了一个事实 —— 经济显著性是一个相对的概念。
近年来,一些期刊开始限制对经济显著性进行绝对的报告。例如 American Economic Review 禁止作者使用星号去表示统计的显著性水平。类似地,文献也最好使用较少的绝对经济显著性声明,而是应更多地关注于为读者提供足够的信息去判断结果的重要性。
2. 经济显著性测度的性质
我们现在探讨上述定义的经济显著性指标的一些性质。我们聚焦于经过被解释变量均值调整的测度与经过被解释变量标准差调整的测度间的对比。三个性质为标尺独立 (scale independence)、来源独立(origin independence) 以及负变量的稳健性 (robustness with negative variables),对这三个性质的讨论是基于理论分析,它们同样也适用于对因变量的分析。另外三个性质的讨论基于对 6 个常用因变量模拟回归的实证检验,这三个性质是不存在虚假估计(absence of spurious estimates)、反对挑选模型设定(resistance to specification searching) 以及对抗异常值 (resistance to outliers)。
2.1 标尺独立
标尺独立的含义是,对数据的乘法变换是否会影响经济显著性的检验结果。这一性质很重要,因为研究者可以根据研究目的调整数据的量纲或将数据放大或缩小,而这一操作应该不影响经济显著性。我们发现,对于无论是按标准差衡量,或是按均值调整的测度,对自变量 (x) 或因变量 (y) 的乘法变换都是满足标尺独立性质。
2.2 来源独立
来源独立的含义是,它们是否通过基础数据的加性转换而保持不变。这一特性很重要,因为在公司金融的实证研究中,研究者有时会在基础数据中添加或减去常数(例如,当变量经过行业调整时),但这一变换不应该影响经济显著性。我发现,因变量按标准偏差的度量结果,其经济显著性在经过 x 或 y 的加性变换后保持不变。但是按平均值调整的测度不满足来源独立的性质。具体而言,当在因变量中加入一个正的常数时,经济显著性的测度会降低;当在因变量中减去正的常数时,经济显著性的测度会被夸大。
2.3 不存在虚假估计
接下来,我检验各种测度是否会对经济显著性产生虚假的较大估计。本文通过随机生成的数据,将随机生成的自变量对常见的因变量进行回归,并计算其经济显著性。理想的情况是,由于自变量是随机生成的,因此其经济显著性可以忽略,或非常接近于 0 。同时,本文还使用样本选择、变量转换和模型设定等替代方法来回归,以评估具体的方法选择对经济显著性所产生的影响。
2.3.1 变量和描述性统计
用于模拟的数据集来自 Compustat, 包括 1963-2018 年间的 40 万个企业-年份观测值。在我们的样本中,77% 的论文使用了这一数据集,因此具有代表性。
在进行模拟时,有两个重要问题。第一个重要的问题是对于被解释变量的代理变量选择,因为研究者使用了许多不同的代理变量来代表公司的盈利能力、价值、杠杆、投资、支付或现金持有。本文考察了样本中的 954 个回归,并交替使用了每种回归中最常用的两个代理变量。第二个重要的问题是对回归中控制变量的选择,我在至少 50% 的情况下使用了已有文献中的控制变量。附表 A1 是变量的定义,附表 A2 是变量的描述性统计。
2.3.2 回归设定
本文的回归使用了不同方法的组合,即在下面的这些选项中进行二选一,这也是实证公司金融研究者通常的做法,具体如下:
包括除金融类企业外的所有行业(SIC6000-6999)。
对因变量代理变量的选择,使用最常用或第二常用的代理变量。
使用最常用的规模控制变量(总资产的对数)或使用第二常用的规模控制变量(在对利润率和支付进行回归时,使用市场价值的对数,其他回归中使用销售额的对数)。
是否对解释变量进行滞后。
对样本进行 1% 和 99% 的缩尾或者保留异常值。
使用最常用的控制变量(对已有文献的控制变量在文献中,使用率大于等于 50%),或者添加次级最常用的控制变量。然后,我们随机生成一个解释变量,并对下列模型进行回归:
其中,
是从 Compustat 中选择的企业 在 行业 年的因变量, 是随机选择的对 的影响因素, 是一组企业层面的控制变量。 代表两分位数行业的固定效应, 代表年份固定效应。我们关心的系数是 , 以及当使用不同方法时, 的经济显著性如何变化。
本文按照如下方式随机生成了正态分布的解释变量,解释变量的平均值在 10-100 之间选择,标准差在 1-10 之间选择。同时,我也在区间(0,1)通过生成符合均匀随机分布的虚拟解释变量,并生成了随机选择的一个节点,如果观测值此节点则赋值为 1 ,否则为 0 。
对于生成的每个解释变量,本文对这六种方法中的每一种可能的组合进行了单独的回归分析,即对每个解释变量进行 64 次回归。对 100 个随机生成的解释变量和每一类回归,重复这一过程。所有的回归都进行两次,一次是控制行业固定效应,另一次是控制企业固定效应。
2.3.3 模拟结果
Figure 1 展示了上述回归的直方图。Panel A 比较了正态分布解释变量的
Panel A 表明,
Panel B 对于
Panel C 中,尽管
因此,总体而言,
2.4 反对挑选模型设定
本文考虑的另一个特性是,对经济显著性的度量是否容易受到挑选模型的影响,即经济显著性对模型选择是否敏感。Figure 1 表明,以因变量的均值为基准去度量经济显著性更容易受到模型选择的影响,但是却无法说明有多大比例的随机解释变量是由模型选择导致的。
Figure 2 汇报了与经过平均值调整与经过标准差调整的最大经济显著性的分布。Panel A 比较了
Panel A 表明,超过 50% 随机选择的解释变量,
Panel B 和 Panel C 也是类似的结果。当经济显著性用均值调整时,随机生成变量的经济显著性值很高。比如,Panel B 中,超过 60% 的解释变量的
总之,经过平均值调整的经济显著性指标对模型设定较为敏感,而经过标准差调整的经济显著性指标则不敏感。
2.5 对抗异常值
一个稳健的经济显著性指标不应该对是否处理异常值敏感。我们发现按平均值度量的经济显著性指标对异常值的处理高度敏感,而按标准差度量的经济显著性对异常值有高度抵抗性。在上面的模拟回归中,
2.6 负变量的稳健性
本文考虑的最后一个性质是,当因变量可能为负时,经济显著性的度量是否适当地反映了结果的重要性。在本文研究的论文样本中,大约 47%的回归可能容易受到这个问题的影响。实践中,这种问题经常出现,比如当你对严格正的因变量进行一次差分或取对数时,正的因变量就变成了负值。由于负的因变量可能导致因变量的均值接近于 0 ,从而导致对经济统计性的估计出现偏差,所以因变量为负时不能用均值作为基准。相反,用因变量的标准差进行调整则不会受到影响,因为因变量的标准差不会因为负值的存在而直接变小。
3. 经济显著性的基准
尽管变量的分布、变量的多重共线性以及交叉项的存在,可能会导致文献间的系数比较变得困难,但是找一个基准对于研究者间的交流,具有重要的实际意义。
3.1 已有文献的基准
将一个关键解释变量的经济显著性进行比较的方法是,将其与现有文献中的经济统计性进行比较。这一比较的困难之处在于,不同文献对经济显著性的测度不同。因此我计算了文献中核心解释变量标准化的经济显著性指标。
表 4 报告了这一结果。Panel A 汇报了对于六类回归,
Panel B 汇报了
3.2 控制变量的基准
控制变量的作用在于将影响因变量的重要因素控制住。本节报告了各类回归中最常用的控制变量的经济显著性指标。我对公式(7)进行了回归,结果如表 5 所示。
第 2 列报告了最常用的代理变量结果,第 3 列报告了最常用的控制变量,第 4 列汇报了每个控制变量的使用频率。在所有六类回归中,企业规模是使用最频繁的控制变量。第 5 列报告了控制行业固定效应时,
同时需要注意的是,有些控制变量的经济显著性可能反映了一些内生力量的累加效应。比如,在杠杆率的回归中,利润率的变动在 0.28-0.44,相对较大,但已有文献认为事实上有多种因素会影响利润率和杠杆间的关系。因此,这种经济显著性水平就不是研究另一个变量对杠杆产生因果效应的好的基准。
5. 结论
科学界的一场运动试图改变研究者对实证结果重要性的评价。
最近发表在《Nature》的一篇论文中,52 个国家的 854 名科学家呼吁 “统计显著性的整套概念应该要被抛弃”(Amrhein et al., 2019)。
本文提倡要增加对结果汇报和解释的思考。同时,本文也提供了一些简单的指导建议,以改善报告和讨论经济显著性的方式。这些建议包括:
使用经过标准差调整的经济显著性指标 提供足够的信息让读者判断经济显著性 为经济显著性提供基准
虽然本文仅关注了 6 个常用的因变量,但这些建议也适用于其他情况:对于所有的因变量来说,经过标准差调整的度量都具有理想性质,提供充分的信息是有益的,使用基准是有帮助的。
总之,遵循本文的建议,并更加重视评价实证结果的经济显著性,可以增加我们对经济显著性在公司金融实证研究中重要性的理解。
6. 参考文献
Amrhein, V., S. Greenland, B. McShane, 2019, Scientists rise up against statistical significance, 567: 305-307. -PDF- Mitton T., 2022, Methodological Variation in Empirical Corporate Finance, The Review of Financial Studies, 35(2): 527-575. -PDF-
7. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 显著 稳健性 解释
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:论文写作 如何解释和展示你的实证结果(上) 如何解释和展示你的实证结果(下) 专题:回归分析 稳健性检验!稳健性检验! acreg:允许干扰项随意相关的稳健性标准误 Stata:系数为何不显著?GIF-演示-OLS-的性质.md 正确姿势:回归系数的解释与评估 一组显著、一组不显著:二者有差异吗? 多元回归系数:我们都解释错了? 如何比较解释变量的系数相对大小? 专题:内生性-因果推断 Stata新命令:konfound - 因果推断的稳健性检验 专题:交乘项-调节 我为什么越跑越肥?交乘项系数的直观解释 专题:时间序列 gcrobustvar:基于VAR的稳健性Granger因果检验
课程推荐:因果推断实用计量方法
主讲老师:丘嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。