功效分析, 统计显著性和效应量是什么? 如何计算他们的大小呢？

Original 计量经济圈计量经济圈

凡是搞计量经济的，都关注这个号了

邮箱：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

在计量社群日常交流中，发现个别群友对power analysis, statistical significance和effect size表现得很陌生。当然，这绝不仅仅局限于个别群友，在实证研究过程中可能不少学者也不甚了解这些看似基础的概念。

索性，今天就专门讲解一下功效分析（power analysis）、统计显著性（statistical significance）和效应量（effect size）。

功效分析、统计显著性和效应量

power analysis, statistical significance, and effect size

如果打算使用推断统计（例如 t 检验、ANOVA 等）来分析评估结果，应该首先进行功效分析以确定需要多少样本量。

接下来，说一下什么是功效以及计算它所需的东西。

什么是功效？

要了解功效，回顾一下推断统计检验的内容会非常有帮助。当你进行推断统计检验时，通常会比较两个假设：

零假设 - 该假设预测你的政策项目不会对感兴趣的变量产生影响。例如，如果要衡量学生在实地旅行前后对环境的关注程度，则零假设是他们的关注程度将保持不变。
备择假设 - 该假设预测你会发现组别之间的差异。使用上面的例子，备择假设是学生实地旅行后对环境的关注程度将不同于他们实地旅行前的关注程度。

统计检验寻找证据表明你可以拒绝零假设，继而得出你的政策项目有效的结论。但是，对于任何统计检验，尽管组别之间实际上不存在差异，但你也总有可能发现差异，这被称为第 I 类错误。同样，当确实存在差异时，统计检验却可能无法识别出这种差异，这被称为第 II 类错误。

功效是指当实际存在差异时，你的检验也会发现统计上存在显著差异的概率。换句话说，功效是你在应该拒绝原假设时拒绝原假设的概率（从而避免第 II 类错误）。一般认为功率应为 0.8 或更大；也就是说，当真的在显著差异时，你也应该有 80% 或更大的机会找到在统计上显著性的差异。

😄增加你的样本量以确保安全！

如何使用功效计算来确定样本量？

一般来说，随着样本量增加，你的检验的功效也会增加。这在直觉上就很明显，因为更大的样本意味着收集了更多信息，这会在应该拒绝零假设时更容易拒绝该假设。

为确保样本量足够大，需要进行功效分析计算。不过，这些计算并不容易手工完成，因此除非是统计专家，否则需要软件程序的帮助才能算出结果。这些软件程序可在网上免费获得，自行百度一下，具体如下。

对于任何功效计算，需要知道：

打算使用什么类型的检验（例如，独立 t 检验、配对 t 检验、ANOVA、回归等。如果你不熟悉这些检验，那自己学习一下），
正在使用的 alpha 值或显著性水平（通常为 0.01 或 0.05），
预期效应量大小，
计划使用的样本量。

输入这些值后，将生成一个介于 0 和 1 之间的功效值。如果功效小于 0.8，则需要增加样本量。

什么是统计显著性？

在参与者的知识、态度和行为中观察到的变化，有可能是由于机会而不是某个政策项目造成的。统计显著性检验可帮助了解这些变化随机发生的可能性有多大，而不是政策项目所造成的差异。

要了解差异在统计上是否显著，必须将从检验中获得的概率数（p值）与提前确定的临界概率值（alpha水平）进行比较。如果 p 值小于 alpha 值，可以得出结论：观察到的差异具有统计显著性。

P 值：结果是偶然而不是由于政策项目造成的概率。P值的范围从0到1。P值越低，越有可能由于政策项目所造成的差异。

Alpha (α)水平：愿意接受的错误率。Alpha通常设置为 0.05 或 0.01。Alpha水平也称为第 I 类错误率。0.05 的Alpha 意味着你愿意接受结果有5% 的可能性是由于偶然性而不是该政策项目造成的。

应该使用什么alpha值来计算功效？

在大多数社会科学领域，低于 0.05 的 alpha水平被认为具有统计显著性，这是政策评估中最常用的 alpha 水平。

还可以通过这些材料学习统计显著性：1.https://www.surveysystem.com/signif.htm，2.https://www.supersurvey.com/Significance

什么是效应大小？

简单点理解，就像回归中的那个经济显著性。

当差异在统计上显著时，并不一定意味着它很大、重要或对决策有帮助。而只是意味着可以确信存在差异。例如，假设使用前测和后测来评估某活动对学生知识的影响。前测的平均分是 83 分（满分 100），而后测的平均分是 84。尽管分数差异在统计上显著（因为样本量很大），但差异非常小，这表明该计划并未导致学生知识存在有意义的增加。

要了解观察到的差异是否不仅在统计上显著，而且重要或有意义，需要计算其影响大小。效应大小是标准化的，而不是报告在考试中获得的分数或废物回收中获得的磅数等方面的差异。换句话说，所有的效应大小都是在一个共同的尺度上计算的，从而可以比较不同政策对相同结果的有效性。

如何计算效应大小？

根据使用的评估方案，有不同的方法可以计算效应大小。通常，效应量的计算方法是取两组之间的差异（例如，处理组的平均值减去对照组的平均值）并将其除以其中一组的标准差。例如，在处理组和对照组的评估中，效应大小是两组之间的平均值之差除以对照组的标准差。

效应量 =（处理组平均数 - 对照组平均数）/ 对照组标准差

为了解释结果数字，大多数社会科学家使用Cohen开发的这个标准：

< 0.1 = 微不足道的影响
0.1 - 0.3 = 小影响
0.3 - 0.5 = 中等效果
> 0.5 = 大差异效应

如何估计计算功效的效应大小？

因为只有在从计划参与者那里收集数据后才能计算效应大小，所以必须使用估计值进行功效分析。通常的做法是使用 0.5 的值，因为它表示中等到大的差异。

下面这个PDF提供了效应量的概述（包括Cohen对效应量的定义）。它还讨论了如何测度两个独立组、两个依赖组以及进行方差分析时的效应大小。还提供了几个效应大小计算器。

网址：

http://www.bwgriffin.com/gsu/courses/edur9131/content/EffectSizeBecker.pdf

社群讨论了1.“显著不显著的后背是什么, 非(半)参估计里解决内生性”，2.“计量社群里关于使用交互项还是中介效应分析开展机制研究的讨论”，3.“为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小?”，4.多期DID中使用双向固定效应可能有问题! 又如何做平行趋势检验? 多期DID方法的最新进展如何?，5.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢？6.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗？7.回归中常数项显著说明模型中有遗漏变量问题？8.审稿人有义务告诉你回归中可能的遗漏变量么？9.针对很多实证问题的讨论, 随手保存的部分内容以飨学者，１０.未引入交互项主效应为正, 引入后变为负, 解释出来的故事特别好, 主效应符号确实增强了故事性，11.双向固定效应多期DID最新进展和代码汇总, 关于控制变量和固定效应选取的讨论，12.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器，13.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等，14.针对经济学领域中介效应模型问题的回应和理性讨论，15.讨论a(b)对b(a)的新方向论文, 经济学期刊分区问题, 3个机制存在时计量模型设计问题,16.如果解决了内生性, 那么是否意味着证实了变量之间的因果关系呢？17.解释变量提升一个标准差，被解释变量提升几个百分比呢？18.关于DID中对照组与处理组的比例问题？19.双重差分法和事件研究法的区别主要在哪里？20.双重差分法和事件研究法的区别主要在哪里？21.统计上不显著的变量表明该变量对结果变量没有影响吗？22.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事？23.Heckman模型和工具变量IV之间的差异？24.X与Y负相关但回归系数却为正? OLS不显著但2SLS却显著？25.一定要控制时间固定效应吗？26.经济学家说论文是讲故事, 具体是啥意思啊? 最高点赞答案！27.在机制分析中必须是正向的中间影响路径吗?负向的影响路径可以吗？28.回归中所有变量的系数都应该符合预期吗？若一变量的系数不符合预期是否可以呢？

下这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

4年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。