power analysis, statistical significance, and effect size
如果打算使用推断统计(例如 t 检验、ANOVA 等)来分析评估结果,应该首先进行功效分析以确定需要多少样本量。
接下来,说一下什么是功效以及计算它所需的东西。
要了解功效,回顾一下推断统计检验的内容会非常有帮助。当你进行推断统计检验时,通常会比较两个假设:
零假设 - 该假设预测你的政策项目不会对感兴趣的变量产生影响。例如,如果要衡量学生在实地旅行前后对环境的关注程度,则零假设是他们的关注程度将保持不变。
备择假设 - 该假设预测你会发现组别之间的差异。使用上面的例子,备择假设是学生实地旅行后对环境的关注程度将不同于他们实地旅行前的关注程度。
统计检验寻找证据表明你可以拒绝零假设,继而得出你的政策项目有效的结论。但是,对于任何统计检验,尽管组别之间实际上不存在差异,但你也总有可能发现差异,这被称为第 I 类错误。同样,当确实存在差异时,统计检验却可能无法识别出这种差异,这被称为第 II 类错误。
功效是指当实际存在差异时,你的检验也会发现统计上存在显著差异的概率。换句话说,功效是你在应该拒绝原假设时拒绝原假设的概率(从而避免第 II 类错误)。一般认为功率应为 0.8 或更大;也就是说,当真的在显著差异时,你也应该有 80% 或更大的机会找到在统计上显著性的差异。
😄增加你的样本量以确保安全!
一般来说,随着样本量增加,你的检验的功效也会增加。这在直觉上就很明显,因为更大的样本意味着收集了更多信息,这会在应该拒绝零假设时更容易拒绝该假设。
为确保样本量足够大,需要进行功效分析计算。不过,这些计算并不容易手工完成,因此除非是统计专家,否则需要软件程序的帮助才能算出结果。这些软件程序可在网上免费获得,自行百度一下,具体如下。
对于任何功效计算,需要知道:
打算使用什么类型的检验(例如,独立 t 检验、配对 t 检验、ANOVA、回归等。如果你不熟悉这些检验,那自己学习一下),
正在使用的 alpha 值或显著性水平(通常为 0.01 或 0.05),
预期效应量大小,
计划使用的样本量。
输入这些值后,将生成一个介于 0 和 1 之间的功效值。如果功效小于 0.8,则需要增加样本量。
在参与者的知识、态度和行为中观察到的变化,有可能是由于机会而不是某个政策项目造成的。统计显著性检验可帮助了解这些变化随机发生的可能性有多大,而不是政策项目所造成的差异。
要了解差异在统计上是否显著,必须将从检验中获得的概率数(p值)与提前确定的临界概率值(alpha水平)进行比较。如果 p 值小于 alpha 值,可以得出结论:观察到的差异具有统计显著性。
P 值:结果是偶然而不是由于政策项目造成的概率。P值的范围从0到1。P值越低,越有可能由于政策项目所造成的差异。
Alpha (α)水平:愿意接受的错误率。Alpha通常设置为 0.05 或 0.01。Alpha水平也称为第 I 类错误率。0.05 的Alpha 意味着你愿意接受结果有5% 的可能性是由于偶然性而不是该政策项目造成的。
在大多数社会科学领域,低于 0.05 的 alpha水平被认为具有统计显著性,这是政策评估中最常用的 alpha 水平。
还可以通过这些材料学习统计显著性:1.https://www.surveysystem.com/signif.htm,2.https://www.supersurvey.com/Significance
简单点理解,就像回归中的那个经济显著性。
当差异在统计上显著时,并不一定意味着它很大、重要或对决策有帮助。而只是意味着可以确信存在差异。例如,假设使用前测和后测来评估某活动对学生知识的影响。前测的平均分是 83 分(满分 100),而后测的平均分是 84。尽管分数差异在统计上显著(因为样本量很大),但差异非常小,这表明该计划并未导致学生知识存在有意义的增加。
要了解观察到的差异是否不仅在统计上显著,而且重要或有意义,需要计算其影响大小。效应大小是标准化的,而不是报告在考试中获得的分数或废物回收中获得的磅数等方面的差异。换句话说,所有的效应大小都是在一个共同的尺度上计算的,从而可以比较不同政策对相同结果的有效性。
根据使用的评估方案,有不同的方法可以计算效应大小。通常,效应量的计算方法是取两组之间的差异(例如,处理组的平均值减去对照组的平均值)并将其除以其中一组的标准差。例如,在处理组和对照组的评估中,效应大小是两组之间的平均值之差除以对照组的标准差。
效应量 =(处理组平均数 - 对照组平均数)/ 对照组标准差
为了解释结果数字,大多数社会科学家使用Cohen开发的这个标准:
< 0.1 = 微不足道的影响
0.1 - 0.3 = 小影响
0.3 - 0.5 = 中等效果
> 0.5 = 大差异效应
因为只有在从计划参与者那里收集数据后才能计算效应大小,所以必须使用估计值进行功效分析。通常的做法是使用 0.5 的值,因为它表示中等到大的差异。
下面这个PDF提供了效应量的概述(包括Cohen对效应量的定义)。它还讨论了如何测度两个独立组、两个依赖组以及进行方差分析时的效应大小。还提供了几个效应大小计算器。
网址:
4年,计量经济圈近1000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle