查看原文
其他

Stata:正确理解置信区间

连享会 连享会 2023-02-21

👇 连享会 · 推文导航 | www.lianxh.cn


连享会 · 2022 面板数据因果推断专题

作者:劳伟健 (西南财经大学)
邮箱:lwj0909@smail.swufe.edu.cn

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

编者按:本文部分参考自下文,特此致谢!
Source:Bevans, R. (July 9, 2022). Understanding Confidence Intervals | Easy Examples & Formulas. Scribbr. Retrieved October 5, 2022. -Link-


目录

  • 1. 何谓置信区间

  • 2. 计算置信区间

    • 2.1 正态分布均值的置信区间

    • 2.2 比例的置信区间

    • 2.3 非正态分布数据的置信区间

  • 3. 汇报置信区间

  • 4. Stata实例

    • 4.1 计算置信区间

    • 4.2 画置信区间

  • 5. 总结

  • 6. 相关推文



1. 何谓置信区间

无论是描述性统计还是检验统计量,都是基于总体的样本进行估计的,因此存在不确定性。置信区间是指以同样的方式重新对总体抽样时,期望的估计出现在一定范围内的概率。

在统计学中,置信度是描述概率的另一种方式。例如,构建一个具有 95% 置信水平的置信区间,那么 100 次的估计值中将有 95 次落在置信区间。其中,95% 为置信度,或置信水平、置信系数,一般用 CI 表示。如果我们使用 来表示统计显著性,那么置信度将是 1-0.05=0.95,即 95%。

我们在很多场景下都会使用置信区间,包括:

  • 比例
  • 总体平均值
  • 总体平均值和比例之间的区别
  • 组间差异

以上均为点估计,并没有给出任何关于变量数据变化的相关信息,因此置信区间对于理解点估计值附近的变化是有用的。例如,我们分别调查了 100 名英国人和美国人看电视的习惯,发现两组人平均每周看 35 小时电视。然而,被调查的英国人看电视的时间存在很大差异,而美国人看电视的时间都差不多。尽管两组人的点估计值 (平均观看时长) 相同,但英国人的估计值比美国人的估计值有更大的置信区间。

如下图所示,蓝色代表美国人看电视时间的分布情况,绿色为英国人。两份数据均服从正态分布,并且都具有相同的均值 35 小时 (虚线),但是蓝色分布更加集中,而绿色更加分散,说明英国人看电视的时间存在更大的差异性,而美国人看电视的时间更为集中。

2. 计算置信区间

如果要计算置信区间,我们需要知道以下 4 个值:

点估计值:置信区间的点估计是任何统计量的估计(总体均值,总体均值之间的差异,比例,组间差异等)。在以上看电视的例子中,点估计是看电视的平均小时数 35 小时。

点估计的临界值:首先,选择一个 值。最常见的 值是 。然后,决定单尾置信区间还是双尾置信区间。最后,查找与 值对应的临界值。如果数据服从正态分布,或者大样本近似服从正态分布,则可以使用 分布来查找临界值。如果数据是近似正态分布的小数据集 (n 30),则使用 分布代替。对于 统计量,一些最常见的值如下表所示:

置信区间90%95%99%
单尾 CI 的 0.10.050.01
双尾 CI 的 0.050.0250.005
统计量1.641.962.57

在看电视的调查中,有 30 多个观察结果,数据遵循近似正态分布 (钟形曲线),因此我们可以使用 分布。对于双尾 95% 置信区间, 值为 0.025,对应的临界值为 1.96。这意味着,要计算置信区间的上下限,我们可以取均值 1.96 个标准差。

样本标准差:样本方差定义为均值差的平方和,也称为均方误差 (MSE)。估计的标准差 (s) 等于样本方差/样本误差 () 的平方根。在看电视的调查中,英国估计的方差为 100,而美国估计的方差为 25。取方差的平方根得到样本标准差 (s),英国为 10,美国为 5。

样本量:在对美国人和英国人的调查中,每组的样本量为 100 人。

2.1 正态分布均值的置信区间

正态分布数据呈钟形,样本均值在中间,其余数据均匀地分布在均值两侧。符合标准正态分布的数据的置信区间为:

其中,CI 为置信区间, 为总体均值, 分布的临界值, 为总体标准差, 为总体规模的平方根。 分布的置信区间遵循相同的公式。在现实生活中,我们永远不知道人口的真实值 (除非能做一次完整的人口普查)。因此,我们用样本数据中的值替换总体值,此时上式变为:

其中, 是样本均值, 是样本标准差。

在对美国人和英国人看电视习惯的调查中,我们可以用样本均值、样本标准差和样本量来代替总体均值、总体标准差和人口规模。为了计算 95% 置信区间,我们可以将值代入公式。

  • 美国:,对于美国来说,95% 置信区间的下限和上限分别为 34.02 和 35.98;
  • 英国:,对于英国来说,95% 置信区间的下限和上限分别为 33.04 和 36.96。

2.2 比例的置信区间

比例的置信区间与均值的置信区间遵循相同的模式,但需使用样本比例乘 1 减去样本比例的标准差:

其中, 为样本中的比例 (如看电视人群所占的比重),分布的临界值, 为样本量。

2.3 非正态分布数据的置信区间

要计算非正态分布数据均值的置信区间,有两种选择: 一是找到与数据形状匹配的分布,并使用该分布计算置信区间。二是对数据进行转换,使其符合正态分布,然后找到转换后数据的置信区间。

数据转换在统计学中非常常见,例如,当数据遵循对数曲线,但我们希望将其与线性数据一起使用时,只需要在计算置信区间的上界和下界时对数据进行反向变换。

3. 汇报置信区间

论文中有时会汇报置信区间,但研究人员更经常汇报他们估计的标准差。如果我们被要求汇报置信区间,应该包括置信区间的上下限。例如,我们发现美国和英国平均每周看电视为 35 小时,但是英国的估计差异 (95% CI=[33.04, 36.96]) 比美国(95% CI=[34.02, 35.98]) 更大。

在显示组间差异或绘制线性回归图时,研究人员通常会包括置信区间,以可视化估计值周围变化。

4. Stata实例

4.1 计算置信区间

首先,导入数据并显示数据基本格式。

. sysuse auto, clear
. des

Observations: 74 1978 automobile data
Variables: 12 13 Apr 2020 17:45
(_dta has notes)
-------------------------------------------------------------
Variable Storage Display Value
name type format label Variable label
-------------------------------------------------------------
make str18 %-18s Make and model
price int %8.0gc Price
mpg int %8.0g Mileage (mpg)
rep78 int %8.0g Repair record 1978
headroom float %6.1f Headroom (in.)
trunk int %8.0g Trunk space (cu. ft.)
weight int %8.0gc Weight (lbs.)
length int %8.0g Length (in.)
turn int %8.0g Turn circle (ft.)
displacement int %8.0g Displacement (cu. in.)
gear_ratio float %6.2f Gear ratio
foreign byte %8.0g origin Car origin
-------------------------------------------------------------
Sorted by: foreign

然后,分别以变量 priceforeign 为例,计算它们各自均值在 95% 置信水平的置信区间。其中,前者为连续变量,后者为分类变量。

. ci means price, level(95)

Variable | Obs Mean Std. err. [95% conf. interval]
-------------+------------------------------------------------------
price | 74 6165.257 342.8719 5481.914 6848.6

. ci proportions foreign
Binomial exact
Variable | Obs Proportion Std. err. [95% conf. interval]
-------------+------------------------------------------------------
foreign | 74 .2972973 .0531331 .196584 .4148353

最后,我们以 price 为因变量,以 weightlengthforeign 为自变量,演示获取回归系数在 95% 置信水平的置信区间。

. reg price weight length foreign, level(95)

Source | SS df MS Number of obs = 74
-------------+---------------------------------- F(3, 70) = 28.39
Model | 348565467 3 116188489 Prob > F = 0.0000
Residual | 286499930 70 4092856.14 R-squared = 0.5489
-------------+---------------------------------- Adj R-squared = 0.5295
Total | 635065396 73 8699525.97 Root MSE = 2023.1
------------------------------------------------------------------------------
price | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
weight | 5.775 0.959 6.02 0.000 3.861 7.688
length | -91.371 32.828 -2.78 0.007 -156.845 -25.897
foreign | 3573.092 639.328 5.59 0.000 2297.992 4848.191
_cons | 4838.021 3742.010 1.29 0.200 -2625.183 12301.224
------------------------------------------------------------------------------

4.2 画置信区间

首先,在上述模型基础上加入尽可能多的控制变量,通过回归发现,weightforeign 均在 95$% 显著性水平上显著,而其他变量不显著。

. reg price weight length foreign rep78 headroom trunk turn displacement gear_ratio

Source | SS df MS Number of obs = 69
-------------+---------------------------------- F(9, 59) = 9.76
Model | 345099215 9 38344357.2 Prob > F = 0.0000
Residual | 231697744 59 3927080.41 R-squared = 0.5983
-------------+---------------------------------- Adj R-squared = 0.5370
Total | 576796959 68 8482308.22 Root MSE = 1981.7
------------------------------------------------------------------------------
price | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
weight | 4.588 1.381 3.32 0.002 1.826 7.351
length | -74.399 39.404 -1.89 0.064 -153.246 4.449
foreign | 3427.889 891.474 3.85 0.000 1644.052 5211.725
rep78 | 159.006 316.432 0.50 0.617 -474.172 792.185
headroom | -636.864 379.994 -1.68 0.099 -1397.229 123.502
trunk | 72.736 94.205 0.77 0.443 -115.768 261.240
turn | -110.877 121.984 -0.91 0.367 -354.966 133.212
displacement | 11.303 8.271 1.37 0.177 -5.247 27.852
gear_ratio | -391.968 1085.269 -0.36 0.719 -2563.586 1779.651
_cons | 8905.397 5885.535 1.51 0.136 -2871.531 20682.325
------------------------------------------------------------------------------

然后,画出各变量的估计值及 95% 置信区间。

. coefplot, yti("变量") xti("系数估计值 + 95% 置信区间") xline(0)

5. 总结

置信区间有时被解释为估算的 “真实值” 位于置信区间范围内。事实并非如此。置信区间不能告诉我们找到真实值的可能性有多大,因为它是基于样本的估计,而不是总体。置信区间只告诉我们如果重新进行抽样或以完全相同的方式再次进行实验时,可能会发现的值的范围。

如果抽样方式越准确,或者实验越真实,置信区间包含估计值真实值的可能性就越大。但是这种准确性是由研究方法决定的,而不是由收集数据后所做的统计数据决定的!

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 统计 置信区间, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:Stata入门
    • 25常见种误区:P值、置信区间和统计功效
  • 专题:Stata命令
    • Stata:描述性统计分析新命令-dstat
  • 专题:Stata资源
    • 在线统计课本分享:online-statistics-book
  • 专题:数据处理
    • Stata数据处理:清洗中国城市建设统计年鉴
    • Stata:变量非重复值统计-distinct
    • Stata:mtab2-将二维统计表存储为矩阵
    • 滚动吧统计量!Stata数据处理
    • Stata数据处理:统计组内非重复值个数
  • 专题:Stata绘图
    • 常用科研统计绘图工具介绍
  • 专题:结果输出
    • Stata结果输出:addest自己定制输出的统计量
    • Stata结果输出-addest:自己添加统计量
    • baselinetable命令:论文基本统计量表格输出到Excel和Word
    • sumup:快速呈现分组统计量
    • Stata:一文搞定论文表1——基本统计量列表
  • 专题:回归分析
    • 抛弃p值?经济显著性与统计显著性
    • Stata:如何估计置信区间?
  • 专题:机器学习
    • Lasso:拉索中如何做统计推断

课程推荐:面板数据因果推断
主讲老师:徐轶青 (斯坦福大学)
🍓 课程主页https://gitee.com/arlionn/Course

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存