Stata：正确理解置信区间

Original 连享会连享会 2023-02-21

收录于合集 #置信区间 2个

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：公开课-直播 | 计量专题 | 关于连享会

连享会 · 2022 面板数据因果推断专题

作者：劳伟健 (西南财经大学)
邮箱：lwj0909@smail.swufe.edu.cn

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

编者按：本文部分参考自下文，特此致谢！
Source：Bevans, R. (July 9, 2022). Understanding Confidence Intervals | Easy Examples & Formulas. Scribbr. Retrieved October 5, 2022. -Link-

1. 何谓置信区间
2. 计算置信区间

2.1 正态分布均值的置信区间
2.2 比例的置信区间
2.3 非正态分布数据的置信区间

3. 汇报置信区间
4. Stata实例

4.1 计算置信区间
4.2 画置信区间

5. 总结
6. 相关推文

1. 何谓置信区间

无论是描述性统计还是检验统计量，都是基于总体的样本进行估计的，因此存在不确定性。置信区间是指以同样的方式重新对总体抽样时，期望的估计出现在一定范围内的概率。

在统计学中，置信度是描述概率的另一种方式。例如，构建一个具有 95% 置信水平的置信区间，那么 100 次的估计值中将有 95 次落在置信区间。其中，95% 为置信度，或置信水平、置信系数，一般用 CI 表示。如果我们使用的来表示统计显著性，那么置信度将是 1-0.05=0.95，即 95%。

我们在很多场景下都会使用置信区间，包括：

比例
总体平均值
总体平均值和比例之间的区别
组间差异

以上均为点估计，并没有给出任何关于变量数据变化的相关信息，因此置信区间对于理解点估计值附近的变化是有用的。例如，我们分别调查了 100 名英国人和美国人看电视的习惯，发现两组人平均每周看 35 小时电视。然而，被调查的英国人看电视的时间存在很大差异，而美国人看电视的时间都差不多。尽管两组人的点估计值 (平均观看时长) 相同，但英国人的估计值比美国人的估计值有更大的置信区间。

如下图所示，蓝色代表美国人看电视时间的分布情况，绿色为英国人。两份数据均服从正态分布，并且都具有相同的均值 35 小时 (虚线)，但是蓝色分布更加集中，而绿色更加分散，说明英国人看电视的时间存在更大的差异性，而美国人看电视的时间更为集中。

2. 计算置信区间

如果要计算置信区间，我们需要知道以下 4 个值：

点估计值：置信区间的点估计是任何统计量的估计(总体均值，总体均值之间的差异，比例，组间差异等)。在以上看电视的例子中，点估计是看电视的平均小时数 35 小时。

点估计的临界值：首先，选择一个值。最常见的值是。然后，决定单尾置信区间还是双尾置信区间。最后，查找与值对应的临界值。如果数据服从正态分布，或者大样本近似服从正态分布，则可以使用分布来查找临界值。如果数据是近似正态分布的小数据集 (n 30)，则使用分布代替。对于统计量，一些最常见的值如下表所示：

置信区间	90%	95%	99%
单尾 CI 的值	0.1	0.05	0.01
双尾 CI 的值	0.05	0.025	0.005
统计量	1.64	1.96	2.57

在看电视的调查中，有 30 多个观察结果，数据遵循近似正态分布 (钟形曲线)，因此我们可以使用分布。对于双尾 95% 置信区间，值为 0.025，对应的临界值为 1.96。这意味着，要计算置信区间的上下限，我们可以取均值 1.96 个标准差。

样本标准差：样本方差定义为均值差的平方和，也称为均方误差 (MSE)。估计的标准差 (s) 等于样本方差/样本误差 () 的平方根。在看电视的调查中，英国估计的方差为 100，而美国估计的方差为 25。取方差的平方根得到样本标准差 (s)，英国为 10，美国为 5。

样本量：在对美国人和英国人的调查中，每组的样本量为 100 人。

2.1 正态分布均值的置信区间

正态分布数据呈钟形，样本均值在中间，其余数据均匀地分布在均值两侧。符合标准正态分布的数据的置信区间为：

其中，CI 为置信区间，为总体均值，为分布的临界值，为总体标准差，为总体规模的平方根。分布的置信区间遵循相同的公式。在现实生活中，我们永远不知道人口的真实值 (除非能做一次完整的人口普查)。因此，我们用样本数据中的值替换总体值，此时上式变为：

其中，是样本均值，是样本标准差。

在对美国人和英国人看电视习惯的调查中，我们可以用样本均值、样本标准差和样本量来代替总体均值、总体标准差和人口规模。为了计算 95% 置信区间，我们可以将值代入公式。

美国：，对于美国来说，95% 置信区间的下限和上限分别为 34.02 和 35.98；
英国：，对于英国来说，95% 置信区间的下限和上限分别为 33.04 和 36.96。

2.2 比例的置信区间

比例的置信区间与均值的置信区间遵循相同的模式，但需使用样本比例乘 1 减去样本比例的标准差：

其中，为样本中的比例 (如看电视人群所占的比重)，为分布的临界值，为样本量。

2.3 非正态分布数据的置信区间

要计算非正态分布数据均值的置信区间，有两种选择: 一是找到与数据形状匹配的分布，并使用该分布计算置信区间。二是对数据进行转换，使其符合正态分布，然后找到转换后数据的置信区间。

数据转换在统计学中非常常见，例如，当数据遵循对数曲线，但我们希望将其与线性数据一起使用时，只需要在计算置信区间的上界和下界时对数据进行反向变换。

3. 汇报置信区间

论文中有时会汇报置信区间，但研究人员更经常汇报他们估计的标准差。如果我们被要求汇报置信区间，应该包括置信区间的上下限。例如，我们发现美国和英国平均每周看电视为 35 小时，但是英国的估计差异 (95% CI=[33.04, 36.96]) 比美国(95% CI=[34.02, 35.98]) 更大。

在显示组间差异或绘制线性回归图时，研究人员通常会包括置信区间，以可视化估计值周围变化。

4. Stata实例

4.1 计算置信区间

首先，导入数据并显示数据基本格式。

. sysuse auto, clear
. des 

 Observations:            74            1978 automobile data
    Variables:            12            13 Apr 2020 17:45
                                        (_dta has notes)
-------------------------------------------------------------
Variable    Storage   Display    Value
    name       type    format    label  Variable label
-------------------------------------------------------------
make          str18   %-18s             Make and model
price         int     %8.0gc            Price
mpg           int     %8.0g             Mileage (mpg)
rep78         int     %8.0g             Repair record 1978
headroom      float   %6.1f             Headroom (in.)
trunk         int     %8.0g             Trunk space (cu. ft.)
weight        int     %8.0gc            Weight (lbs.)
length        int     %8.0g             Length (in.)
turn          int     %8.0g             Turn circle (ft.)
displacement  int     %8.0g             Displacement (cu. in.)
gear_ratio    float   %6.2f             Gear ratio
foreign       byte    %8.0g    origin   Car origin
-------------------------------------------------------------
Sorted by: foreign

然后，分别以变量 price 和 foreign 为例，计算它们各自均值在 95% 置信水平的置信区间。其中，前者为连续变量，后者为分类变量。

. ci means price, level(95)

    Variable |   Obs      Mean   Std. err.    [95% conf. interval]
-------------+------------------------------------------------------
       price |    74  6165.257   342.8719     5481.914      6848.6

. ci proportions foreign
                                                    Binomial exact   
    Variable |   Obs  Proportion   Std. err.   [95% conf. interval]
-------------+------------------------------------------------------
     foreign |    74    .2972973   .0531331    .196584    .4148353

最后，我们以 price 为因变量，以 weight，length 和 foreign 为自变量，演示获取回归系数在 95% 置信水平的置信区间。

. reg price weight length foreign, level(95)

      Source |       SS           df       MS      Number of obs   =        74
-------------+----------------------------------   F(3, 70)        =     28.39
       Model |   348565467         3   116188489   Prob > F        =    0.0000
    Residual |   286499930        70  4092856.14   R-squared       =    0.5489
-------------+----------------------------------   Adj R-squared   =    0.5295
       Total |   635065396        73  8699525.97   Root MSE        =    2023.1
------------------------------------------------------------------------------
       price | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
      weight |      5.775      0.959     6.02   0.000        3.861       7.688
      length |    -91.371     32.828    -2.78   0.007     -156.845     -25.897
     foreign |   3573.092    639.328     5.59   0.000     2297.992    4848.191
       _cons |   4838.021   3742.010     1.29   0.200    -2625.183   12301.224
------------------------------------------------------------------------------

4.2 画置信区间

首先，在上述模型基础上加入尽可能多的控制变量，通过回归发现，weight 和 foreign 均在 95$% 显著性水平上显著，而其他变量不显著。

. reg price weight length foreign rep78 headroom trunk turn displacement gear_ratio 

      Source |       SS           df       MS      Number of obs   =        69
-------------+----------------------------------   F(9, 59)        =      9.76
       Model |   345099215         9  38344357.2   Prob > F        =    0.0000
    Residual |   231697744        59  3927080.41   R-squared       =    0.5983
-------------+----------------------------------   Adj R-squared   =    0.5370
       Total |   576796959        68  8482308.22   Root MSE        =    1981.7
------------------------------------------------------------------------------
       price | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
      weight |      4.588      1.381     3.32   0.002        1.826       7.351
      length |    -74.399     39.404    -1.89   0.064     -153.246       4.449
     foreign |   3427.889    891.474     3.85   0.000     1644.052    5211.725
       rep78 |    159.006    316.432     0.50   0.617     -474.172     792.185
    headroom |   -636.864    379.994    -1.68   0.099    -1397.229     123.502
       trunk |     72.736     94.205     0.77   0.443     -115.768     261.240
        turn |   -110.877    121.984    -0.91   0.367     -354.966     133.212
displacement |     11.303      8.271     1.37   0.177       -5.247      27.852
  gear_ratio |   -391.968   1085.269    -0.36   0.719    -2563.586    1779.651
       _cons |   8905.397   5885.535     1.51   0.136    -2871.531   20682.325
------------------------------------------------------------------------------

然后，画出各变量的估计值及 95% 置信区间。

. coefplot, yti("变量") xti("系数估计值 + 95% 置信区间") xline(0)

5. 总结

置信区间有时被解释为估算的 “真实值” 位于置信区间范围内。事实并非如此。置信区间不能告诉我们找到真实值的可能性有多大，因为它是基于样本的估计，而不是总体。置信区间只告诉我们如果重新进行抽样或以完全相同的方式再次进行实验时，可能会发现的值的范围。

如果抽样方式越准确，或者实验越真实，置信区间包含估计值真实值的可能性就越大。但是这种准确性是由研究方法决定的，而不是由收集数据后所做的统计数据决定的！

6. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 统计置信区间, m
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题：Stata入门

25常见种误区：P值、置信区间和统计功效

专题：Stata命令

Stata：描述性统计分析新命令-dstat

专题：Stata资源

在线统计课本分享：online-statistics-book

专题：数据处理

Stata数据处理：清洗中国城市建设统计年鉴
Stata：变量非重复值统计-distinct
Stata：mtab2-将二维统计表存储为矩阵
滚动吧统计量！Stata数据处理
Stata数据处理：统计组内非重复值个数

专题：Stata绘图

常用科研统计绘图工具介绍

专题：结果输出

Stata结果输出：addest自己定制输出的统计量
Stata结果输出-addest：自己添加统计量
baselinetable命令：论文基本统计量表格输出到Excel和Word
sumup：快速呈现分组统计量
Stata：一文搞定论文表1——基本统计量列表

专题：回归分析

抛弃p值？经济显著性与统计显著性
Stata：如何估计置信区间？

专题：机器学习

Lasso：拉索中如何做统计推断

课程推荐：面板数据因果推断
主讲老师：徐轶青 (斯坦福大学)
🍓 课程主页：https://gitee.com/arlionn/Course

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

Stata：正确理解置信区间

1. 何谓置信区间

2. 计算置信区间

2.1 正态分布均值的置信区间

2.2 比例的置信区间

2.3 非正态分布数据的置信区间

3. 汇报置信区间

4. Stata实例

4.1 计算置信区间

4.2 画置信区间

5. 总结

6. 相关推文

🍏 关于我们

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

生成图片，分享到微信朋友圈

Stata：正确理解置信区间

1. 何谓置信区间

2. 计算置信区间

2.1 正态分布均值的置信区间

2.2 比例的置信区间

2.3 非正态分布数据的置信区间

3. 汇报置信区间

4. Stata实例

4.1 计算置信区间

4.2 画置信区间

5. 总结

6. 相关推文

🍏 关于我们

您可能也对以下帖子感兴趣