查看原文
其他

老姚专栏丨 为什么样本方差公式的分母为n-1?

姚耀军 数据Seminar 2023-01-01


数据seminar每天18:00准时与您见面!




启研学社由知名学者担任学术顾问,高校师生与企研数据科学团队联合组建,以大数据资源及相关技术助力中国学术与智库研究为宗旨的研究组织。团队当前的主要目标是挖掘经济社会大数据资源在学术和智库领域的应用价值,开展学术大数据治理研究,以及探索大数据分析技术融入中国经济社会研究的可行进路。



为什么样本方差公式的分母为

学习过统计学基础的朋友们都知道:总体方差,其中为总体均值,为总体容量;样本方差,其中为样本均值,为样本容量。令很多初学者纳闷的是,为什么样本方差公式的分母为n-1而不为n呢?
为了回答上述问题,我们首先来理解一个事实:一般而言,总体分布要比样本分布显得更离散。例如,当全国成年人的身高数据构成一个总体时,总体分布的离散程度就会因“巨人”姚明的身高而变得比较大。然而,若从总体中随机抽取1000人形成一个样本,则可以预期,样本分布的离散程度要比总体分布的离散程度小,其基本的道理是:样本包含姚明的概率极低。换言之,1000个样本观测单元大概率都是一些具有正常身高的人。
总体分布比样本分布显得更离散,用统计学术语讲,就是总体的变异性大于样本的变异性。理解这个事实是重要的,因为“利用样本中的有限数据推断出总体的大致情况”正是统计推断的目的,而这一事实意味着样本的变异性是对总体变异性的有偏估计。
幸运的是,样本变异相对于总体变异的偏差是恒定而可预测的,因而可被校正。只要偏差可被校正,样本变异就是对总体变异的一个有用的“指示器”——一个简单的类比是,如果汽车速度表上显示的速度总是比实际速度慢1公里,那么这并不意味着速度表没有用处。其实,只要我们每次在读取速度时将速度表上显示的数据加上1,就能获知准确的速度。
正是为了校正样本变异的偏差,样本公式的分母才为而不为。显然,作为分母让样本方差变得更大。但问题是,为什么是而不是其他小于的数呢?可以证明:,亦即以为分母的样本方差是对总体方差的无偏估计。本文在此不具体证明这个统计学结论,而是替之以一个比较直观的数值例子。
假设一个总体仅包含3个数据:0、3、9,总体均值;总体方差。针对该总体,基于有放回的抽样方案,我们可以获得9个样本容量均为2的样本。对于每一个样本,我们首先计算样本均值,然后通过公式计算无偏样本方差,通过计算有偏样本方差。具体计算结果见下表:
样本样本均值无偏样本方差有偏样本方差
(0,0)000
(0,3)1.54.52.25
(0,9)4.540.520.25
(3,0)1.54.52.25
(3,3)300
(3,9)6189
(9,0)4.540.520.25
(9,3)6189
(9,9)900
合计3612663
均值4147
上表显示,样本均值的均值等于总体均值,表明样本均值是总体均值的无偏估计量;无偏样本方差的均值等于总体方差,表明无偏样本方差是总体方差的无偏估计量;有偏样本方差的均值小于总体方差,表明有偏样本方差低估了总体方差。
在统计学中,作为样本方差公式的分母,被称为自由度——样本中独立、可自由变化数据的数目。对于一个样本容量为的样本,在计算样本方差时其自由度之所以为,是因为计算样本方差首先需计算样本均值,而这相当于样本数据之和在计算样本方差前就已经被给定。显然,在个数据之和被给定的情况下,一旦个数据的取值被确定,余下一个数据的取值就随之而定。因此,可以自由变化数据的数目为。鉴于仅有个数据对样本总变异作出独立的贡献,样本总变异在而非个数据间进行平均分摊,从直觉上看应是合理的。



END



企研数据创始学术顾问 · 耀军



姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授,博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,企研数据创始学术顾问。曾获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。研究领域:金融发展理论与实证、应用计量经济学。

邮箱:yaoyaojun@163.com

代表论文:

[1]姚耀军,施丹燕.互联网金融区域差异化发展的逻辑与检验——路径依赖与政府干预视角[J].金融研究,2017(05):127-142.

[2]姚耀军.制度质量对外资银行进入的影响——基于腐败控制维度的研究[J].金融研究,2016(03):124-139.

[3]姚耀军,董钢锋.中小企业融资约束缓解:金融发展水平重要抑或金融结构重要?-来自中小企业板上市公司的经验证据[J].金融研究,2015(04):148-161.






点击阅读原文进入CCAD数据库

长按识别,添加小客服企业微信~



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧


往期推荐


老姚专栏丨为什么多重t检验不能取代F检验?

资讯丨经管类——2020年度国家社科基金重大项目立项名单公示!

软件应用丨没用过这几招,别说你会使用Jupyter Notebook!

软件应用丨讲真,Markdown有啥魅力,竟让如此多人入迷!

软件应用丨手把手教你用Python爬取存储数据,还能自动在Excel中可视化!

资源丨经管类北大核心期刊及投稿地址清单

机器学习丨DeepMind发布最新《神经网络中持续学习》综述论文!




数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



文丨姚耀军

排版编辑丨夏一玮 青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存