突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

突发!北京某院集体罢工!

淄博向东,惠泊向西:在人民与人民币之间,惠泊停车选择了人民币

【少儿禁】马建《亮出你的舌苔或空空荡荡》

10部适合女性看的唯美情色电影

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

统计学基础:总体与样本的基本定义&常用统计量概述

NK冬至 首席数据科学家 2022-07-01

 统计学相关的知识,是数据科学的重要基础之一。


之前咱们分享过很多数据应用相关的内容,从《用户画像》《数据采集》《BI系统》等等。今天开始系统分享一些和基础理论相关的内容,包括统计学、概率论等学科。



01

总体、样本与抽样


统计学,其实本质就是研究样本与总体的学科。


(1)关于总体


首先,什么是总体呢?


总体,就是我们想研究的对象的全体。比如,我们要研究淘宝的所有用户,那淘宝的所有7亿用户就是总体。总体用户中的每一个人,就是一个个体


如果总体是有限个,就是有限总体,无限个就是无限总体


对于总体,我们给出一个随机变量X,随机变量的分布就是总体分布


(2)关于样本


研究总体的过程中,我们就发现一个问题,总体的数量往往过多。比如针对淘宝网所有用户,想研究所有用户的满意度,咋办?要一个一个人全部调查一遍嘛?显然不现实。这时就有了抽样以及样本的价值。


什么是抽样?


简单来说,抽样就是将总体中取一部分。比如全部淘宝用户抽1000人,这1000人就是样本,抽取的过程就是抽样。1000人就是样本大小,也叫样本容量


对于抽了n个样本X1,X2,……Xn,我们通常用以下表示样本变量



如果发生了抽样,那每个样本都有一个具体的值,比如样本X1的取值是x1,那我们就把x1叫观测值,全部样本的观测值则用以下表示:



总结而言,大写表示的是变量,小写表示的是确定的数值(因为已经抽取出来并测量了)。


(3)关于抽样


关于抽样,我们要求的是简单随机抽样。有以下几个要求:


  • 同分布。要求每个样本被抽到的机会都是均等的

  • 相互独立。抽到某个个体对其他个体被抽到是没有影响的。


当然了,简单随机抽样是比较理想的情况,实际操作中比较困难。


(4)样本的分布


由于样本的抽取是独立的,所以样本的概率函数就等于每个样本的联合概率分布。



02


统计量


了解了总体和样本,我们再看看看统计量。


(1)统计量的定义


首先看一下定义:不含任何未知参数的样本的函数,就叫统计量


说白了,统计量就是由我们取的样本、构造的一个不含未知参数的函数。函数可以是任意的,随意构造,只要保证不含未知参数即可(可以含已知参数)。


比如,我们求样本的和,求样本平方之后的和,这些都是统计量。


(2)常见统计量


这里介绍一下常见的统计量。


样本均值:



样本方差(修正过的):



注意,这里的样本方差是修正过的。细心的朋友应该也已经发现了,这里的系数分母是n-1(未修正的样本方差的分母是n,也是我们初中高中一直用的方差的定义)。修正的主要目的是为了使得样本方差是总体方差的无偏估计。关于无偏估计,后续再阐述。


样本标准差:



样本K阶原点矩:



当这里的k=1的时候,一阶原点矩就是均值。


样本K阶中心矩:



当这里的k=2的时候,就是未修正的样本方差。



03


样本均值和方差的性质


上面讲到了很多统计量,用的比较多的,其实依旧是样本均值和方差。因此,针对样本均值和方差的一些性质,进行详细阐述。



(1)样本均值的期望是总体均值


啥意思呢,举例说明。


假设全体7亿淘宝用户对网站的平均满意度是80分(这个是未知的),抽样了1000个淘宝用户,统计了这1000个用户每个人的满意度,并求均值。那这个样本均值的期望就应该等于80分。


(2)样本均值的方差是总体方差的n分之一


从这里,我们可以看出来。样本均值的方差比总体方差变小了。而且样本数量越大,均值的方差越小。为啥呢?


其实是这样。方差反映的是数据的波动程度。当我们选样本的数量越多的时候,那么越接近总体的数量,人数越多数据的波动性越小。这个道理也是比较容易理解的。


(3)样本方差的期望等于总体方差

这里具体证明过程就不展开了。


关于总体、样本、统计量相关的内容,就先介绍到这。下回继续分享抽样分布相关的内容,欢迎继续关注。

文章有问题?点此查看未经处理的缓存