查看原文
其他

【怀瑾握瑜】统计复习顺着这条线------一切就是这么简单!!!

The following article is from 高中数学王晖 Author 高中数学王晖

点击上方蓝色字体“高中数学王晖”关注王晖老师,免费获取各种知识干货和学习经验~~~您的点赞转发是对老师的最大鼓舞~~~

距高考还有79天

















统计部分主要研究两个方向,一是对数据的收集,二是对收集的数据进行分析。数据收集:从总体中获取样品数据的方法,主要有三种:简单的随机抽样,系统抽样和分层抽样。数据分析:用抽取的样本数据评估总体数据的分布情况主要从两个方面入手:数字特征和统计图表。样本的数字特征包括:众数,中位数,平均数,方差和标准差;常用的样本统计图表有:饼状图,柱状图,茎叶图,折线图,频率分布直方图和散点图。


数据收集


对于总体数据的收集,主要有:简单的随机抽样,系统抽样和分层抽样,它们共同特点是:不放回的抽取,而且每个个体被抽到的概率相等。

简单的随机抽样简单随机抽样主要方法有两种:抽签法和随机数法简单随机抽样的四个特征:总体有限,逐个抽取,不放回,等可能抽签法:抽签法仅适用于总体数量不多情况,且个体差异不大,易使总体处于“搅拌”均匀(等可能)的状态,从而获得有代表性的数据。如果总体数量较多,利用抽签法可能会出现“搅拌”不均匀的情况,影响了数据的质量。抽签法步骤:

随机数法:

随机数法包括:随机数表,随机数骰子,计算机产生的随机数。课本主要介绍了随机数表法。

随机数法适用于总体数量较多,个体差异不大,但抽取样品数量较少的情况。解决了抽签法由于总体数量过多可能存在的“搅拌”不均的问题,不过由于数量过多,对个体编号的工作量也相应的增加了很多。

随机数表法步骤:

特别说明:

① 随机数表是统计工作者用计算机生成的随机数组成,每个位置数字出现的概率都是相等的。② 抽签法和随机数法对个体的编号是不同的,抽签法可以利用个体已有的编号,也可以重新编号。但随机数表法通常需要重新编号,且要看总体的个数,所编号码数位必须相同,如总体数为100,通常为00,01,…,99。③ 为了保证选取数字的随机性,应在面对随机数表之前就指出开始数字的纵横位置,一个数字代表一列。另外随机数表的读取方向:向左,向右,向上,向下均可,不过一旦选择了其中一个方向,就要按照这个方向读取,直到获得所需要的样品数量,根据习惯,通常是向右读取。④ 用随机表法抽出的样本编号超过总体号码,或者出现重复时,均应该舍掉。  系统抽样  

系统抽样适用于总体数量较多,个体差异不大,抽样数量较多的情况。

系统抽样步骤:

① 先将总体的N个个体编号。有时可直接利用个体自身所带的号码,如学号,准考证号,门牌号等;② 确定分段间隔k,对编号进行分段。当N/n(n是样本容量)是整数时,取k=N/n;③ 在第1段用将简单随机抽样确认第一个个体的编号L(L≤k);④ 按照一定的规则抽取样本,通常是将L加上间隔k得到第2个个体编号(L+k),再加k得到第3个个体编号(L+2k),依次进行下去,直到获取整个样本。

备注:当总体容量不能被样本容量整除时,可以先用简单随机抽样的随机数表法,剔除多余的个体,然后再按照系统抽样的步骤抽取。剔除的个体不影响抽样的公平性,因为被剔除的机会也是均等的。另外在这个过程中涉及到了两次编号,第一次是因为随机数表法编号,第二次是剔除多余个体之后,需要重新编号。

  分层抽样  

分层抽样适用于总体由差异明显的几个部分组成,并且分层的部分在分别抽样时需要利用简单的随机抽样或者系统抽样协助。

分层抽样步骤:

备注:

① 总体分层时,每层的各个个体互不交叉,遵循不重复、不遗漏原则。

② 各层根据抽样比确定抽取数量,如果不是整数时,按照四舍五入取整。

③ 各层独立抽取时,可能用到简单的随机抽样或者系统抽样。



数据分析


用抽取的样本数据评估总体数据分布主要有两种方法:数字特征和统计图表。数字特征是通过“数”对数据进行分析,统计图表则是通过“形”对数据进行分析。可见数形结合思想分布在高中数学的各个章节。

  数字特征  

样本的数字特征包括:众数,中位数,平均数,方差和标准差,其中众数,中位数和平均数反映了一组数据的一般水平,方差和标准差则反映了一组数据的稳定程度。众数:在一组数据中,出现次数最多的数据。中位数:将一组数据按大小依次排列,处在最中间的一个数或中间两个数的平均数。平均数:是指在一组数据中所有数据之和再除以这组数据的个数,即这组数据的算术平均数。平均数反映了样本数据全体信息。计算公式如下:

标准差:样本数据到平均数的一种平均距离。计算公式如下:

方差:标准差的平方s2计算公式如下:

特别说明:

① 一组数据的众数不唯一,也可能没有众数(每个数据只出现一次)。② 任意一组数据,众数和中位数不受极端值的影响,而平均数则会掩盖了一些极端情况的影响,例如在跳水比赛中,选手的最终得分通常去掉一个最高分,同时去掉一个最低分,这样做的目的就是要去除极端值对选手比赛成绩的影响,使选手所得分数更能体现他的真实水平。因此当一组数据存在极端值时,众数和中位数更能体现这组数据的一般水平。③ 一组数据的极端情况同样不能忽略,则需用标准差去衡量这组数据的波动情况。标准差s越大,数据的波动越大,数据越不稳定;s越小,数据的波动越小,数据越稳定。④ 在刻画样本数据的波动程度上,方差跟标准差是一样的,但在解决实际问题时,一般多采用标准差。


  统计图表  

对样本数据进行分析,利用统计图表是最直观的,常见的统计图表有:饼状图,柱状图,茎叶图,折线图,频率分布直方图和散点图。

饼状图:

饼状图显示一组数据各项的大小及所占的比例。

柱状图:

柱状图也叫条形图,主要以长方形的高度为变量的统计图表,常用于描述离散型分类数据的对比,且长方形的宽度一致,有一定间距。

茎叶图:

茎叶图是统计中来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数。

备注:

①当数据为整数时:通常个位数字在叶上,其他位数在茎上。

②当数据为小数时:通常小数部分在叶上,整数部分在茎上。

③茎叶图中的数据在中位数附近越集中,则越稳定。

茎叶图的特点:

优点:不仅保留了原有数据的所有信息并展示了各个数据的分布情况。

缺点:当样本数量较多时,茎叶图中的数据就会占据很大的空间,叶也会很长。




折线图:

折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布,反映了一组数据的变化趋势。接下来带大家一起在折线图中,重新认识一下数据的平均数和方差                 对于任意一组数据x1,x2,……,xn,将其绘制如下的折线图:

备注:折线图横坐标代表数据个数,纵坐标代表对应的数值(xi,i=1,2,……,n)大小。根据上图的折线图,隐约的感觉这组数据会在某一条直线上下波动,而且这条直线必备的条件是:确保各个数据在它上面的波动幅度尽可能的小,即各个数据到这条直线的距离之和最小,如下图:

那么如何确认这条直线呢?首先假设这条直线所对应的数值为x即“│x1-x│+│x2-x│+……+│xn-x│”取值最小时对应的x,就是我们要找的这条“平衡线”。由于绝对值使得计算不方便,而│xn-x│与(xn-x)2变化趋势是一致的,所以可将上式优化处理如下:

d=(x1-x)2+(x2-x)2+……+(xn-x)2

即处理之后求d的最小值,具体如下:

频率分布直方图:

画频率分布直方图的步骤:

① 求极差(即数据的最大值与最小值只差)

② 决定组距与组数

③ 数据分组

④ 列频率分布表

⑤ 画频率分布直方图

特别说明:

① 当样本容量不超过100时,按照数据的多少,通常分成5-12组。

② 频率分布直方图,横坐标代表“组距”,纵坐标代表“频率/组距”,小长方形的面积表示相应各组的频率,各小长方形的面积的总和等于1。

③ 在频率分布直方图中,众数为最高矩形的中点;中位数在左边和右边的直方图的面积相等的位置上;平均数为每个小矩形的面积乘以小矩形底边中点的横坐标之和。

频率分布直方图的特征:

优点:频率分布直方图能够很容易的表示大量数据,且可以清楚地看出数据分布的总体趋势。

缺点:从频率分布直方图得不出原始的数据内容,即把数据表示成直方图后,原有的具体数据就丢失了。因此利用频率分布直方图求出的众数,中位数和平均数均为这组数据的估计值。


散点图:

将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图。通过散点图可初步判断两个变量之间是否具有相关关系,它反映了各数据的密切程度。在散点图上,如果点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在从左上角到右下角的区域内,两个变量的相关关系为负相关。

回归直线方程:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.回归直线对应的方程叫做回归直线方程,简称回归方程.备注:两个变量之间的相关性除了线性相关以外,还有曲线相关关系。另外,两个变量的相关关系是一种非确定的关系。这与我们之前学过的函数(确定关系)是不一样的。回归直线方程如下:

我们通常利用“最小二乘法”算出回归直线的斜率和截距。“最小二乘法”的思想是使得样本数据的各点到回归直线距离的平方和最小。备注:“最小二乘法”的思想所求的的回归直线与之前折线图中求出的“平衡线”的思想是完全一致的。

由上图可知各数据在回归直线上下波动,各数据点到直线的距离用点到直线的距离公式即可,不过在这边为了计算简便,对数据点到直线的距离做了近似处理如下图所示:

d1=│y1-bx1-a│,

d2=│y2-bx2-a│,

……

di=│yi-bxi-a│,

……

dn=│yn-bxn-a│

同样绝对值使得计算不方便,做优化处理如下:

d1’=(y1-bx1-a)2

d2’=(y2-bx2-a)2

……

di’=(yi-bxi-a)2

……

dn’=(yn-bxn-a)2

即转化为求:Q=(y1-bx1-a)2+(y2-bx2-a)2+……+(yi-bxi-a)2+……+(yn-bxn-a)2的最小值,继而得到了回归直线的系数公式:

相关系数r:
除了利用散点图可以直观的看出两个变量之间的相关关系以外,也可以通过相关系数r来判断两个变量之间的线性相关关系的强弱。相关系数r的公式如下:

样本相关系数r的性质:① │r│≤1;通常│r│>0.75,认为两个变量之间有很强的线性关系,当│r│<0.25表明两个变量之间基本没有相关性。② 当r>0时,表明两个变量正相关;当r<0,表明两个变量负相关。③相关系数r只能确认两个相关变量之间线性关系的强弱。


往期优质数学干货链接:

【津津乐道】从圆锥曲线的“特征点”,体会数学之美!!!

【循序渐进】高中数学十大必会基础考点------提升高度的同时更要注重宽度!!!

【锦上添花】圆锥曲线的齐次化处理------教你如何优化运算!!!

【钟灵毓秀】“四种模型+一种思想”------完美解决数列通项问题!!!

【笃志好学】数学备考的八大解题技巧------真的都是满满的套路!!!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存