【怀瑾握瑜】统计复习顺着这条线------一切就是这么简单!!!
The following article is from 高中数学王晖 Author 高中数学王晖
点击上方蓝色字体“高中数学王晖”关注王晖老师,免费获取各种知识干货和学习经验~~~您的点赞转发是对老师的最大鼓舞~~~
距高考还有79天
统计部分主要研究两个方向,一是对数据的收集,二是对收集的数据进行分析。数据收集:从总体中获取样品数据的方法,主要有三种:简单的随机抽样,系统抽样和分层抽样。数据分析:用抽取的样本数据评估总体数据的分布情况主要从两个方面入手:数字特征和统计图表。样本的数字特征包括:众数,中位数,平均数,方差和标准差;常用的样本统计图表有:饼状图,柱状图,茎叶图,折线图,频率分布直方图和散点图。
数据收集
对于总体数据的收集,主要有:简单的随机抽样,系统抽样和分层抽样,它们共同特点是:不放回的抽取,而且每个个体被抽到的概率相等。
随机数法:
随机数法包括:随机数表,随机数骰子,计算机产生的随机数。课本主要介绍了随机数表法。
随机数法适用于总体数量较多,个体差异不大,但抽取样品数量较少的情况。解决了抽签法由于总体数量过多可能存在的“搅拌”不均的问题,不过由于数量过多,对个体编号的工作量也相应的增加了很多。
随机数表法步骤:
特别说明:
① 随机数表是统计工作者用计算机生成的随机数组成,每个位置数字出现的概率都是相等的。② 抽签法和随机数法对个体的编号是不同的,抽签法可以利用个体已有的编号,也可以重新编号。但随机数表法通常需要重新编号,且要看总体的个数,所编号码数位必须相同,如总体数为100,通常为00,01,…,99。③ 为了保证选取数字的随机性,应在面对随机数表之前就指出开始数字的纵横位置,一个数字代表一列。另外随机数表的读取方向:向左,向右,向上,向下均可,不过一旦选择了其中一个方向,就要按照这个方向读取,直到获得所需要的样品数量,根据习惯,通常是向右读取。④ 用随机表法抽出的样本编号超过总体号码,或者出现重复时,均应该舍掉。 系统抽样系统抽样适用于总体数量较多,个体差异不大,抽样数量较多的情况。
系统抽样步骤:
备注:当总体容量不能被样本容量整除时,可以先用简单随机抽样的随机数表法,剔除多余的个体,然后再按照系统抽样的步骤抽取。剔除的个体不影响抽样的公平性,因为被剔除的机会也是均等的。另外在这个过程中涉及到了两次编号,第一次是因为随机数表法编号,第二次是剔除多余个体之后,需要重新编号。
分层抽样分层抽样适用于总体由差异明显的几个部分组成,并且分层的部分在分别抽样时需要利用简单的随机抽样或者系统抽样协助。
分层抽样步骤:
备注:
① 总体分层时,每层的各个个体互不交叉,遵循不重复、不遗漏原则。
② 各层根据抽样比确定抽取数量,如果不是整数时,按照四舍五入取整。
③ 各层独立抽取时,可能用到简单的随机抽样或者系统抽样。
数据分析
用抽取的样本数据评估总体数据分布主要有两种方法:数字特征和统计图表。数字特征是通过“数”对数据进行分析,统计图表则是通过“形”对数据进行分析。可见数形结合思想分布在高中数学的各个章节。
数字特征样本的数字特征包括:众数,中位数,平均数,方差和标准差,其中众数,中位数和平均数反映了一组数据的一般水平,方差和标准差则反映了一组数据的稳定程度。众数:在一组数据中,出现次数最多的数据。中位数:将一组数据按大小依次排列,处在最中间的一个数或中间两个数的平均数。平均数:是指在一组数据中所有数据之和再除以这组数据的个数,即这组数据的算术平均数。平均数反映了样本数据全体信息。计算公式如下:
方差:标准差的平方s2。计算公式如下:
特别说明:
① 一组数据的众数不唯一,也可能没有众数(每个数据只出现一次)。② 任意一组数据,众数和中位数不受极端值的影响,而平均数则会掩盖了一些极端情况的影响,例如在跳水比赛中,选手的最终得分通常去掉一个最高分,同时去掉一个最低分,这样做的目的就是要去除极端值对选手比赛成绩的影响,使选手所得分数更能体现他的真实水平。因此当一组数据存在极端值时,众数和中位数更能体现这组数据的一般水平。③ 一组数据的极端情况同样不能忽略,则需用标准差去衡量这组数据的波动情况。标准差s越大,数据的波动越大,数据越不稳定;s越小,数据的波动越小,数据越稳定。④ 在刻画样本数据的波动程度上,方差跟标准差是一样的,但在解决实际问题时,一般多采用标准差。对样本数据进行分析,利用统计图表是最直观的,常见的统计图表有:饼状图,柱状图,茎叶图,折线图,频率分布直方图和散点图。
饼状图:
饼状图显示一组数据各项的大小及所占的比例。
柱状图:
柱状图也叫条形图,主要以长方形的高度为变量的统计图表,常用于描述离散型分类数据的对比,且长方形的宽度一致,有一定间距。
茎叶图是统计中来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数。
备注:
①当数据为整数时:通常个位数字在叶上,其他位数在茎上。
②当数据为小数时:通常小数部分在叶上,整数部分在茎上。
③茎叶图中的数据在中位数附近越集中,则越稳定。
茎叶图的特点:
优点:不仅保留了原有数据的所有信息并展示了各个数据的分布情况。
缺点:当样本数量较多时,茎叶图中的数据就会占据很大的空间,叶也会很长。
折线图:
d=(x1-x)2+(x2-x)2+……+(xn-x)2
即处理之后求d的最小值,具体如下:
频率分布直方图:
画频率分布直方图的步骤:
① 求极差(即数据的最大值与最小值只差)
② 决定组距与组数
③ 数据分组
④ 列频率分布表
⑤ 画频率分布直方图
特别说明:
① 当样本容量不超过100时,按照数据的多少,通常分成5-12组。
② 频率分布直方图,横坐标代表“组距”,纵坐标代表“频率/组距”,小长方形的面积表示相应各组的频率,各小长方形的面积的总和等于1。
③ 在频率分布直方图中,众数为最高矩形的中点;中位数在左边和右边的直方图的面积相等的位置上;平均数为每个小矩形的面积乘以小矩形底边中点的横坐标之和。
频率分布直方图的特征:
优点:频率分布直方图能够很容易的表示大量数据,且可以清楚地看出数据分布的总体趋势。
缺点:从频率分布直方图得不出原始的数据内容,即把数据表示成直方图后,原有的具体数据就丢失了。因此利用频率分布直方图求出的众数,中位数和平均数均为这组数据的估计值。
散点图:
将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图。通过散点图可初步判断两个变量之间是否具有相关关系,它反映了各数据的密切程度。在散点图上,如果点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在从左上角到右下角的区域内,两个变量的相关关系为负相关。d1=│y1-bx1-a│,
d2=│y2-bx2-a│,
……
di=│yi-bxi-a│,
……
dn=│yn-bxn-a│
同样绝对值使得计算不方便,做优化处理如下:d1’=(y1-bx1-a)2,
d2’=(y2-bx2-a)2,
……
di’=(yi-bxi-a)2,
……
dn’=(yn-bxn-a)2
即转化为求:Q=(y1-bx1-a)2+(y2-bx2-a)2+……+(yi-bxi-a)2+……+(yn-bxn-a)2的最小值,继而得到了回归直线的系数公式:除了利用散点图可以直观的看出两个变量之间的相关关系以外,也可以通过相关系数r来判断两个变量之间的线性相关关系的强弱。相关系数r的公式如下:
往期优质数学干货链接:
【循序渐进】高中数学十大必会基础考点------提升高度的同时更要注重宽度!!!
【锦上添花】圆锥曲线的齐次化处理------教你如何优化运算!!!
【钟灵毓秀】“四种模型+一种思想”------完美解决数列通项问题!!!
【笃志好学】数学备考的八大解题技巧------真的都是满满的套路!!!