七周:第六周统计学(基础)笔记
作者:订车宝
Python爱好者社区专栏作者 汽车数据分析 一站式汽车经销智能运营管理平台
博客地址:https://ask.hellobi.com/blog/cbdingchebao
以下是七周成为数据分析师课程部分学习笔记
(点击阅读全文可学此课程哦)
前文链接:
七周:第二周业务学习笔记(内附练习汽车经销店整车销售分析模型)
当拿到一份数据的时候,首先会怎么做?----描述性统计学,概率推断统计。
【描述性统计学】
数值数据:计算
分类数据:不能进行计算,例如,男1 女0 代表一个类别
数值数据和分类数据可以进行互相转换
一般描述统计的方式方法:
1.分类数据的描述性统计:单纯计数就可以
2.数据描述统计:
3.统计度量:平均数--数据分布比较均匀的情况下进行,中位数,众数,分位数(4分位、10分位、百分位)
4.图形:
5.权重预估(分位数)
6.数据分布(波动情况,标准差,方差)
7.数据标准化:
在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较
用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。
xi:数据的具体值
u:平均值
σ:标准差
标准化之后一般都是在0上下直接按波动的数字,就可以反应原始数据的典型特征进行分析。
实例演示:时间趋势下订单的变化
单纯的时间只是一种属性,隐含的一种关系。很多销量是跟时间有关系,但是时间的背后是根据用户行为或者一系列因素相关。而不是单纯连续日期几号的简单关系。所以将案例数据需要进行初步整理(坦诚讲~这个细节是比较吸引我的,因为在此之前一直是像上面所说,对日期进行简单连续日期进行趋势分析,得到的结果的确不尽人意)添加周数和星期,将其转化成日历形式进行观察。
显然,标准化之后的趋势显得更加明显清晰了,将趋势扩张到肉眼辨识度提高的形态。
在后期处理的时候,建议用标准化的数据进行预估,因为标准化后已经将正负收敛到0的附近,并且可以方便增加其他关系参加预估。
切比雪夫定理,可以帮助在知道标准差和平均数的情况下,基本就知道数据的分布情况。
另一种作用则通常用于异常值的检测。
在数据越多的情况下,数据越收敛,推算的能力就会越精准。
描述统计的可视化:
1.箱线图:描述一组数据的分布,同时反应分位数
用2016版本以上的Excel可以直接利用数据作图,如低版本的则需要利用辅助线来进行(之前可视化内容的标靶图方法)绘制。
箱线图相对比其他柱形图更有对数据的分析解读性。
操作举例:
上下边缘线外部分散的点,可视分析情况视为异常值处理,如果想要分析的结果更精准,可视情况将这部分异常值数据剔除。
可添加类别进行细致分析。
2.直方图:特殊的柱形图,把条形图下面的类别换成数据的柱形图。
直方图一般的是等距划分,每一个等距的距离不能重复。
直方图的形状有以下几种:
标准型:分布均匀较理想
陡壁型:比较容易出现在收费领域
锯齿型:说明数据不够稳定
孤岛型:要研究分析孤岛产生的原因
偏峰型:销售数据一般会产生偏锋,一般会出现长尾(或左或右)
双峰型:两者数据混合一般会形成双峰
由直方图引出一个统计学指标--偏度
---正态分布
正态分布的特殊应用:
描述性统计的计算值,可通过Excel里面的数据--数据分析---描述性统计直接通过界面勾选需要内容进行计算。
【概率推断统计】
推断统计,描述一件事情发生的可能性
例如:抛硬币的游戏
事件:正面、反面
概率:50%
在B发生的概率下,A发生的概率是多少
当A与B之间无关联的时候,则P(A|B)=P(A)
条件概率的关键点
【贝叶斯定理】
看到题目的时候与最后分析的结果相差巨大的原因是因为上题目中,有多重诱因所导致。
事件发生会有很多原因,我们单纯只知道结果的情况下去反推原因是不太好的。
贝叶斯公式:
P(A1):真实患者的概率
P(A2):实际为健康人群的概率
P(B):代表试纸查出患者的概率
P(B|A1):为真实患者条件下试纸查出患者的概率,即99%
P(B|A2):为健康人群的条件下试纸查出患者的概率,即5%
P(A1)为真实患者的概率0.1%,P(A2)为健康率99.9%
i:为特定场景下
贝叶斯特点:知道结果A已经发生了,想要推导出各种原因发生的可能性有多大。(结果----->发生因素的概率)
对于贝叶斯多倾向用于机器算法。网络上也有很多关于贝叶斯的解释可供参考学习。
天善智能数据分析主打课程,秦路主讲,七周成为数据分析师课程。
思维方法+业务知识+技术手段,全方位打造出高含金量的数据分析师课程
想成为数据分析师么?快来报名学习吧!已经有1600+学员加入学习啦~
点击阅读原文立即学习
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
0.小编的Python入门视频课程!!!
1.崔老师爬虫实战案例免费学习视频。
2.丘老师数据科学入门指导免费学习视频。
3.陈老师数据分析报告制作免费学习视频。
4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。
5.丘老师Python网络爬虫实战免费学习视频。