查看原文
其他

数据分析必须要掌握的那些统计学知识


统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。 
大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:
  • 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等

  • 概率分布:几何分布、二项分布、泊松分布、正态分布等

  • 总体和样本:了解基本概念,抽样的概念

  • 置信区间与假设检验:如何进行验证分析

  • 相关性与回归分析:一般数据分析的基本模型

通过基本的统计量,你可以进行更多元化的可视化,以实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算,或者python、R里面一些对应的可视化方法。
有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析。
你也可以应用假设检验的方法,对一些感性的假设做出更加精确地检验。
利用回归分析的方法,你可以对未来的一些数据、缺失的数据做基本的预测。
了解统计学的原理之后,你不一定能够通过工具实现,那么你需要去对应的找网上找相关的实现方法,也可以看书。先推荐一本非常简单的:吴喜之-《统计学·从数据到结论》。也可以看《商务与经济统计》,结合业务能更容易理解。 
另外,如何精力允许,请掌握一些主流算法的原理,比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林。再深入一点,还可以掌握文本分析、深度学习、图像识别等相关的算法。关于这些算法,不仅需要了解其原理,你最好可以流畅地阐述出来,还需要你知晓其在各行业的一些应用场景。如果现阶段不是工作刚需,可不作为重点。
本文算是一个知识点汇总,不做细致展开,让大家了解统计学有哪几大块,每一类分别用于什么样的分析场景。后面几篇会以实际案例的方式,细致讲讲描述性统计、概率分布等。

知识点汇总:
1.集中趋势
2.变异性
3.归一化
4.正态分布
5.抽样分布
6.估计
7.假设检验
8.T检验
一、集中趋势
1.众数
出现频率最高的数;
2.中位数
把样本值排序,分布在最中间的值;
样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
3.平均数
所有数的总和除以样本数量;
现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值的出现收到很大影响。举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;
二、变异性
1.四分位数
上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3
2.四分位距 IQR=Q3-Q1

3.异常值
小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);
对于异常值,我们在数据处理的环节就要剔除;
4.方差

5.平方偏差
方差的算术平方根
6.贝塞尔矫正:修正样本方差
实际在计算方差时,分母要用n-1,而不是样本数量n。原因在于,比如在高斯分布中,我们抽取一部分的样本,用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在x=u中心值附近,那么样本如果用如下公式算方差,那么预测方差一定小于大数据集的方差(因为高斯分布的边沿抽取的数据也很少)。为了能弥补这方面的缺陷,那么我们把公式的n改为n-1,以此来提高方差的数值,这种方法叫贝塞尔矫正系数。

三、归一化
1.标准分数
一个给定分数 距离 平均数 多少个标准差?
标准分数是一种可以看出某分数在分布中相对位置的方法。
标准分数能够真实的反映一个分数距离平均数的相对标准距离。

四、正态分布

1.定义:随机变量X服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;


五、抽样分布
1.中心极限定理
设从均值为μ,方差为σ⊃2;的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布
2.抽样分布
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n。
举个例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。

六、估计
1. 误差界限

2. 置信度
We are some % sure the true population parameter falls within a specific range
我们有百分之多少确信总体中的值落在一个特定范围内;
一般情况下,取95%的置信度就可以;
3. 置信区间


七、假设检验

1.问题:什么是显著性水平?
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.

2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;
同时将研究者想收集证据证明其不正确的假设作为原假设H0

八、T检验
1. 主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。
流程如下:

是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;
一般检验水准α取0.05即可;
计算检验统计量的方法根据样本形式不同;
2. 独立样本T检验:
现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。

问题:为什么T检验查表时候要n-1?
样本均值替代总体均值损失了一个自由度
3. 配对样本t检验
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对

样本误差(Standard Error)


4. Pooled variance 合并方差
当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差
不要被公式吓到,他的本质是两个样本方差加权平均


5. Cohen’s d
效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。



本文转自:数据分析不是事儿


点击查看往期汇编

科研数据:

001 中国高速铁路线路&城市高铁开通数据
002 地级市面板数据1990-2019003 上市公司数据集-慈善、股权、研发、审计、高管004 地级市高新技术企业统计情况2000-2019005 碳交易、碳排放(分行业、国家、省、市、县)006 2008-2018中国上市公司政治关联原始数据007 1936-2018年全国县级以上干部数据008 地级市市长市委书记数据库009 上市公司2006-2018年资产负债收益010 各县接收上山下乡知青数量
011 832国家级贫困县摘帽数据

学习资料:

001 文献利器EndNote教程(视频-PPT)

002 SCI完整写作攻略

003 北大空间计量经济学讲义

004 博士研究计划范文

005 空间权重矩阵和杜宾模型案例数据及分析006 三阶段DEA模型理论与操作手册视频讲解007 SPSS统计分析与行业应用案例详解008 R语言学习资料009 20套学术答辩PPT模板010 实证分析大全011 Fama-French五因子模型数据和Stata代码012 Stata17 win和mac版013 Stata17MP版最新使用指南全书014 Stata面板数据处理015 Stata命令cf,数据清洗双录双校利器
016 Stata:面板格兰杰检验xtranger
017 读懂Stata空间计量及应用
计量统计:7种主流数据分析软件及经典教材推荐Stata数据清洗方法回归结果不显著可采取方法与思路面板数据汇总实证模型三步走:数据、模型、结果检验调节变量、中介变量、控制变量七种经典回归方法六种定量方法解决内生性问题(stata代码)Stata双重差分操作流程及代码交互项与异质性分析面板交互固定效应模型详解5种安慰剂检验方法详解DIDM:多期多个体倍分法案例及代码
中介效应检验程序、操作应用政策评估反事实框架及匹配方法开展政策效应评估传统PSM-DID模型改进与应用广义DID超强的政策评估工具中介效应分析的四种方式、原则、方法和应用Stata17中DID、DDD方法及使用策略DID的平行趋势检验步骤和程序
文本相似度计算及政策量化分析政策效应评估的四种主流方法详解
科研论文:经管类CSSCI南大核心来源期刊投稿方式综合社科高校学报CSSCI南大核心来源期刊投稿方式因果推断——现代统计的思想飞跃2020年中国经济学研究热点分析空间计量经济学文献综述陆铭的13个实证研究锦囊碳达峰和碳中和管理研究:进展与综述国内几篇A刊的发表经验陈强:计量经济学实证论文写作全解析刘修岩:城市经济学模型与实证方法进展与趋势刘俏:”碳中和“给经济学提出那些新问题洪永淼:大数据革命和中国经济学研究范式博士如何接受完整、全面的科研训练顶级经济学期刊青睐何种计量方法管理世界投稿经验:如何回应审稿人意见基于195篇实证论文发现期刊编辑的喜好CSSCI期刊主编:论文写作用词八条建议论文参考文献怎么引用才能通过查重给博士生论文投稿实用建议常任轨教职经济学学术刊物目录
洪永淼等:中国经济科学的研究现状与发展趋



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存