小明教你SPSS
统计学习分为统计思想和统计方法两部分,即道和术。有道无术,无源之水,有术无道,无水之木。因此,要做到知行合一,理论与实践相结合,用理论指导实践,用实践检验理论。
思想非一朝一夕之功,但方法操作可以速成。因此,我们先从统计思想出发,扎实基本功,然后从统计方法出发,因为纸上谈兵终觉浅,回到实践才能行。关于统计方法也是我们的侧重点,本质上就是一种技术操作,需要不断强化的过程,而要熟练使用必须不断错误,不断尝试,符合桑代克的“尝试——错误”学习观。
真正的科学研究主要是针对无限总体,鉴于时间、资源、资金等方面的限制,一般我们进行的科研主要是有限总体。
人与动物的最大区别在于“善假于物”,也就是善于使用工具。在研究无限总体的过程中,我们可能很难完全获取所有的数据,因此,抽样应运而生。就相当于你想知道做的汤咸不咸,尝一口就行不需要把汤全部喝完,这就是“抽样”,弱水三千只取一瓢。
根据事件发生概率大小,可以分为:必然事件(P=1)、不可能事件(P=0)、随机事件或偶然事件(0<P<1)。
当某事件发生的次数较多时,频率就会收敛于概率。其实就是用频率去估计概率的。例如,想知道抛一枚硬币下来,正面的概率是多少?抛一百次,最终正面发生的概率趋近于0.5。
参数代表总体的特性,是一个常数,一般用希腊字母表示。
统计量代表样本的特性,它是一个变量,随着样本的变化而变化,一般用英文表示。
当样本不断接近总体,统计量接近样本量。
提问:李克特量表的变量性质,属于哪一种?称名、顺序、等距、等比。
答案:本质上属于顺序变量,但顺序和称名变量均属于离散变量,而离散变量无法计算平均数,或进行相关、回归等统计分析,因此无法检验有关的研究假设,为了方便解释和有意义分析,将其作为等距量变量来进行处理。
问题:宝强要检验马蓉是否出轨?
根据这个问题我提出来下面两个互为相反的假设:
零假设:马蓉没有出轨
备选假设:马蓉出轨了
从逻辑学来看,如果我们能够证明某个零假设不成立,那么其对立假设(也就是备择假设)肯定为真。零假设和对立假设在逻辑方面是互补的,也就是说,如果其中一个假设为真,则另一个假设为假;如果我们推翻了其中一个假设,那就必须承认另一个假设。对应这个例子里,如果我能找到足够强的证据来否定零假设(也就是马蓉没有出轨),那么我就能有效的说明零假设不成立,那么备择假设成立。
P值,又称显著性或Sig值,用于描述某件事件发生的概率情况,其取值范围介于0-1,不包括0或1。通常P值有三个判断标准α,分别为0.05、0.01和0.001。如果P<0.05,说明某件事情的发生至少有95%的把握,统计语言描述为在0.05水平上显著,一般用“*”表示;如果P<0.01,说明某件事情的发生至少有99%的把握,统计语言描述为在0.01水平上显著,一般用“**”表示;如果P<0.001,说明某件事情的发生至少有99.99%的把握,统计语言描述为在0.001水平上显著,一般用“***”表示。也就是说,P值越小或者*数量越多,把握越大。(注:spss数据分析中P小于0.01和0.001都用“**”表示,没有“***”)
回到马蓉出轨的事例中,在这里p值就是在零假设成立的前提下(马蓉没有出轨),用样本证据计算出的马蓉没有出轨的概率。
由于假设检验是基于抽样样本来进行结果推断的,而抽样样本只是总体的一小部分,从总体中抽取不同的样本,可能会得出不同的结果,因此我们通常希望抽样样本是一个能够很好地反映总体特征的具有代表性的样本。但由于抽样误差的存在,在进行假设检验根据P值做出推断时具有一定的概率性,因此所得的结论就不一定完全正确,这就是我们常见的假设检验的陷阱:I类错误和II类错误。
注:I类错误和II类错误只是一个统计学上的概念,在进行假设检验时无法确定其发生的实际概率。由于两类错误主要受样本量的影响,因此可以通过增大样本量的方法,使得我们的抽样样本尽可能的接近总体,具有更好的代表性,以达到降低两类错误发生概率的目的。