1. 微信群内视频2段“t检验”、统计写作”(30分钟)
2. 公众号推文1篇:D3
3. 微信群内测试题
4. SPSS t 检验实操练习与群内答疑,发送“1003”到公众号,可以获取更多本课程的解答。
请务必先观看视频,再看本推文再测试,否则效果不佳!
欢迎加入高校公益免费群全面学习医学统计学与SPSS应用(发送关键词“打卡”到公众号)
实验性研究,最常见的研究设计是将研究对象随机分为试验组和对照组,得到两组对象各自的研究结局,采用统计学方法比较这两组结局总体的差异性。当两组结局为定量指标、研究目标是探讨总体均数有无差异时,可能考虑的统计学方法为两样本t检验。将出生28天的20只大鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料组别的大鼠体重正态性情况如何?数据见数据库weight.sav.
高蛋白组:133,145,112,138,99,157,126,121,139,106,115低蛋白组:118,75,106,87,94,110,102,124,130这个案例包括2个变量,一个是大鼠体重(g),另外一个是分组变量。主要研究的结局指标是大鼠体重,为定量变量数据;比较的组数是两组(高蛋白组和低蛋白组)。本案例目的是比较两组总体均数有无统计学差异。两组定量数据的比较,主要的方法有两种。一种是成组两样本t检验,一种是非参数秩和检验(wilcoxon 两样本秩和检验)。一般来说秩和检验是t检验的补充,如果t检验不适合,就会考虑秩和检验。所以统计分析时,要考虑t检验是否合适?条件是否满足?总的来说,t检验要求的两组、定量、正态、独立、方差齐的数据比较。前面两个要求和wilcoxon 两样本秩和检验相同,差别在于t检验要求数据符合正态性、独立性、方差齐性三个要求。这里对三个“性”进行简单的解释。正态性。正态性条件是要求各组数据的总体分布为正态分布。一般来说,要求正态性检验P>0.05。此外,实际操作上,P≤0.05,但直方图显示大致正态也可以(近似正态分布)。关于正态性问题,上一讲已经有所陈述。此外,这里的正态性要求,指的是“各组”数据(本例是2组数据)分别满足条件。独立性。独立性的意思是,两组数据的观察值相互独立,指的是两组数据不存在着相互相关性。例如,某个临床研究有两组数据,分别是14名高血压患者降压药服用前的血压和服用后的血压。显然,如果有名患者服用前血压很高,那么服用后血压也不会低;反之,服用前血压不高,那么服用后血压也不会高,所以两组数据存在着相关性。一般情况下,医学研究,如果是随机化分组,那么两组数据一般可以认为是独立的。如果是配对设计,那么两组数据就不独立!所以独立性的特点,一般我们根据研究设计主观判断即可。方差齐性。方差齐性的意思是两组数据的方差大致相同。所谓的方差是标准差平方,其实也意味着标准差大致相同。比如有两组数据分别20±10,20±20。这意味着标准差相差一倍,则方差相差3倍,方差大不同。这种情况也不能直接用t检验。方差齐性的论证也通过统计软件完成;如果方差不齐,那么有类似的代替方法,我稍后介绍。正态性上一讲已经分析过本案例,采用的是多样本正态性检验方法,探讨各组是否均来自于正态分布总体。这里直接贴出结果:经SW检验,结果为:高蛋白组体重P=0.977,低蛋白组体重P=0.974,没有统计学意义,两组数据正态性均符合。 至于方差齐性,一般与SPSS t检验结果一同产生,我们稍后围观。本日软件操作的SPSS数据库是weight.sav,加入课程群即可获得。
1
t检验SPSS操作界面:分析—比较均值—独立样本t检验
“检验变量”放入体重(weight),“分组变量”放入分组(group),同时进行“定义组”。① 检验变量:即放入结局指标,本例为体重(weight)② 分组变量:放入group。这里“定义组”需要进一步明确,见下图:定义组:即指定比较哪两组。在本例,我们比较高蛋白和低蛋白组,他们在数据库赋值为1和2,因此这里填写1,2;此处填什么数据,需要和数据库的赋值对应起来,且不能填写文字或者字母,只能填数字。因此提醒诸位:构建SPSS数据库时一般赋值建议用数字,不要用文字或者字母。t检验统计分析有两张表,一张为“组统计”,另外一张“独立样本检验”。“组统计”分别提供两组数据的样本数(n)、平均值(mean)、标准差(SD)、标准误(SE)。第二张表,则给于了t检验的的结果,该结果分为三个部分① 莱文方差等同性检验:levene 方差齐性检验,上文已经提及t检验要符合方差齐性,那么方差到底是否相似呢?此处便是假设检验的结果,显著性即为P值,若P>0.05,认为方差齐性,若P≤0.05,可认为方差不齐。本题P=0.887,所以方差齐。② 此处是核心的假设检验结果。结果分为两行,分别“假定等方差”(方差齐)的t检验的结果,和“不假定等方差”(方差不齐)的检验结果,我们称之为t'检验(校正t检验,SPSS校正了自由度和t值),换句话说,若方差齐则采用t检验,看第一行t检验结果。若方差不齐,一般采用可以采用t'检验(SPSS校正自由度和t值),看第二行统计分析的结果。本题方差齐,因此t=2.671,P=0.016,差异具有统计学意义。
③此处分别给出两组数据均数的差值、标准误和差值的95置信区间(95% CI)上下限。规范文字:高蛋白饲料组大鼠体重为(126.45±17.76)g,低蛋白饲料组大鼠体重为(105.11±17.80)g,两组总体体重总体均数存在着统计差异(差值21.34,95%CI 4.56-38.13,t=2.67,P=0.016)。
①现在越来越多的文章需要提供平均值差值的95%CI, 所以强烈建议诸位今后统计分析时写上差值的95%CI。本例的95%CI为(4.56-38.13),来自于上文的SPSSt分析结果表中,请大家注意查找。如果您想了解什么是95%CI的置信区间,不妨发送关键词“打卡”到公众号加入课程群,我们来解答。②t检验的结果可提供t值,也可以不提供t值,一般最好提供P值,t和P需要斜体。③关于小数点,一般保留1-2位,其实1位就可以,P值除外。很多杂志要求不同的P值提供小位数不同,但P值一律保持3位是不会错的。若碰到SPSS结果为0.000的,书写成<0.001。可以看看另外一个文献的表格,同样提供的是多个结局的差值、置信区间和P值。来源:JAMA Intern Med. doi:10.1001/jamainternmed.2020.0104敲黑板!!!!统计分析结果的文字和表格,三样东西要提供,一样是效应值(本例是差值)、一样是效应值的95%CI、另外一样是P值。以往置信区间往往不受重视,现在必须重视起来!比如动物实验,高蛋白组和低蛋白饲料喂养大鼠的动物实验;两组临床试验,比较两种药物收缩压均数有无的差别?
2021年,郑老师团队,为初学者折腾一个简单又好使的样本量计算小工具,结合公式和EXCEL,非常好使,如果您需要,不妨来下载使用把。当然免费!t检验是最基本的假设检验方法,在随机、对照、平行的实验性研究中,t检验的结论十分可靠,完全证明一个干预措施是否真正产生效果,或者干预措施和定量结局是否存在着因果关系。但是t检验如果用在非干预性的观察性研究,比如比较男性、女性的体重有无差别,其结论不能说性别是体重的影响因素,只能说男性和女性体重存在着统计学差异,仅此而已。关于观察性研究t检验,后期再进行分析。因此,t检验结果到底能够说明什么问题,取决于研究设计。3.t检验三个条件正态性、方差齐性和独立性一般最好遵守,但是条件不是那么死板。对于独立性,一般情况下都是符合的,除了配对设计之外,所有诸位也不用特别担心。方差齐性,这个条件影响其实不大,无论方差齐不齐,从广义上来说采用的都是t检验。对于正态性,需要说道说道。上一讲day 2 我介绍过,我们可以把正态性分为三类,以方便操作。第一:正态性检验P>0.05,直方图呈中间多两边少特征,显然首先t检验方法第二:正态性检验P≤0.05(但一般小样本时P值>0.01),直方图呈大致中间多两边少特征,我称之为近似正态分布,这种局面有可能一两个不太极端的异常值存在,或者本身临床上该指标是正态而选取样本有点奇怪造成。虽属于偏态分布,但t检验也可以用(毕竟用均数描述,进行t检验比较容易理解);特别是一组正态分布而另外一组近似正态分布的时候,t检验毫无问题。但是,近似非参数检验方法肯定没有错。因此,近似正态分布可选择t检验,或者非参数检验,视情况而定。比如你开展多个指标进行分析,其中大多数都是t检验,一两个指标近似正态分布,那么干脆全部用t检验;相反,如果大多数都是严重偏态分布,即便一两个指标近似正态,也不妨弃用t检验。第三:严重偏态,正态性检验P<0.05,任何一组数据直方图偏态情况比较严重,呈“一边倒现象”。造成该现象的原因在于,存在着严重的极端值,或者该指标理论上就是偏态分布。此时,不应该采用t检验。有人会问,多大偏态才是很严重的偏态,我认为这没有界限,正如t检验和秩和检验没有明显界限一样,因此我才设置缓冲一类(近似正态)。有人建议用偏态系数来评价,我认为这只不过徒增事情的复杂性罢了。4.较大的样本(比如超过100的样本量)两组数据的比较,严重偏态分布是否可以采用t检验?网络上、甚至统计学教材中认为,大样本资料可以无视正态性问题。他们认为“根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50即为足够大或者更大的100以上),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法”。
这是不对的。根据中心极限理论,采用t检验本身没有错。以均数为基础的t检验,是可以比较两组大样本数据均数的差异性。但是,两组严重偏态分布,我们不能用来均数来表现数据,不能用均数来描述它。t检验是可以说两组均数是否有差异,但是均数的差异不能说明两组严重偏态数据的差异性(至少也得用中位数体现呀)。因此,t检验结论无法反映两组严重偏态数据的分布差异性,哪怕你是大样本!
是否采用t检验,要看其指标理论上是何分布,直方图形态是否大致中间多或者两边少,观其是否极端异常值;正态性检验是辅助的作用。
以下本人的分析习惯,仅供参考:如果指标理论上属于偏态分布,则放弃t检验。(“理论上”的意思是客观世界中大样本群体常见的存在形式,甚至是一种常识)。非常重要的一条
如果该指标理论上属于正态分布,无论大小样本,该只要直方图大致中间多或者两边少(近似正态分布),无特别异常值,均可采用t检验。非常重要的一条
如果指标理论分布不明确,但样本量较大(各组>50),该只要直方图大致中间多或者两边少,无特别异常值,可采用t检验,无需考虑正态性检验结果。
如果指标理论分布不明确,但各样本量不大(各组<50),若两组数据正态性检验P值均>0.05,可以考虑采用t检验,若至少一组≤0.01,建议放弃t检验
无论大小样本,如果直方图呈一边倒趋势,或者存在若干个极端异常值,放弃t检验
当然两组数据比较时,任何一组P≤0.05,均可以放弃t检验而选择秩和检验(偏态分布数据分布比较用秩和检验没错,不过一般样本量较大时,近似正态还是优先考虑t检验吧)
概括来说,正态分布的数据比较用t检验,两组近似或者一组近似另外一组正态的可以用t检验(理论上正态),也可以秩和(理论上偏态);严重偏态不用t检验。
最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“打卡”入群高校公益免费课程群来学习吧。如果对本节课程内容有更多疑问,可以发送“1003”到公众号,可以获取更多本课程的答疑。
本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。2022年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta、临床预测模型、临床数据回顾性队列研究、中介分析与结构方程模型等9门课。如果您有需求,不妨点击查看: