最最基本的统计方法 --t检验 | 30天学会医学统计与SPSS公益课（D3）

Original 郑老师医学论文与统计分析 2023-02-10

30天学会医学统计与SPSS

本课程是高校医学统计学教授的公益、免费公开课！如假包换！我将每天推送视频和文字教程，讲授基于医学数据的各种统计分析策略。如果你能跟得上节奏，我相信在一个月后，您将会掌握医学数据分析方法。
1. 9分钟视频介绍：为什么推荐您学习这门课?
2. 课程所需的SPSS全套讲义下载【绝对精品】这套954张PPT的医学统计学教程，现在公开赠送！

3.“高校公益免费课程新一期” 详细介绍：高校公益课程“30天学会医学统计与SPSS”新一期即将开课，欢迎参与学习！
如果您真的能够坚持，发送关键词“打卡”，加入微信学习群吧。骗人？不存在的。你们能够学会医学统计学，我将视为这是一种成就。

Day 3：成组两样本t检验

本日学习指南

1. 微信群内视频2段“t检验”、统计写作”（30分钟）

2. 公众号推文1篇：D3

3. 微信群内测试题

4. SPSS t 检验实操练习与群内答疑，发送“1003”到公众号，可以获取更多本课程的解答。

请务必先观看视频，再看本推文再测试，否则效果不佳！

欢迎加入高校公益免费群全面学习医学统计学与SPSS应用（发送关键词“打卡”到公众号）

实验性研究，最常见的研究设计是将研究对象随机分为试验组和对照组，得到两组对象各自的研究结局，采用统计学方法比较这两组结局总体的差异性。当两组结局为定量指标、研究目标是探讨总体均数有无差异时，可能考虑的统计学方法为两样本t检验。

实例分析

将出生28天的20只大鼠随机分成两组，分别饲以高蛋白和低蛋白饲料，8周后观察其体重（g）。问两种不同饲料组别的大鼠体重正态性情况如何？数据见数据库weight.sav.

高蛋白组：133，145，112，138，99，157，126，121，139，106，115低蛋白组：118，75，106，87，94，110，102，124，130

1

思考

这个案例来源于上一讲，需要思考：

-这个案例由几个变量组成？

-结局变量是什么?

-结局变量属于什么类型的变量？

-如果是定量变量数据，是偏态还是正态分布？

-研究目的是比较，那比较的组数是多少？

2

案情分析

这个案例包括2个变量，一个是大鼠体重（g），另外一个是分组变量。主要研究的结局指标是大鼠体重，为定量变量数据；比较的组数是两组（高蛋白组和低蛋白组）。本案例目的是比较两组总体均数有无统计学差异。

3

统计分析策略

两组定量数据的比较，主要的方法有两种。一种是成组两样本t检验，一种是非参数秩和检验（wilcoxon 两样本秩和检验）。

一般来说秩和检验是t检验的补充，如果t检验不适合，就会考虑秩和检验。所以统计分析时，要考虑t检验是否合适？条件是否满足？

总的来说，t检验要求的两组、定量、正态、独立、方差齐的数据比较。前面两个要求和wilcoxon 两样本秩和检验相同，差别在于t检验要求数据符合正态性、独立性、方差齐性三个要求。这里对三个“性”进行简单的解释。

正态性。正态性条件是要求各组数据的总体分布为正态分布。一般来说，要求正态性检验P>0.05。此外，实际操作上，P≤0.05，但直方图显示大致正态也可以（近似正态分布）。关于正态性问题，上一讲已经有所陈述。此外，这里的正态性要求，指的是“各组”数据（本例是2组数据）分别满足条件。

独立性。独立性的意思是，两组数据的观察值相互独立，指的是两组数据不存在着相互相关性。例如，某个临床研究有两组数据，分别是14名高血压患者降压药服用前的血压和服用后的血压。显然，如果有名患者服用前血压很高，那么服用后血压也不会低；反之，服用前血压不高，那么服用后血压也不会高，所以两组数据存在着相关性。一般情况下，医学研究，如果是随机化分组，那么两组数据一般可以认为是独立的。如果是配对设计，那么两组数据就不独立！所以独立性的特点，一般我们根据研究设计主观判断即可。

方差齐性。方差齐性的意思是两组数据的方差大致相同。所谓的方差是标准差平方，其实也意味着标准差大致相同。比如有两组数据分别20±10，20±20。这意味着标准差相差一倍，则方差相差3倍，方差大不同。这种情况也不能直接用t检验。方差齐性的论证也通过统计软件完成；如果方差不齐，那么有类似的代替方法，我稍后介绍。

总结来说：

本例中，独立性是符合的，毕竟这是随机化分组设计。

正态性上一讲已经分析过本案例，采用的是多样本正态性检验方法，探讨各组是否均来自于正态分布总体。这里直接贴出结果：

经SW检验，结果为：高蛋白组体重P=0.977，低蛋白组体重P=0.974，没有统计学意义，两组数据正态性均符合。

至于方差齐性，一般与SPSS t检验结果一同产生，我们稍后围观。

SPSS 操作

本日软件操作的SPSS数据库是weight.sav，加入课程群即可获得。

t检验SPSS操作界面：分析—比较均值—独立样本t检验

两样本t检验具体参数设置

“检验变量”放入体重（weight），“分组变量”放入分组（group），同时进行“定义组”。

① 检验变量：即放入结局指标，本例为体重（weight）

② 分组变量：放入group。这里“定义组”需要进一步明确，见下图：

定义组：即指定比较哪两组。在本例，我们比较高蛋白和低蛋白组，他们在数据库赋值为1和2，因此这里填写1，2；此处填什么数据，需要和数据库的赋值对应起来，且不能填写文字或者字母，只能填数字。因此提醒诸位：构建SPSS数据库时一般赋值建议用数字，不要用文字或者字母。

两样本t检验分析结果及解释

t检验统计分析有两张表，一张为“组统计”，另外一张“独立样本检验”。“组统计”分别提供两组数据的样本数（n）、平均值（mean）、标准差（SD）、标准误（SE）。

第二张表，则给于了t检验的的结果，该结果分为三个部分

① 莱文方差等同性检验：levene 方差齐性检验，上文已经提及t检验要符合方差齐性，那么方差到底是否相似呢？此处便是假设检验的结果，显著性即为P值，若P>0.05，认为方差齐性，若P≤0.05，可认为方差不齐。本题P=0.887，所以方差齐。

② 此处是核心的假设检验结果。结果分为两行，分别“假定等方差”（方差齐）的t检验的结果，和“不假定等方差”（方差不齐）的检验结果，我们称之为t'检验（校正t检验，SPSS校正了自由度和t值)，

换句话说，若方差齐则采用t检验，看第一行t检验结果。若方差不齐，一般采用可以采用t'检验(SPSS校正自由度和t值)，看第二行统计分析的结果。

本题方差齐，因此t=2.671，P=0.016，差异具有统计学意义。

③此处分别给出两组数据均数的差值、标准误和差值的95置信区间（95% CI）上下限。

结果及表格的规范表达

根据上表，我们可以得到以下的规范的结论：

规范文字：高蛋白饲料组大鼠体重为（126.45±17.76）g，低蛋白饲料组大鼠体重为（105.11±17.80）g，两组总体体重总体均数存在着统计差异（差值21.34,95%CI 4.56-38.13,t=2.67，P=0.016）。

规范的统计表（其中一种形式）为：

注意：

①现在越来越多的文章需要提供平均值差值的95%CI, 所以强烈建议诸位今后统计分析时写上差值的95%CI。本例的95%CI为（4.56-38.13），来自于上文的SPSSt分析结果表中，请大家注意查找。

如果您想了解什么是95%CI的置信区间，不妨发送关键词“打卡”到公众号加入课程群，我们来解答。

②t检验的结果可提供t值，也可以不提供t值，一般最好提供P值，t和P需要斜体。

③关于小数点，一般保留1-2位，其实1位就可以，P值除外。很多杂志要求不同的P值提供小位数不同，但P值一律保持3位是不会错的。若碰到SPSS结果为0.000的，书写成<0.001。

可以看看另外一个文献的表格，同样提供的是多个结局的差值、置信区间和P值。

来源：JAMA Intern Med. doi:10.1001/jamainternmed.2020.0104

敲黑板！！！！统计分析结果的文字和表格，三样东西要提供，一样是效应值（本例是差值）、一样是效应值的95%CI、另外一样是P值。以往置信区间往往不受重视，现在必须重视起来！

何种场景可以采用两样本t检验呢？

1. 两组均数比较的研究，如何计算样本量？

比如动物实验，高蛋白组和低蛋白饲料喂养大鼠的动物实验；两组临床试验，比较两种药物收缩压均数有无的差别？

这些研究样本量如何计算？

2021年，郑老师团队，为初学者折腾一个简单又好使的样本量计算小工具，结合公式和EXCEL，非常好使，如果您需要，不妨来下载使用把。当然免费！

详细介绍：这款高校老师制作的免费工具，手把手教你计算样本量！第2版出炉

2.t检验结论取决于研究设计

t检验是最基本的假设检验方法，在随机、对照、平行的实验性研究中，t检验的结论十分可靠，完全证明一个干预措施是否真正产生效果，或者干预措施和定量结局是否存在着因果关系。

但是t检验如果用在非干预性的观察性研究，比如比较男性、女性的体重有无差别，其结论不能说性别是体重的影响因素，只能说男性和女性体重存在着统计学差异，仅此而已。关于观察性研究t检验，后期再进行分析。

因此，t检验结果到底能够说明什么问题，取决于研究设计。

3.t检验三个条件正态性、方差齐性和独立性一般最好遵守，但是条件不是那么死板。

对于独立性，一般情况下都是符合的，除了配对设计之外，所有诸位也不用特别担心。方差齐性，这个条件影响其实不大，无论方差齐不齐，从广义上来说采用的都是t检验。

对于正态性，需要说道说道。上一讲day 2 我介绍过，我们可以把正态性分为三类，以方便操作。

第一：正态性检验P>0.05,直方图呈中间多两边少特征，显然首先t检验方法

第二：正态性检验P≤0.05（但一般小样本时P值>0.01）,直方图呈大致中间多两边少特征，我称之为近似正态分布，这种局面有可能一两个不太极端的异常值存在，或者本身临床上该指标是正态而选取样本有点奇怪造成。虽属于偏态分布，但t检验也可以用（毕竟用均数描述，进行t检验比较容易理解）；特别是一组正态分布而另外一组近似正态分布的时候，t检验毫无问题。但是，近似非参数检验方法肯定没有错。因此，近似正态分布可选择t检验，或者非参数检验，视情况而定。比如你开展多个指标进行分析，其中大多数都是t检验，一两个指标近似正态分布，那么干脆全部用t检验；相反，如果大多数都是严重偏态分布，即便一两个指标近似正态，也不妨弃用t检验。

第三：严重偏态，正态性检验P<0.05，任何一组数据直方图偏态情况比较严重,呈“一边倒现象”。造成该现象的原因在于，存在着严重的极端值，或者该指标理论上就是偏态分布。此时，不应该采用t检验。

有人会问，多大偏态才是很严重的偏态，我认为这没有界限，正如t检验和秩和检验没有明显界限一样，因此我才设置缓冲一类（近似正态）。有人建议用偏态系数来评价，我认为这只不过徒增事情的复杂性罢了。

4.较大的样本（比如超过100的样本量）两组数据的比较，严重偏态分布是否可以采用t检验？

网络上、甚至统计学教材中认为，大样本资料可以无视正态性问题。他们认为“根据中心极限定理，无论样本来自何种分布，只要样本量足够大（一般认为样本量大于50即为足够大或者更大的100以上），其样本均值均近似服从正态分布。因此样本量较大时，完全可以忽视正态性问题，仍然可以采用参数检验方法”。

这是不对的。根据中心极限理论，采用t检验本身没有错。以均数为基础的t检验，是可以比较两组大样本数据均数的差异性。但是，两组严重偏态分布，我们不能用来均数来表现数据，不能用均数来描述它。t检验是可以说两组均数是否有差异，但是均数的差异不能说明两组严重偏态数据的差异性（至少也得用中位数体现呀）。因此，t检验结论无法反映两组严重偏态数据的分布差异性，哪怕你是大样本！

郑老师总结

是否采用t检验，要看其指标理论上是何分布，直方图形态是否大致中间多或者两边少，观其是否极端异常值；正态性检验是辅助的作用。
以下本人的分析习惯，仅供参考:

如果指标理论上属于偏态分布，则放弃t检验。（“理论上”的意思是客观世界中大样本群体常见的存在形式，甚至是一种常识）。非常重要的一条
如果该指标理论上属于正态分布，无论大小样本，该只要直方图大致中间多或者两边少（近似正态分布），无特别异常值，均可采用t检验。非常重要的一条
如果指标理论分布不明确，但样本量较大（各组>50），该只要直方图大致中间多或者两边少，无特别异常值，可采用t检验,无需考虑正态性检验结果。
如果指标理论分布不明确，但各样本量不大（各组<50），若两组数据正态性检验P值均>0.05,可以考虑采用t检验，若至少一组≤0.01,建议放弃t检验
无论大小样本，如果直方图呈一边倒趋势，或者存在若干个极端异常值，放弃t检验
当然两组数据比较时，任何一组P≤0.05，均可以放弃t检验而选择秩和检验（偏态分布数据分布比较用秩和检验没错，不过一般样本量较大时，近似正态还是优先考虑t检验吧）

概括来说，正态分布的数据比较用t检验，两组近似或者一组近似另外一组正态的可以用t检验（理论上正态），也可以秩和（理论上偏态）；严重偏态不用t检验。

最后提醒：要学习本推文的完全对应的课程视频，请发送关键词“打卡”入群高校公益免费课程群来学习吧。如果对本节课程内容有更多疑问，可以发送“1003”到公众号，可以获取更多本课程的答疑。

更多信息

本公众号作为医学数据分析公众号，提供一些免费医学统计学学习资源下载，欢迎点击下载。

1.免费下载！统计初学者的福音！《妙趣横生统计学》视频，生动有趣的统计学！

2.样本量计算器，免费下载使用，手把手教你计算样本量!

3.绝对值得收藏！原创高清SPSS 操作视频免费下载

4.推荐！这个流行病大神制作的公共卫生研究小工具，可以计算标准化率及置信区间

5.【绝对精品】这套954张PPT的医学统计学教程，现在公开赠送！

6.精制原创11讲短视频下载！零基础者2小时掌握医学统计学基本原理

7.2022年如何学习医学统计学？无偿奉上我们精心制作的医学统计学全套资料

特别提醒：上述资源每天限分享和下载一个。