重复测量数据的统计分析,警惕犯这些错误!
The following article is from 小白学统计 Author 冯国双
内容来自:“小白学统计”微信公众号,感谢作者授权。
重复测量(repeated measures)数据是医学领域中非常常见的一种数据,对于这种数据的分析,有很多种方法,有的还较为复杂,不是三言两语能说清楚的。本文主要介绍一下重复测量数据的一些概况。
“重复测量”是什么
重复测量数据很多人可能都见过,比如随机对照试验中,对两组人群分别在不同时间点进行观察,这就是重复测量。再比如,同一人群不分组,分别在用药前、用药后1月、用药后2月进行疗效观察,这也是重复测量。
当然,重复测量不仅限于时间上的重复,也可以是空间上的重复,例如,同一患者的两只眼睛,同一肿瘤患者的不同肿块,同一医生所诊治的不同病人等。这些都是空间上的重复。所以说,“重复”是一个广义上的概念,不仅仅是时间上测量的重复。
有一点要说明一下,“重复测量”数据与“重复调查”数据,并不是一个概念。重复测量是对同一样本的不同时间点的测量,而重复调查是在不同时间点对不同群体的调查。例如,每隔几年就重复调查的营养膳食情况,每隔几年进行的消费者调查,这些是在时间上重复,但每次调查不一定是同一群体,可能有重复的人群,但是大多数可能都不是上一次被调查的人。
这种重复调查数据分析的是年代、世代等的一些现象的变化,通常可以采用年龄+时期+世代分析,跟同一人群的重复测量数据不同。
重复测量数据的错误分析
目前发表的论文中,存在很多对重复测量数据的错误分析。比较典型的错误应用有:
对于同一人群(不分组)测量了4个时间点,分析时将这4个时间点作为独立的4组,采用常规的方差分析来处理。
对于同一人群(不分组)测量了4个时间点,将4个时间点作为随机区组,采用随机区组方差分析来处理。
如果是将研究对象分为2组,每组分别测量4个时间点,分析时分别在每个时间点做t检验,而且煞有介事地说什么时候开始有差异,等等之类的。
将癌症研究对象分为2组,每组研究对象有1个或多个复发肿瘤大小,将所有肿瘤合并在一起,以肿瘤为原始数据(而不是以个体为原始数据)进行常规的方差分析或t检验。
上述这些都是比较典型的错误做法,而这些错误用法在很多杂志上依然屡见不鲜。
为什么这么做是错误的呢?因为不管是时间上还是空间上,重复测量数据的共同的特点是同一研究对象的重复测量值之间是非独立的(nonindependent)。
例如,同一患者的血压值,在今天以及一个月以后测量,肯定有一定相关性的,不大可能今天测量140,下个月就变成180了。同样,同一个体身上不同部位的肿瘤大小,可能也是有关系的,而不同人之间可能是独立的。
传统的t检验或方差分析等,要求的前提条件之一就是独立性。直接采用t检验或方差分析来处理重复测量数据,就是无视方法的应用条件,往往容易导致标准误的低估,从而增加假阳性错误。
重复测量数据的处理
那重复测量数据应该怎么来处理呢?这个需要根据研究目的和数据类型而定。
如果只有一组人群,在不同时间点分别进行观察,如用药前、用药后1月、用药后3月分别观察疗效情况,目的是比较用药后是否比用药前有所改善。这时可以考虑重复测量方差分析或者多水平模型(因为重复测量数据可以看做是一个2水平的数据,个体是水平2,重复测量值是水平1,水平1嵌套在水平2之中),还可以用广义估计方程。
如果将一群人分为2组或多组,目的是为了比较时间点之间的差异,还有组间差异,这种仍然可以考虑重复测量方差分析或多水平模型,以及广义估计方程。
如果一群人,观察了多个时间点,目的是为了观察不同时间点的变化趋势。例如,对学龄前儿童测量其体重、身高一起其它发育指标,然后每隔2年测量一次,共测量5次,想观察儿童身体发育的变化情况。这时候可以考虑生长曲线分析(growth curve analysis),探索随时间变化的趋势,是直线发展,还是曲线发展。
如果有一群人,观察了多个时间点,目的不仅是为了观察随时间的变化趋势,还想看看这些人的变化是不是可以进行归类。例如还是刚才的例子,不仅要考察儿童的身体发育的趋势,而且想看一下,是不是有的儿童发育快,有的儿童发育慢,把他们分分类。这时候可以考虑潜变量分类分析,轨迹分析模型等等。
有时,时间序列分析也可以算作是重复测量数据分析的一种,只不过时间序列分析的时间序列数据一般都不是个体,而是更高级的单位,如某地区多年GDP数据,某市10年的流感数据,等等。这些数据也算是重复测量,可以用时间序列分析进行预测,如根据前10年的流感数据,预测下一年的发病趋势。所以,对于这种情况,一般目的是用于预测。
还有一种叫做面板数据(panel data),也可以看做是重复测量数据,这种数据一般也都不是个体数据,也是一些城市层面上的数据,不过跟时间序列不同的是,时间序列只是一个城市的多年数据,而面板数据是多个城市的多年数据。
这种数据一般在社会经济领域用的较多,这种数据一般城市不一定太多,但观察时间可能很多。跟医学中的重复测量恰恰相反,医学中通常是个体数据,观察的个体很多,但观察时间点没有多少。所以,对于面板数据,也有自己的分析方法,比如固定效应模型分析(详细还可分为个体固定效应、时间固定效应、个体-时间固定效应),随机效应模型分析(也就相当于多水平模型)等等。
总之,重复测量数据这个词很简单,但是涵盖的领域很广泛,分析方法也较多,无论用什么方法,都需要结合研究目的、数据结构、数据类型综合来判断,而不是简单地人云亦云,看别人文章怎么写,你也怎么写。
更多阅读
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看全部统计教程。