卢沙野大使接受法国LCI电视台直播专访

【少儿禁】马建《亮出你的舌苔或空空荡荡》

外交部迅速反应:严正抗议美冻结全国人大14位副委员长资产,中方将反制

达赖叛逃时把人皮、头骨法器都送给了谁(胆小慎入)

列宁会如何看待宝马MINI“冰淇淋事件”

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

你要的分层分析方法,我给你写全了

郑老师 医学论文与统计分析 2022-10-07

 随机对照研究的协变量控制方法--分层分析法


SPSS 教程 29讲-34讲:混杂偏倚及控制方法
29讲:了解混杂因素与混杂偏倚
30讲:为什么回归分析可以控制混杂偏倚
31讲:如何控制随机对照研究中协变量的影响
32讲:协方差分析在随机对照中的应用
33讲:分层分析控制实验性研究混杂偏倚

34讲:回归分析控制偏倚的过程与报告撰写


SPSS 教程 33讲:随机对照研究的协变量控制方法--分层分析法


在随机对照试验(RCT)中,随机化保证了研究对象的各项基线特征(例如年龄、性别、疾病严重程度、伴随疾病等能够影响疾病预后的因素)在试验组和对照组之间的均衡性。


但很多情况下,RCT也无法保证严格的均衡性,总是有意外产生,特别时存在着多个基线特征(我们称之为协变量),分组不均衡,容易成为混杂偏倚。此时,如何进行协变量的控制,是统计分析重要的考虑。


对于少数导致不均衡的协变量的控制,协方差分析是一种,它主要针对的正态定量结局,但对于分类结局或者生存结局,协方差分析无法使用。


分层分析解决了这个问题。分层分析是根据协变量不同水平将人群分为若干组分别进行分析的方法。


在医学数据分析上,分层分析包括两种相似但又目的不同的应用, 用于进行控制混杂偏倚的分层分析,和存在着交互效应情况下所进行的亚组分析。在随机对照研究,一般把前者称之为分层分析,一般根据协变量进行分组,分别开展统计分析,而后合并效应;而后者又被称之为亚组分析(subgroup analysis),只根据分组变量进行分组分析,形成各亚组结果,比较各组效应的差异性。

简单来说,前者分层后进行合并,进行混杂控制;后者分层后不再合并,直接以亚组结果形式存在,存在着交互效应时使用。


本篇文章着重来探讨如何利用分层分析方法开展随机对照研究混杂偏倚的控制。


分层分析用于控制混杂偏倚的主要的方法有,针对分类结局的CMH方法;针对结果变量为生存时间时的分层 log-rank 检验;当然还有针对偏态分布数据的分层分析方法。


利用CMH方法开展分层分析


CMH统计分析 (Cochran -Mantel -Haensel Statistics) ,是 Mantel于 1963年在原有 M H统计分析方法( 1959年 )的基础上提出来的 , 它是一种基于卡方检验为基础的统计分析方法,也就是将人群进行分层,分别进行卡方检验,而后合并效应来控制混杂偏倚。因此,又称分层卡方检验。



1



案例


某医药公司对针对瑞德西韦,开展治疗新冠肺炎的疗效比较分析,研究在四家医院开展,将人群随机分为两组,一组是瑞德西韦组,一组是常规药物组,观察患者入院后10天疗效(根据肺炎症状分为有效和无效)。数据见CMH.sav


该研究共获得414例患者,分层分析是按照中心分层,根据中心得到不同中心临床试验的结果,最后汇总结果。可见下表。



2



统计分析策略

一般情况下,在一个医疗机构开展临床试验,由于小样本资料假阴性的概率比较大 。因此采取多中心试验 ,在短时间内可收集到足够的样本,从而提高检验的效能,以达到科研的预期目的。但在多中心试验中 ,由于各中心的硬、软条件不等 ,中心混杂因素的影响是不可避免的,所以对多中心试验汇总的资料分析,就得考虑这个混杂因素 , CMH统计分析方法从这方面出发来进行分层包括多中心试验资料的分析,它在卡方基础上进行,又称分层卡方检验。


分而再合的研究,是为CMH分层分析方法。它的过程包括以下三部分:


1. 不同医院进行分组,分别分析处理因素的OR值值

2. 合并计算OR(CMH合并值),得到P值

3. 以合并的OR值和P值作为评价处理因素与疗效的关联性的指标


那么如何评价协变量是否混杂因素呢?如果存在着混杂因素,那么原始OR和CMH 合并OR值存在明显差别。



3



分层卡方SPSS分析操作

分层卡方的操作方法,在一般卡方检验基础上进行,详细可以见教程

SPSS 统计分析策略(11):两组率比较的统计方法(卡方和Fisher法)


(1)主界面

分析--描述统计--交叉表


(2)CMH操作界面

CMH分析在卡方检验基础上进行,关于卡方检验的具体操作,此处不再啰嗦,这里需要设置的关键如下:

①层:在卡方检验的基础上,将医院纳入“层”内。

②统计:在“统计”选单中,除了要选择“卡方”之外,选择“柯克兰-曼特尔-亨赛尔”即CMH方法。



4



CMH方法结果


SPSS软件CMH方法分析,提供了上文介绍的分层分析的两个内容,第一,分层分析后合并效应,进行控制混杂;第二,直接通过比较分层结果,观察亚组效果,分析是否存在着交互效应。当然,本篇文章更关注偏倚的控制。


第一张,分层开展统计分析。

本结果提供分4家医院各自开展卡方检验,探讨处理因素与结局关联性的结果(1、2、3、4),以及未进行分层的粗卡方检验结果(合计) 。结果发现,在4家医院分别开展卡方检验,结果全部为阴性,而总体上处理因素与疗效关系则成立(P=0.019),但该结果是未控制潜在混杂因素的结果。


第二张表,比较各层的效应差异,即OR值有无统计学差异,目的是在亚组分析的基础上,观察是否存在着效应的一致性,也就是探讨中心与处理因素交互效应是否存在。采用的方法主要是Brelow-Day方法开展分析,结果发现P=0.650,无统计学差异,说明各个医院处理因素对疗效影响的OR值一致。既然一致,则无交互效应。也就说无论在哪一家医院开展临床试验,干预效果是相同的。

第三、四张表,分层分析后合并效应,得到CMH OR值,控制混杂偏倚。两张表共给出了3个P值,是不同统计学者提出的关于处理因素与疗效关系的假设检验方法,结果大同小异。最终OR值0.520,P=0.020;这一结果已经控制了潜在混杂因素。新药相对传统药物,更为有效。


那么医院是不是混杂因素呢?如果我不进行分层分析,则OR=0.521,与CMH方法计算出来的0.520没有差异。该结果说明医院不是混杂因素(因为如果医院这一变量是混杂变量,那么控制医院后的CMH结果,OR值不应该接近于0.521)。

总结来说,CMH方法通过先分层再合并的方法,帮助我们计算得到了一个控制混杂偏倚后的OR值,更能反映处理因素与结局的关系。当然,SPSS CMH分层分析,也给我们带来了一个副产物,利用Brelow-Day探讨了分层分析的另外一个目的:观察分层因素与处理因素交互效应是否存在,也就是不同层之间的OR值是否一致。


所以SPSS CMH方法将分层分析两个目的(控制混杂和探讨交互)全部回答了一遍。初学者容易被SPSS几张看起来较为复杂的表格所吓到,所以阅读结果时,一定要明确CMH方法给出的两个结果究竟都意味着什么?


生存时间资料的分层分析


当随机对照研究中,研究结局不再是分类结局,而是生存时间资料时,CMH方法不再适合,而应该采用分层生存分析。分层的生存分析有分层logRank检验、分层Cox回归等,本例就分层logRank检验做个介绍。



1



案例

某医药公司对中医药,开展治疗轻中度患者新冠肺炎的疗效比较分析,研究在一家医院开展,将人群随机分为两组,一组是瑞中西医结合组,一组是常规西医组,观察患者入院后治疗改善情况,结局是患者改善所需要的时间。在该研究的数据中,除了结局指标,处理因素,还有协变量患者的病情(分为轻度和中度)。数据见Slogrank.sav



2



统计分析策略

该研究结局包括两个,第一,患者是否改善(1=改善,2=删失,即未改善);第二,治疗后实现改善所需要的时间,因此属于生存时间资料。对于生存时间资料,生存分析应是主要方法。一般来说,随机对照研究常用logRank进行生存时间的比较。


在这个分析中,疾病病情可能是个混杂因素,值得去控制。我们可以采用卡方检验看出中西医与西医组在疾病病情之间的区别。虽然两组卡方检验显示病情与疗法在统计学上没有差异(P=0.194),实际上两者差距是比较明显的(表1)。提示分组不均衡,值得采用分层分析来控制偏倚。



3



分层logRank分析SPSS操作

分层logRank的操作方法,在一般logRank验基础上进行,详细可以见教程

如何阅读一张生存曲线图?


(1)分层logRank的入口


(2)分层logRank的主界面

其它设置与一般的logRank一致,唯一不同的是增加了“层”

①层:在将医院纳入“层”内。

②统计:在“比较因子”选单中,选择“logRank”方法

③选项:可以绘制生存曲线图。



3



分层logRank分析分析结果

首先,根据疾病轻重程度,分别计算中西医组和西医组的中位生存时间。


然后,在分层的基础上,开展LogRank检验,结果发现,P=0.148,差异无统计学意义。


如果我们不开展分层分析,则logRank检验结果如下:P=0.037,差异则有统计学意义。

所以,我们可以看出,分层 与不分层,其logRank结果不一致,分层则P>0.05,不分层则P<0.05。由于两个结果不一致,我们当然认为混杂偏倚存在,此时分层分析的结果更为可靠。所以该研究不支持中西医结合与西医组相比,疗效更为显著的结论。


分层分析的不足之处


在本文的两个例子中,我们仅考虑了一个混杂因素,并对其进行了分层分析,假设此时增加一个混杂因素——年龄(>=60岁和小于60岁)我们就需要同时对年龄和糖尿病进行分层,即分为男性年轻组、女性年轻组、男性老年组、女性老年组,共4层,并在每一层下进行单独分析,最后将结果进行汇总。

如果同时混杂因素——医院(4家),此时有3个混杂因素,就要分为16层(2*2*4)。

在样本量有限的情况下,如果分层太多,分到每一层的样本量就会减少,甚至无法分析的地步,结果不稳定,因此分层分析混杂因素不能太多,很少超过3个。

由于这个原因,分层分析一般只用在随机对照研究的控制混杂,或者用于亚组分析。观察性研究混杂因素的控制一般很少用分层分析。

但是,必须要说的是,很多教材说分层分析只能针对一个混杂因素,这是一种不妥当的说法。

本公众号在传播统计学知识的同时,也放置了一些常用的资源来方便大家科研。所有资源全部免费下载,有兴趣的朋友可以关注下载。
1.  最全35款统计分析软件(包括最新版SPSS、Stata、Graphpad)
2.  如何让excel绘制出精美的统计图?EXCEL  插件来帮忙!
3.  最2006-2019中国卫生统计年鉴合集下载
4. 精心整理三款科研绘图软件视频教程(GraphPad, Origin,SigmaPlot )
5.  网状Meta分析怎么写?全网最全资料等你来拿
6.  如何制作与分析量表?中英文权威书籍来帮忙。
7. 流行病学与统计学完美结合:公共健康数据分析
8.  推荐几本临床研究方法的经典书籍
9. 5本经典又好看的统计科普书(PDF+MOBI)
10.样本量如何估算?双手奉上样本量计算公式大全

如果您觉得文章不错,
点击“分享”吧,非常感谢。

文章有问题?点此查看未经处理的缓存