目录
第一节 概述
第二节 流行病学专题研究数据的分析
一、描述研究对象随研究进程的数量变动
二、对变量进行分类和整理
三、描述基线资料
四、估计结局事件发生的频率
五、估计效应的大小
六、估计可信区间
七、识别和控制混杂
八、交互作用
九、识别和测量剂量效应关系
第三节 队列研究数据分析实例
第四节 常规收集的流行病学数据的分析
第五节 本章总结
第二节 流行病学专题研究数据的分析
一、描述研究对象随研究进程的数量变动
任何流行病学研究必须确定其目标人群,也就是希望未来研究结果可推广的人群。然后根据目标人群选择适合进行研究的抽样人群,并从抽样人群中抽取全部或一定数量的人数,继而从中筛选符合纳入条件的研究对象。由于种种原因,纳入研究的研究对象可能会在研究开始后退出或失访,从纳入研究的人数中扣除退出和失访人数,就是最后完成随访的总人数。一般来讲,随着研究进展的深入,实际参与研究的人数会不断减少。但是,每一步的选择或丢失都可能影响最终研究结果的代表性和真实性,与其相关的偏倚叫选择偏倚。
因此,研究分析的第一步就是对病人的数量变动进行描述。对每一步选样、抽样和筛选,都应交代其原则和方法;对每一种丢失,都应记录其数量和原因。研究对象随时间的数量变动及其原因是判断选择偏倚是否存在及其大小的主要依据。图1展示了随机对照试验的病人流程图和对资料总结的要求。
图1 随机对照试验受试者流程图
二、对变量进行分类和整理
在进行数据分析以前,研究者必须根据研究的目的和设计,按照变量在分析中的用途,将研究收集的所有变量进行归类即分成暴露因素、结果指标、混杂因素、效应修饰因素和其他变量。需注意的是,这个分类不是绝对的,而是由分析关注的具体因果关系决定的,因为有关分析都是围绕这个关系进行。一个前瞻性研究可能包含了很多可疑的病因,也包含了很多结局指标,一个变量的归类也会随着分析关注的因果关系的变化而不同。
为了分析、报告和应用资料的方便,分析前还需将很多变量转换成分析和报告需要的变量类型。例如,在内容有限的基线资料表里,常需要将连续变量转换成等级变量;分层分析时需将自变量转换成2~5组的等级或分类变量;Logistic分析时需将因变量转换成二分变量;控制混杂时一般会把一个连续变量的混杂因素转换成3~5级的等级变量。
整理变量是一个需要谨慎对待的任务,因为把连续变量分级的方法很多,分析者完全可以通过改变分级方法来获得预期的人为的结果,而不是真实的结果。为避免人为的误差,分级可采用以下三种常用的方法:一是按照多数既往同类研究的分级方法,二是按照一般的通用的分级方法(如年龄可按国际通用的婴儿、幼儿、青少年、青年、中年、老年的年龄切点来分级),三是把研究人群分成每组人数均等的3~5组。
三、描述基线资料
描述基线资料就是对研究对象有关代表性和混杂因素的信息进行的描述和比较。基线描述的基本目的有二:一是交代研究对象的特征,提供其代表的人群的资料,使读者可以据此判断结果的外推人群和外推性;二是评估暴露和非暴露组之间混杂因素的可比性,检查存在混杂的可能性。
虽然叫基线报告,但其包括变量不仅仅包括潜在的混杂因素,还包括说明研究对象特征和代表性的变量,以及暴露变量和结局变量。在总体描述的基础上,一般还会对暴露和非暴露组分别描述并进行组间比较。描述和比较时,应同时报告点估计及其可信区间,应尽可能避免单独使用显著性检验的p值。以“百万妇女研究”(Million Women Study)对女性身高与癌症风险关系的分析为例,其基线报告如表1所示。在该研究中,暴露因素是“身高”,作者以“身高<155厘米”为参照,按照暴露的不同水平,将研究对象分为6组,分别描述每一组研究对象的基本特征,例如平均身高、人数以及其它的代表性变量(如吸烟史、饮酒史、生育史等),这些代表性变量同时也有可能是混杂因素,在分析和解读的时候需要加以注意;在描述每个特征的时候,作者根据变量的不同属性给出了其标准差或是占总人数的百分比;在表末,作者还报告了随访的人年数以及结局事件(新发癌症)的发生数,从而使读者对研究对象的基本情况一目了然。由于篇幅限制,该表并未呈现对不同组之间各个变量进行比较的结果,但是在文章的结果部分进行了文字描述。
表1 “百万妇女研究”中女性身高与癌症风险的关系基线报告表
四、估计结局事件发生的频率
为了叙述方便,我们权且将所有不同结局事件(如死亡)的发生率都叫做发病率。的确,多数流行病学研究中的结局事件就是发病。发病率由三个因素决定:观察时间、可能发病的总人数和实际发病人数。一般情况下,发病率的分子是在一定时间内发病的总人数,但不同研究应该使用的分母可能不同。分析者应根据研究对象观察时间的一致性和结局发生的频度,决定发病率分母的计算方法。
一般来讲,当结局事件发生率比较低,且每个人观察时间的长短基本一致,可用研究开始时该组的人数为分母计算发病率,这样估计的发病率叫做累积发病率(cumulative incidence)。如关于心血管病的队列研究和临床试验,多采用累积发病率。当结局事件发生率比较高时(如晚期癌症治疗试验中的死亡事件)和/或每个研究对象的观察时间相差较大时,用累积发病率进行比较会得出不准确的甚至是错误的结论,这时可用人时数(如人年数,person-years)做分母计算发病率,这样估计的发病率叫做人时发病率(person-time incidence rate),因其带有瞬时频率的性质,又叫做瞬时发病率(instantaneous incidence rate)或发病密度(incidence density),英文中还可能会用incidence rate、hazard rate、force of morbidity or mortality等词来表示。有关估计发病率的详细描述,请参见文尾原文出处《流行病学》第一章“疾病频率的测量”。
五、估计效应的大小
效应就是暴露或治疗对结局作用或影响的大小,多用暴露组和非暴露组间结局事件发生率的差别或治疗组与对照组的差别来表达。用于测量效应大小的指标叫效应指标(measure of effect)。效应指标的种类有很多,最常用的是基于二分变量的各种相对和绝对指标,见表2。在计算效应大小时,一般将暴露组或治疗组的发病率用作分子或被减数,非暴露组或对照组作为分母或减数。另外,效应指标的临床意义还取决于结局事件的性质,因为对同一个指标的解释,有益事件与不良事件的临床意义刚好相反。在没有明确指出时,本章的讨论假设结局指标是不良事件,并使用累积发病率进行计算。下面将根据表2的数据,展示各种效应指标的计算,并对其意义进行解释。表2 前瞻性研究的数据总结表和效应指标估计公式
1)相对危险度(relative risk,RR):又叫危险度比(risk ratio)或率比(rate ratio),均以RR表示。设I1为暴露组或治疗组的发病率,I0为非暴露组或对照组的发病率,RR=I1/I0,测量的是暴露与疾病关联的相对强度,或病因对疾病危险作用的相对大小,或治疗对结局事件作用的相对大小。若结局是不良事件,RR>1时,表示暴露增加疾病的危险,是疾病的危险因素;RR<1时,表示暴露可降低疾病的危险,是疾病的预防因素;如RR=1,表示暴露与疾病无关联。同理,在治疗试验里,RR>1时,表示治疗可增加结局事件的概率;RR<1时,表示治疗可降低结局事件的概率;如RR=1,表示治疗与对照的效果无区别。当结局为有益事件时,RR的意义则刚好相反。2)归因危险度百分数(attributable risk percent,ARP):ARP=(I1-I0)/I1,当结局为发病或不良结局时,ARP是暴露组可归因于暴露因素的发病人数占暴露组全部发病人数的百分数。3)相对危险降低度(relative risk reduction,RRR):在随机对照试验里,类似ARP的指标是RRR。RRR=(I0-I1)/I0,表示的是试验措施与对照措施相比可以降低不良事件发生的百分数。也可用RR估计,RRR=1-RR。4)比值比(odds ratio,OR):前瞻性研究和随机对照试验的数据均可以估计比值比,但病例对照研究的数据只能估计比值比。当结局事件发生率比较低时(如低于10%),比值比的大小和临床意义基本与RR相同,可将比值比当作近似的RR对其意义进行解释。在随机对照试验里,RRR=1-RR≈1-OR。必要时,也可以直接使用累积发病率计算比值比。已知I1为暴露组发病率,I0为非暴露组发病率,则暴露组发病的比值为I1/(1-I1),非暴露组发病的比值为I0/(1-I0),那么两组的
5)率差(risk difference,RD):又叫归因危险度(attributable risk,AR)和特异危险度。随机对照试验里,常把RD叫做绝对危险降低度(absolute risk reduction,ARR),RD= I1-I0。若结局为不良事件,率差是暴露组与非暴露组发病率差别的绝对值,即暴露者单纯由于暴露而增加的发病危险的绝对数。RD=0时,说明两组之间无差异;RD<0时,说明暴露能降低不良事件发生的危险,是保护因素;RD>0时,说明暴露可增加不良事件发生的危险性,是危险因素。若事件为有益事件时,RD的临床意义则刚好相反。6)需治疗人数(number needed to treat,NNT):NNT是RD的倒数,即NNT=1/RD,常用于描述关于治疗效果的大小,意思是为了避免或预防一例不良事件或获得一例有益事件需要治疗的病人总数。NNT值的大小与疗效大小成反比,NNT越小则疗效越大,NNT越大则疗效越小。当用于描述不良事件大小时,类似NNT的指标被称作不良事件发生所需要的人数(number needed to harm,NNH),即出现一例不良反应需治疗的总人数。另外,公共卫生领域常用的指标还包括人群归因危险度和人群归因危险度百分比,它们是一对在概念上类似归因危险度和归因危险度百分数(即AR和ARP)的指标,但是人群归因危险度和人群归因危险度百分比里的人群是一般人群,包含暴露者和非暴露者,而归因危险度和归因危险度百分数里的人群都是暴露者,因此后者又可称为暴露者归因危险度和暴露者归因危险度百分数,以示区别。7)人群归因危险度(population attributable risk,PAR):指人群里由于部分成员暴露于某一危险因素而增加的发病危险。设Ip为该人群有关疾病的总发病率,I0为研究中显示的非暴露组的发病率,则PAR=Ip-I0。8)人群归因危险度百分比(population attributable risk percentage,PARP):PARP=([Ip-I0)/Ip]×100%。当人群发病率未知时,可利用研究显示的RR和全人群中危险因素的暴露比例(Pe)来推算人群归因危险度百分比:PARP=Pe(RR-1)/[Pe(RR-1)+1]。PAR和PARP均可用来估计某危险因素在整个人群引起的疾病负担,说明该危险因素在整个人群卫生问题中的重要性,常用于卫生政策及公共卫生方面的决策。它们的大小取决于人群中暴露因素的流行率和暴露因素效应的大小两个方面,若目标人群中暴露的比例很低,尽管暴露因素在暴露者中造成的危险很高,人群的实际发病者也不会很多。病例对照研究只能用比值比估计病因作用的大小。尽管前瞻性研究和随机对照试验的数据可以估计各种效应指标,但是随机对照试验多使用RR和RRR,而前瞻性研究多使用OR和RR。各种研究很少使用绝对效应指标,其原因是相对指标(尤其是OR)具有更好的统计学属性,如标准误的估计更准确;不同研究的结果更趋于一致,因此容易总结和传播;有很成熟的多元回归分析模型,更容易有效地控制混杂因素和分析交互作用。举例说明。假如某关注吸烟和肺癌关系的前瞻性研究,纳入无肺癌的吸烟者10,000人,无肺癌的非吸烟者20,000人,平均随访观察10年,不同研究对象观察时间的差别不超过3个月,10年内吸烟者中新发现肺癌50例,非吸烟组20例。吸烟对肺癌发病的作用的大小可计算如下:
六、估计可信区间
由于随机误差的存在,以上效应的点估计不能代表效应的真实值,可信区间(confidence interval,CI)可用来表达由随机误差引起的效应估计的不确定性,一般用95%可信区间表达。从实践意义上讲,可信区间可以看成是真实效应可能存在的区间。95%可信区间大致可以理解为真实效应有95%的可能在这个区间之内。设效应的点估计为X,SE为X的标准误,所有效应指标的95%可信区间都可以通过以下通式进行估计:
95%CI =X±1.96SE,X-1.96SE为其下限,X+1.96SE为其上限。
传统的显著性检验和相应p值的临床意义不易理解和交流,因此应尽可能避免单独使用它们来评估研究结果的不确定性。
原文出处:唐金陵. 第二十章: 流行病学研究数据统计分析概述. 见:李立明 主编. 《流行病学》. 第一卷. 第三版. 北京: 人民卫生出版社: 2015: 369-397.
作者:唐金陵,广州市妇女儿童医疗中心临床研究总监、香港中文大学流行病学荣休教授
编辑:唐惠、邬德华
唐金陵教授《临床研究方法学文章汇集》 | 2019-11-27
系统综述中的统计分析(5/5):Meta分析软件与分析实例
临床研究讲座:流行病学数据分析基础(1/6):目的、原则和内容
长按上方二维码关注我们