本文是“随机对照临床试验”全部5集系列的第4集,之前各集见下:目录
第一节 概述
第二节 随机对照试验设计的原理
第三节 随机对照试验的立题
第四节 追踪随访和资料收集
一、追踪随访
二、资料收集
第五节 统计分析和疗效估计
一、统计分析的作用和原则
二、基线资料和组间可比性
三、治疗效果的估计
第六节 样本量的大小和估计
第七节 临床试验设计的变异
第八节 随机对照试验中的质量控制
第九节 随机对照试验中的伦理问题
第十节 随机对照试验与实验研究
第四节. 追踪随访和资料收集
一、追踪随访
随访就是在一定时间范围内对研究对象的追踪观察。随机对照试验的随访主要目的包括:(1)提高病人对治疗的依从性;(2)减少病人的退出和失访;(3)收集有关资料;(4)发现和处理治疗的不良反应。
随访时间的长短需要兼顾科学性和可行性的原则。例如,研究抗高血压药物的降压效果,观察半年就可能看到药物的效果。相反,如果要观察该药物降低心血管病死亡的危险,随访时间可能需要几年甚至更长。这是科学性上的考虑。然而,从严格科学意义上讲,这样的研究应该观察到每一个病人死亡为止,但又因太长而不可行。
一般情况下,临床试验应该在预先计划的中止时间结束。但是,如果中期分析发现试验组和对照组结局事件发生的频率已出现显著的差别,可以考虑提前结束试验。试验中出现严重的毒副作用,也是提前中止试验的一个常见原因。相反,在研究计划的随访时间结束时,两组比较提示治疗可能优于对照,但又不足以作出肯定的结论,这时可以考虑适当地延长随访时间。总之,观察时间的长短与临床结局有密切关系,观察时间必需允许足够的临床结局出现。如果没有特殊情况,大多数研究应该按照计划结束,提前终止和推迟研究的决定都应慎重。
(一)提高依从性
不依从(noncompliance)的形式有多种,主要包括用药不足(包括用药剂量和时间的不足),完全没有用药,组间治疗相互调换,外加其他治疗等。它们对疗效估计造成的偏倚也不等,以用药不足为最小。不依从的原因是多样的,包括出现严重的副作用、病情明显好转或痊愈、治疗无效或者效果不明显、病情恶化、以及不愿接受不公平的分组等。
临床试验中常见的提高依从性的措施如下:
(1)制订研究方案之前,应进行预试验,了解病人的依从性,以制订切实可行的治疗方案。治疗方案要力求简单方便、切合实际。还可以将服药习惯的养成与日常生活行为结合起来,提高方便性,不易遗忘。
(2)随访间隔要合适,太长则中间缺乏督促,太短则可能引起病人厌烦和不合作。
(3)在入选病人时,可以排除那些可能不会遵照医嘱的病人。(4)病人进入试验后,对病人详细说明治疗的方案、研究的意义,以及遵循医嘱对研究的重要性,使病人尽量主动合作和配合。医生的口头交代十分重要,同时还需给每个病人派发详细的书面说明,随后,护士和药剂师还应不断鼓励和提醒病人遵循医嘱用药。(5)在试验过程中,定期随访,了解治疗情况、疗效和毒副反应,并根据情况对治疗方案进行必要的调整。
对依从的检查,可以让病人将剩余的药物带到检查地点,也可以收集生物学样本进行检查,及时发现和解决问题。提高和改善服务水平、条件、态度,以及就医的方便程度,提高社会和家庭的关怀和支持,也是提高依从性值得注意的环节。失访(loss to follow-up)是临床试验随机分组后研究者需面临的一个比较棘手的问题。研究对象入选临床试验后,在一个较长的随访期内,总会有移居外地、外出、死于其他疾病或意外死亡,以及拒绝继续参加试验等种种原因而未能收集到结局资料。失访可能也与以下因素有关:结局的测量,结局事件发生的概率(常见或是罕见),随访期时间的长短。例如,如果可以在孕妇产后第一天在医院进行结局测量,那么失访率可能是零。
严格来讲,结局资料缺失可以由失访和退出两种事件引起,失访是研究者和研究对象失去了联系,退出是联系还在但病人不愿继续合作,但它们对研究的影响是一样的,都造成结局资料的缺失。除非特别指出,本文讨论失访时包括退出。值得特别指出的是,人失联,但结局数据齐全,不算失访;反之,人可以联系,但结局数据不可得,还是失访。
失访在临床试验中是难免的,研究者应充分认识失访给研究带来的后果,采取措施最大限度地降低失访的发生。例如,当发现有些病人失访的可能性很大,如很可能在短期内移民国外,则不应纳入研究。(2)如果受试者未能按时接受随访,进一步电话采访或家访。(3)随机分组前,尽可能排除那些不愿意接受随访的研究对象。(4)随机分组前,及时排除那些迁移性比较大的研究对象。(5)收集受试者及其朋友、家人、工作单位的电话、地址和电子信箱。(6)收集受试者医疗保险号码或公费医疗单位的通讯信息。(7)设立多个随访点,以方便受试者的随访,节省受试者随访所花费的时间。(8)简化研究程序,合理有效地安排随访,促进受试者的随访。(9)减少问卷中问题的数量,以提高受试者回答问卷的耐性。(13)手机等新型沟通工具给随访带来了很大的方便,应尽可能利用其。
失访率多高才是可以接受的?没有绝对明确的答案。有学者认为,失访率低于5%,偏倚的影响不会太严重。如果失访率大于20%,将会严重影响研究的有效性和真实性,有些杂志会拒绝发表失访率超过20%的临床试验研究。也有学者建议,失访率不应该超过结局事件的发生率。
除了总体失访率外,还应注意不同组间失访情况的比较,比如失访率,尤其是组间失访病人的可比性,比如不同组间失访的原因是否不同。当失访与干预措施的有效性、毒性、副作用有关时,可能会引入较严重的偏倚。
随机对照试验一般需要收集以下四个方面的资料:基线资料、有关治疗依从性的资料、用于估计干预效果的资料,以及用于评估干预的不良作用的资料。
基线资料(baseline characteristics)指研究对象在进入研究时(即干预开始前)的特征,一般是在选择和征募研究对象时收集的。主要包括一般的人口特征和其他可能影响主要临床结局的特征,前者如年龄、性别、种族等,后者如健康状况、病史和治疗史、疾病严重程度、合并症等。病人的一般特征也可能和效果大小有关。
基线资料有以下四个用途:(1)描述研究对象的特征,以便结果可以外推至同类病人;(2)评估比较组间的可比性;(3)在组间可比性差时,用来控制混杂因素;(4)用于进行亚组分析,探讨交互作用。以药物治疗为例,依从性是相对既定的治疗方案而言的,与研究制订的治疗细节比较,在以下几个方面的差别,反映依从性的好坏:(1)用药的途径;(2)用药的剂量;(3)每天的用药时间;(4)用药的总天数;(5)同时使用的其他治疗。
有关干预效果的结局就是用来估计治疗效果的变量,是干预措施实施一段时间后测量的生理生化指标或发生的临床事件,前者如血压,后者如痊愈。该类结局是所有临床试验资料收集中最基本的变量,也是应该花大力气做好的工作。试验组和对照组在这些临床结局上的差异,提示干预措施的效果。尽管是衡量益处的变量,它们既可以是好的结局,如痊愈,也可以是坏的结局,如病情恶化。治疗的效果或好处体现在治疗组和无治疗组在这些指标方面的差别,如果治疗有效,对于好的结局,治疗组应该高于对照组,对于坏的结局,治疗组应该低于对照组。有关不良作用的结局是用来评估治疗不良作用的变量,也是临床试验必须收集的数据。一般情况下,该类结局多属于坏的结局,轻者如头晕,恶心,呕吐,食欲不振和皮疹,重者如疾病、伤残和死亡。如果治疗有某种不良作用,在坏的结局方面,治疗组应该高于对照组。当然,好的结局也可以用来研究不良作用,比如治愈,一种药物可能会治愈一种疾病,但同时也可能影响另一种疾病的恢复和痊愈,这种作用也属于不良作用。
值得指出的是,一个临床试验的样本量可能足以检出治疗的好处,但可能不足以检出所有的不良作用,尤其是慢性不常见的不良作用。研究慢性少见的不良作用,有时只能依靠观察性研究,如前瞻性和病例对照研究。
统计学在临床试验中的作用主要包括估计样本量、产生用于随机分组的随机数字,评估组间可比性(即比较组间基线资料)、估计效果的大小及其真值的可信区间。统计学还可以用于进行亚组分析、控制混杂因子、估计交互作用、以及结果没有统计学显著意义时分析研究的把握度等。随机对照试验一般不需要控制混杂因素,还应避免过度的亚组分析。特殊的试验设计,如析因试验、交叉试验和序贯试验,都有自己特殊的统计分析方法。另外,随机对照试验的报告首先要求对研究对象在整个研究中的出入情况(即流程)进行必要的描述(见图6)。应本章就随机对照试验中基本的统计分析作简单的介绍。 图6. 随机对照试验受试者流程图
描述基线资料指对研究对象特征的描述,这些特征如年龄、性别、种族、病情等,研究对象的特征是判断研究结果可以外推的人群的依据。因此,基线资料的描述是随机对照试验结果分析的第一步。
组间可比性分析就是比较组间研究对象各种特征的相似程度,这里比较的特征与基线描述时用的变量一般是一样的,但基线比较的重点在于检查随机分组的成功程度,分析混杂存在的可能性及其大小,为控制混杂提供依据。随机分组对任何变量的平衡是无选择的,任何变量的比较都可以反应随机分组成功的程度。但是只有影响相关临床结局因素的组间比较,才具有控制混杂的意义。
在进行基线比较时,一般都会进行适当的统计学检验,并提供相关的P值。但是,严格意义上讲,这些检验是毫无意义的,甚至是误导性的,因为仅仅由于机会的原因,就可能出现组间统计学显著性的差异。更重要的是,组间存在统计学显著性差异并不意味着该因素一定会引起混杂,混杂的出现还取决于该因素与有关的临床结局的关系。相反,组间没有显著性差异的变量,一样可能引起混杂。另外,在分析混杂时,还必须牢记:还有很多混杂因子没有包括在分析之内,分布的不均衡可能使一些因素偏向于治疗组,而另一些偏向于对照组,但是当混杂因子数目足够大时,这些因素总和的分布在组间应该是可比的。
干预效果的大小是用治疗组和对照组在临床结局方面的差异来测量的。
以降血压治疗为例,如果关注的临床结局是血压,治疗效果可由治疗组血压下降的平均值和安慰剂对照组血压下降平均值之差来度量,差值越大,效果就越大。如果关注的临床结局是死亡,治疗效果可由治疗组和对照组死亡率之差或之比来测量。
这样估计的干预效果是一个平均的效果,即干预在一组病人中的平均作用。然而,一个平均有效的治疗,对一个体病人来说,其效果可能是痊愈,或是改善,或是病情无改变,或是病情恶化。换句话说,一个平均有效的治疗,可能在一部分病人中有用,一部分病人中无用,一部分病人中有害。在结果应用时,对于诊治个体病人的临床医生来说,这一点必须引起注意。
如果临床结局是连续变量,可以从以下两个维度更全面地显示干预的效果:平均受益的大小和受益病人的百分数。图7说明如何利用二者表示一项干预措施的效果。图中x代表不同干预的结果,落入A区的干预效果最大,即平均效果大,而且受益病人多;落入B和C区的次之;落入D区的最小。
图7. 用平均受益大小和受益病人百分数
综合衡量治疗效果
如果结局是二分类变量,可以用表5的格式描述研究的主要资料,并用两组临床事件发生率的差别定量测定治疗效果的大小。两组之差可以用绝对差值和相对差值来表示。用绝对差值表达的效果叫绝对效果,用相对差值表达的效果叫相对效果。常用的绝对效果有危险度差(risk difference,RD)和需治人数(number needed to treat, NNT)。需治人数是危险度差的倒数,意思是欲使一人得益所需要治疗的总人数。常用的相对效果指标包括相对危险度(relative risk,RR)、比值比(odds ratio,OR)和相对危险降低(relative risk reduction, RRR)。表5. 使用二分类变量作为结局的
临床试验效果估计举例
举例说明。如果在一项抗高血压药物预防心脑血管疾病的随机对照试验里,试验组冠心病发病率为10%,对照组冠心病的发病率是20%,那么, 在随机对照试验的研究报告里,用相对指标的机会远远大于绝对指标。这是因为,与绝对指标相比,相对指标具有统计学的优点,如标准误估计准确,并容易用多元回归的方式控制混杂因子。更重要的是,相对效果往往不因人群和治疗环境的不同而不同,就是说相对效果的大小可以外推到不同人群和治疗条件,对结果的推广和应用,十分可取。基于同样的原因,绝大部分Meta分析和系统综述也会采用相对效果指标来合并不同临床试验的结果。
相对效果指标的缺陷是结果应用时可能会导致不合理的临床和卫生决策。举例说明,假设A药的RRR为40%,B药的RRR为10%,A药的相对效果是B药的四倍。再假设,虽然两个药物是用来治疗不同的疾病,但最重要的结局都是死亡。然而,完全有可能治疗1000个病人时,A药只能预防4例死亡,而B药可以预防20例死亡,如果治疗每个病人的费用相同,B药的绝对成本效果是A药的5倍(见表6)。如果简单地按照相对效果进行决策,可能会选择A药而不是B药。
因此,在利用临床试验结果进行医学实践时,必须根据自己病人的具体情况,估计在没有治疗时相关临床结局可能发生的概率,并依此将相对效果转换成绝对效果,然后进行决策。
维持原随机分组分析(analysis as randomized)又叫意向分析(intention to treat analysis,ITT),即按照随机分组决定的治疗意向(即治疗分配)进行分析。ITT对失访、退出和组间互换事件处理,必须遵循以下三个原则,以维持随机分组获得的组间可比性:(1)所有被随机分组的病人都必须都纳入分析,不能剔除任何病人;(2)每个病人的组别不能更换,必须保留在原随机分组形成的组别;(3)对失访病人的结局进行假设,一般假设两组治疗都是无效的。
图8展示了一个研究中病人的流向以及维持原随机分组分析时两组分子和分母的确定方法。在该研究中,干预是尼古丁替代疗法,对照组是安慰剂,结局是戒烟,研究目的是评估尼古丁替代疗法是否可以帮助吸烟者戒烟。因为没有剔除任何随机分组分配的病人,因此每组计算戒烟率的分母与随机分配的人数完全相等。更换组别病人中的戒烟者加到了原随机分组组别的分子。假设失访病人中治疗无效,即失访者中间没有任何人戒烟,因此失访者对分子没有任何影响。确定了两组的戒烟率之后,就可以按照表5里提供的方法估计疗效了。
图8. 确定ITT分析的分母和分子
人们往往错误地认为,疗效的点估计就是一项治疗的真实效果。其实,任何一项研究都不可能得到一项治疗的真实效果,而且每个研究的结果也不会相同,观察到的结果和真实值之间的差别,随样本量的增加而缩小。
举例说明。如果某产科发现4个新生儿3个是女的,并不说明婴儿男女的真实比例一定是1:3,在另一个产科的4个新生儿可能是2男2女,或是3男1女,或4个都是男孩或女孩。但是,如果1000个新生儿中有550个为男婴,我们会倾向于相信男女婴儿的真实比例很接近55:45。样本量的增加,给了我们更大的信心,相信观察到的结果更接近真实值。
那么,在一项研究中如何才能知道真实值呢?一种常用的方法是利用样本的资料,计算出真实值可能存在的区间,这个区间叫做可信区间(confidence interval, CI)。可信区间的一般计算公式为:其中X是疗效的点估计值。SE是相应疗效点估计的抽样误差或标准误。za是一个由可信度决定的数值,当可信度为90%、95%和99%时,za的值分别为1.63、1.96和2.58。关于各种疗效指标抽样误差的计算,请参考有关统计学教科书。
通常用的可信区间是95%可信区间。比如,一项临床试验发现某药物降低舒张压平均值的95%可信区间为9~11mmHg。也就是说,我们有95%的把握,平均血压降低的真实值介于9mmHg和11mmHg之间。如果我们想更有把握地确定真值在哪里,必须用一个范围更宽的区间,如99%可信区间。从上面的例子可以算出,99%的可信区间为8.7~11.3mmHg,即我们有99%的把握血压降低的真值介于8.7mmHg和11.3 mmHg之间。
可信区间越窄,观察的结果就越靠近真实值。可信区间的宽窄与样本量成反比,样本量越大,可信区间就越窄,观察值就越靠近真实值。可信区间的一个重要方面是它的可信度,就是我们有多大把握或信心真实值会在这个区间之内。当样本量不变时,我们希望的把握度越高,可信区间就必需给的越宽。
(3)给定可信度时,可信区间越窄,研究结果离真实值越近;(4)如果可信区间的两端都显示治疗优于安慰剂对照,现有证据足以说明治疗有效;(5)如果可信区间的一端显示治疗优于安慰对照,另一端显示治疗劣于安慰对照,则说明样本量可能太小,现有证据不足以证明治疗是否有效;(6)如果可信区间的两端都显示安慰对照优于治疗,现有证据足以说明该治疗有害。
图9展示了可信区间的解释和应用。不同可信区间代表不同治疗真实效果可能存在的区间。治疗A的真实效果可能包括“有效、无效和有害”三种可能,因此不能作出结论。治疗B是有效的,但是如果其真实效果在可信区间的最左端,该治疗可能没有实际临床价值。治疗C和D都是有效的,即使其真实效果在可信区间的最左端,其大小仍有临床应用的价值。治疗D和治疗C的可信区间有重叠,不能做出哪个更好或更坏的结论。治疗E是有害的。 图9. 可信区间的解释和应用
在分析临床试验数据时,研究者往往会针对不同病人或不同治疗环境,分别估计并比较其效果,试图确定治疗在哪些情况下可能更有效,这种比较不同亚组效果的分析叫作亚组分析(subgroup analysis)。比如,把一个随机对照试验的研究对象分为男性和女性两组,分别计算治疗在男性和女性中的疗效,即在男性和女性中分别估计治疗组和对照组临床结局的差别,由于这样的分组是根据每个研究对象的特征进行的,因此又叫基于个体资料的亚组分析。在本质上,临床试验中的亚组分析与队列研究中的分层分析是一样的,都可以用来寻找因素间的交互作用,但是随机对照试验不需要用分层分析来控制混杂,因此亚组分析的目的都在于发现效应修饰因素。
亚组分析的重要性不言而喻。但是,对交互作用的分析需基于足够的理由,其结果解释必需慎重。尤其是当总体结果为阴性时,任何亚组间的区别都值得怀疑。慎重的原因有二,一是组间的比较不是建立在随机的基础之上的,可能存在混杂偏倚;二是组间差别的出现可能完全是机会造成的,真正的区别并不存在。因此,在进行亚组分析和结果诠释时,应注意以下几点:(1)是否有先前的证据显示欲分析的因素亚组间效果可能不同?(2)即使样本量很大,亚组分析的数目也不能多于几个(3)分析亚组间效果的区别是否由分组因素以外的因素引起?(5)分析亚组间效果差异的大小是否具有实际临床意义?值得一提的是,在系统综述和Meta分析广泛应用的今天,鼓励每一个临床试验围绕医学经常关心的效应修饰因素(如年龄、性别、病情)进行亚组分析,可能是一个十分可取的建议,这样就可以利用Meta分析综合所有研究的结果,做出可靠的结论。
任何随机对照试验都是某种意义的抽样研究,即只能研究总体的一个部分。在抽样研究里,即使样本十分具有代表性,由于随机误差的存在,研究显示的结果总不会与真实值完全相等。换言之,即使完全没有偏倚,任何临床试验所观察到的疗效都还是走了样的真实疗效。样本观察值与真实值之间的平均距离,即样本结果围绕真实值的分散程度,由抽样误差(即统计学上的标准误)的大小决定,抽样误差越大,观察值与真值的平均距离就越远,反之就越近。
减少抽样误差的主要手段是增大样本量。样本量过小,不能检测出一个临床上有用的治疗效果,或者所提供的可信区间太宽,以至于不能有效地帮助决策者制订相关的防治方案。举例说明,如果平均舒张压降低值的95%可信区间介于9mmHg和11mmHg之间,无论真值为9、10或是11mmHg,临床决定可能是一样的。但如果95%可信区间介于1mmHg和19mmHg之间,决策者将难以据此做出明智的决定:如果真值是1mmHg,这样的药可能没有实际意义,如果真值是19mmHg,这样药存在降压太多的危险。
相反,样本量过大,所提供的关于疗效的信息远远超过实际决策的需要,是对研究资源的浪费。比如,通过加大样本量,把降血压效果的95%可信区间缩窄到9.99 mmHg和10.01 mmHg。对于临床实践,这么窄的可信区间与9~11mmHg没有实质的区别。
总之,样本量太小,研究结果精度太低,无实际应用价值;样本量太大,研究结果会变得不必要的精确,浪费资源。适当的样本量就是:可以提供实际决策有用的信息同时又不浪费资源的研究对象的数量。
简单地认为样本量越大越好,一味地追求大样本,把大规模临床试验作为评估一切干预措施的金标准,是一种错误的理解。一项研究所需样本量的大小,主要取决于干预措施效果的大小:(1)如果一种疾病的病死率为100%,那么成功治愈几例病人,已足以说明治疗的效果,如青霉素治疗骨髓炎;(2) 如果一种治疗可以降低5%的死亡率,则需要上万人的研究,如评估降血脂药降低心脑血管危险的临床试验;(3)如果治疗效果远远大于5%,几百人的研究可能就够了,如评估尼古丁替代疗法戒烟效果的临床试验。
认为一项无效的治疗,只要样本量足够大,也能获得P<0.05的结果,是错误的。当两组的真实差别等于零时,无论样本量多大,任何检验的统计值也等于零,P值将一定大于0.05。
增加样本含量减少抽样误差的方法主要有两种。一种是增加单一临床试验的样本含量,如采用多中心、大规模的临床试验;另一种是使用Meta分析的方法,把多个小样本临床试验的结果整合起来。
下面举例说明一项只有两个平行比较组的使用二分类结局变量的临床试验的样本量的估计方法。假设主要结局事件在治疗组和对照组发生的概率分别为p1和p2。关于p1和p2的估计,可参考既往有关的队列研究或随机对照试验。假设两组人数相等,则每组需要人数(n)可由以下公式计算:
该公式中α为统计学检验的I类错误,β为统计学检验的II类错误,即1-把握度,通常α取值等于或小于0.05,β取值等于或小于0.20。假设p1=0.05,p2=0.20,β=0.05,α=0.05,则zβ=1.65,双侧检验的zα=1.96(单侧检验时用1.65),每组需要的人数为115。
本公式的优点是可使用的事件概率的范围较宽。一般情况下也可以使用队列研究文章建议的估计样本量的公式。疗效大小、把握度、样本量和可信区间三者之间存在以下关系:(2)研究的样本量越大,检出干预效果的把握度就越大;(3) 研究的样本量越大,效果的可信区间则越窄;
(4)如果把握度计算正确,而且干预效果如预期的大小,可信区间的两端都会落在显示治疗有效的一侧。
关于其他临床试验设计(如交叉试验、序贯试验、析因试验、优效试验、非劣性试验等)的样本量的估计方法,不在本文介绍范围之内,请参见有关临床试验的专著。
原文出处:唐金陵 江宇. 主编推荐阅读章:随机对照试验. 见:李立明 主编. 流行病学. 第6版. 北京:人民卫生出版社,2007:128-163. (文字略有改动)
作者:
唐金陵,广州市妇女儿童医疗中心临床研究总监、香港中文大学流行病学荣休教授
江宇,北京协和医学院公共卫生学院副院长、流行病与卫生统计学教授
编辑:
袁金秋,中山大学附属第七医院副研究员
照片:见水印