查看原文
其他

随机对照临床试验(5/5): 设计变化、质量控制和伦理问题

唐金陵 江宇 临床研究与循证医学 2022-03-25
本文是“随机对照临床试验”全部5集系列的第5集,之前各集见下:
随机对照临床试验(1): 概述
随机对照临床试验(2): 随机对照试验设计的原理
随机对照临床试验(3): 随机对照试验的立题
随机对照临床试验(4): 收集资料、估计疗效和估计样本量


 

目录第一节  概述第二节  随机对照试验设计的原理第三节  随机对照试验的立题第四节  追踪随访和资料收集第五节  统计分析和疗效估计第六节  样本量的大小和估计第七节  临床验设计的变异

一、临床试验的分期

二、大型随机对照试验

三、单人重复交叉试验

四、序贯试验

五、整群试验

六、交叉试验

七、研究交互作用的试验

八、开放性试验

九、非随机分组的试验

十、无对照组的试验

第八节  随机对照试验中的质量控制第九节  随机对照试验中的伦理问题第十节  随机对照试验与实验研究

第七节. 临床试验设计的变异

以上讲述的随机对照试验是一种最常见的平行对照的试验,也是设计上科学性最高的临床试验。但是在实践中,由于可行性、伦理性,以及研究目的的特点,临床试验的设计不是千篇一律的,而是多种多样、千变万化的。值得注意的是,在偏倚控制方面,大部分研究设计的变异,都是一种让步,会或多或少降低研究的科学性和方法学质量。下面将根据治疗测试的分期和其他特征,逐一介绍常见的试验设计的变异以及它们的用途。


一、临床试验的分期
在测试一项新药的过程中,经常将不同评估阶段的研究称做Ⅰ期、Ⅱ期、Ⅲ期和Ⅳ期试验(phase I, II, III, IV trial),不同临床试验的研究目的侧重也不同。


Ⅰ期试验是一个药物从动物研究转向人群研究的第一步。主要用来研究新药的临床药理、代谢和急性毒理,及其安全性。研究对象常常是无相关疾病的健康志愿者,研究的样本量一般很小,无需对照组。


在Ⅰ期试验获得该药安全的证据后,方可进行Ⅱ期试验。Ⅱ期试验重点是初步了解新药的疗效和副作用,并初步建立剂量反应关系。Ⅱ期试验需要相关的病人作为研究对象,常会使用短期可见效的中间结局,样本量往往不大,如几十人,对照的设置可能不是随机分配的。II期试验会继续关注常见的毒副作用。


如果Ⅱ期试验证据显示新药可能有效且无明显毒副作用,方可进行Ⅲ期试验。Ⅲ期试验是在人群中对药物效果进行的最严格的测试,也是本文讨论的主要内容,一个III期试验必须尽可能地遵循本文前面介绍的随机对照试验的科学原则。III期试验同时也需要监测不太常见的毒副作用。


Ⅳ期试验又称药物上市后监测(post-marketing surveillance),通过比较大批使用过和未使用过某药的人群,监测药物上市后可能出现的罕见、慢性、严重的副作用。Ⅲ期试验的样本量和观察时间的确定主要是根据治疗效果的大小,可以可靠地估计效果的大小,但多不足以检出罕见的慢性副作用。Ⅳ期试验类似观察性的队列研究,但是当研究极为罕见的副作用时,唯一切实可行的是病例对照研究。比如,Herbst氏1969年报告的只有8例15~22岁年轻女性阴道腺癌的病例对照研究,就是一个经典案例。


当然,这个分期是人为的,实际测试也可能分为5期或更多阶段,而且每期的分割往往没有这么泾渭分明。由于不同测试阶段的研究目的不同,对研究设计的要求也就不同。下面将要介绍的研究设计的变异,由于科学性的让步,多会用在早期的测试阶段。



二、大型随机对照试验
大型随机对照试验(large randomized trial, mega randomized trial)与一般意义的试验研究的主要区别是样本量的大小。确认比较小的具有临床价值的效果,如抗高血压药可以将中风危险从4%降低到2%,需要几千甚至上万人5到10年的观察。阿司匹林预防冠心病的研究也是如此。由于样本量大,又希望尽快完成,大型试验经常需要很多单位(甚至来自很多不同国家)的合作,方能在短时期内完成。由于涉及多个研究地区、单位或中心,大型试验一般都是“多中心大规模试验”。由于样本量大,涉及研究单位和人员多,费用大而且操作复杂,多中心大规模试验在设计和实施方面与一般试验存在很多不同(详见表7)。
 
表7. 一般临床试验与大规模临床试验
的主要区别


特征
一般临床试验
大规模临床试验

研究目的

多属于效力研究,即估计治疗在理想条件下的效果

多属于效果研究,即估计治疗在常规治疗条件下的效果

样本量大小

几十或几百人

每组可以多达几千或上万人


研究组织者数目和


一般少于10人;


非常多,有时可多达几百人;

参与研究单位数

多只有一个单位

多国家、多城市、多中心


病人入选条件

多只限于一类病人

可以入选各种不同类型的具有同一疾病的病人


治疗的安排

严格限制各比较组可能接受的其他治疗;

除研究的措施外,对各比较组可能接受的其他治疗不设特别限制;


用最好的医生、以最优的方式提供治疗


在实际治疗水平和条件下提供治疗

随访的频度和病人依从性

随访频繁,强度高;

采取特别措施提高依从性,病人依从性高

常规治疗时的随访频度;

只提供常规治疗时采取的提高依从性的措施,病人依从性可能低


结果的诠释

若显示有效,实际中可能无效,应用时需慎重;

若显示无效,肯定无效

有效,实际中一定有效;

若显示无效,在理想治疗条件下可能会有效

 

大型试验的某些特点可能也正是它们的弱点。例如,对其他治疗不加以限制,可能会掩盖所评估的治疗的真实效果。但有些学者认为,宽松的病人入选条件,正好反映或模拟了实际治疗环境,这样估计的效果更贴切地反映了实际应用中的效果。再如,包括各种各样的病人,有可能会将萝卜白菜混为一谈,忽略了重要的交互作用。当然,研究交互作用,需要亚组分析,势必需要比较大的研究样本。


大型试验只适合用来评估疗效不是很大的干预措施,效果很明显的干预不需要大规模试验,设计更严谨的中小型试验更可取。大规模试验也常用于比较两个效果相当的治疗,即等效试验(equivalence trial)或非劣性试验(non-inferiority trial)。简单地把大规模多中心试验视为评估医学干预措施的金标准,是对试验设计原理的一种常见的误解。


另外,值得注意的是,临床研究和临床实践都不可过于强调大型随机对照试验的重要性,因为大型试验只适合用于证明比较小的效果或差别。比如,立竿见影的白内障手术,无对照的几个病例试验就足以证实。而且,大型试验可能会纳入很多本来对药物反应不好或根本没有反应的病人,致使疗效稀释,造成结果可以广泛外推的误导。因此,过于强调大型试验就等于过于强调微小效果的干预措施,是对统计学意义和临床意义的混淆,也会导致简单的对样本量和大型研究的追捧,而不是对临床意义和创新性的追求,外推性的误导会导致治疗很多对药物没有反应的病人。

 

三、单人重复交叉试验
最小的试验研究是只有一个人的试验,就是“单人多次重复交叉对照试验” (n of 1 trial,或简称单人试验)。单人试验是只有一个病人的、以自身作为对照的、多次交替使用不同治疗的试验研究,每一个时段的治疗可以采取随机的方式决定,对照治疗可以是安慰剂,也可以是别的治疗。单人试验主要适用于病情比较稳定的、不可治愈的慢性病,或是经常发作的疾病,比如抑郁症。抑郁症的病情虽然随时间波动很大,影响病情波动的因素很多,但是在短时间内不会痊愈,停止治疗后病情会回到治疗前的状况。


单人试验也可以使用盲法。药房工作人员将交替给病人药物或安慰剂治疗,必要时,这样的交替治疗可以达10次之多,并使医生和病人均不知道病人在交替用药,达到双盲的目的。医生与病人会不断探讨病情和治疗,由第三者收集资料评估结果。收集资料和评估结果时,研究者也不应知道治疗的交替情况。


单人试验可以用于药效的早期测试。但除非疗效十分明显,一般不能用来确认效果的存在,更多的是用于测试一个病人对一个已知有效的治疗是否会产生反应,帮助排除那些无反应的病人,增加疗效,减少副作用。单人试验还可以用于检出发生不良反应的病人,或用来调查药物和不良反应的关系。在下列情况下,可以考虑使用单人试验:治疗效果在不同病人中差别很大,治疗十分昂贵,病人需要长期治疗(如抗血压药物,这里单人试验用的是替代结局,如血压,而不是CVD事件),治疗可能存在严重或持久的副作用。


四、序贯试验
序贯试验(sequential trial)与一般试验研究的主要区别是样本量不确定。就是说,在研究开始时对受试者的数量不作任何规定,而是随着研究对象的增加,不断检查比较组间的差别,直到组间出现预先设定的区别时或无明显区别时,停止研究。停止研究的条件必须预先确定,并严格执行。采取序贯试验,主要是为了减少不必要的研究对象,以节省资源。主要存在问题是,由于不断地进行中期分析(interim analysis),组间的差别可能由于机会而产生,导致假阳性的错误结论。



五、整群试验
一般的随机对照试验是以一个人为随机分组单位,整群试验的单位不是一个一个的病人,而是包含很多人数不等的群组(group或cluster),如家庭、居委会、医院、工厂、村庄、社区、以及行政区(市县镇)。与一个人为随机分组单位的试验比较,整群试验的统计效率比较低,组间可比性差,样本大小主要由群组的数目决定,而不是群组中所具有的个体总数决定,因此需要研究的总人数也比较大。


在评估医学措施时,整群试验有它特殊的作用,主要用于评估以下两类措施:

1.  只能针对整个人群施加的措施,如卫生政策、行政和社会措施、管理模式、环境污染控制措施,以及通过食品、食盐、自来水施加的干预措施等。

2.  在个体病人之间会发生明显“污染”的干预措施,所谓污染,就是无干预的对照组一定程度上获得了治疗的干预。比如在学校进行健康教育,理论上讲,教育措施可以直接施加给每个个人,然而研究者却无法保证分配到无干预对照组的个体都不会从干预组的个体得到相关的信息。又如,医学筛查,可以将个人分配到筛查和无筛查组,然而,研究者却无法保证无筛查组不会从其他医生那里得到同样的筛查服务。


大型整群随机对照试验经常用于评估医学筛检的效果。


六、交叉试验
大部分随机对照试验都属于平行设计,在平行设计的试验中,每组的研究对象自始至终只接受一种干预措施。在试验不同阶段,如果每组的研究对象交替接受对方的干预措施,则称为交叉试验(cross-over trial),交叉可以是一次,更多是多次重复交叉。一个病人在不同时间,交替地扮演治疗组和对照组的角色,每一段都是一个平行试验,很多时段平行试验的结果的累积,就大大增加了研究的样本量。如果每个时段的治疗是随机分配的,交叉试验就等于多个单人随机试验的总和。交叉试验多用于对药物效果的初步评估。


交叉试验主要存在两个问题。一是时间效应(period effect),二是滞留效应(carry-over effect)。比较同一组病人在不同时段接受不同治疗的效果时,即使治疗没有任何作用,病人在不同时段的情况可能也是不一样的,先后是不可比的,差别可能不是治疗的区别引起的,而是时间效应引起的问题。其次,当治疗有效时,前一段治疗的作用可能会延迟到接受另一治疗的时段,这样,同一组病人不同时段还是不可比的,这是延迟效应引起的问题。时间效应和延迟效应可能会造成治疗和对照组间的不可比,形成了交叉试验的致命缺陷。


七、研究交互作用的试验
析因试验(factorial trial)可以用于研究药物间的交互作用。最简单的两种药物的析因设计叫做2×2析因试验,这样的试验需要四个比较组,即A药、B药,A药和B药联合用药(AB组),既无A也无B的对照组(U组)。比较组的形成应该通过随机分配获得。


三个不同的治疗组与U组比较,可以获得三个率差,它们分别代表A药的单独作用(RDa),B药的单独作用(RDb)和A和B联合用药的作用(RDab)。如果RDab=(RDa+RDb),说明A药和B药间无交互作用;如果RDab>(RDa+RDb)说明两药有相互加强的交互作用;如果RDab<(RDa+RDb),说明两药有相互削弱的交互作用。


八、开放性试验
盲法是试验中降低偏倚的一个重要措施,开放性试验(open-label trial)就是没有使用盲法的随机对照试验。很多研究无法对医生和病人使用盲法,比如比较手术和药物治疗的效果的试验。但是,在这样的研究里,还是可以采取对资料收集者的盲法。当然,与使用安慰对照时对资料收集者的盲法相比,这样的盲法属于有缺陷的盲法,因为治疗的分配很容易破译。但是,当干预效果十分明显时,或者干预的安慰作用比较小时,或者结局的测量人为误差很小时,由于没有盲法而引起的偏倚相对会比较小。开放性药物试验可用于对疗效的初期评估或者对十分明显的疗效的确认。


九、非随机分组的试验
非随机分组的试验就是没有使用随机分组的对照试验。如前所述,在评估干预措施时,由于研究对象尚未接受干预,研究者有可能将研究对象人为地分组,随机分组只是很多人为分组的方式之一,不是所有干预研究都会采用随机分组的方法。比如,当我们人为地选择一个人群,施加一定的干预,然后与没有施加干预的人群进行比较,以验证干预的效果。在科学严谨性上,在控制混杂和偏倚的问题上,这样的试验与观察性队列研究无本质区别,因为比较的人群在很多其它因素上可能是不可比的,存在混杂。本文前面提到的貌似随机分组的方式存在同样的问题。

 

尽管如此,非随机分组的对照试验仍然具有其特殊的用途。首先,对于干预效果极其明显的措施,如疖痈的引流和骨折的正骨术,非随机的、甚至是无对照的研究就足以证明其效果。第二,医学干预措施是多样的,从单一的药物到医学筛查到卫生政策到医疗卫生体系,其宏观性和复杂性不断增加,用随机对照试验评估其效果的困难也随之增加因此,最常见的随机对照试验是药物的疗效研究,然而用随机对照试验比较不同卫生政策的优劣,几乎是不可能的。对于宏观的复杂的干预措施效果的评估,往往只能借助于非随机分组的整群对照试验。


十、无对照组的试验
在无对照的试验里,研究者对一组病人施加某种治疗,然后比较治疗前后的状况,从而对治疗效果或副作用进行判断。无对照的试验还可以与历史病例、其它研究报告的病例等进行比较。除非疗效十分明显(如白内障手术),否则无对照组的试验很难对疗效是否存在做出明确的判断。无对照组的试验主要用于初期对药物剂型、代谢和副作用的评估。


第八节. 随机对照试验中的质量控制


随机对照试验质量控制的重要原则是:尽可能地遵循本文前面介绍的随机对照试验设计的一般性原则。然而,无论临床试验方案设计做得如何周到,在复杂的研究过程中,仍会出现违背研究方案的各种问题,采取有效的进一步的质量控制措施,是临床试验研质量的保障之一。


在此问题上,有必要再次强调减少和处理以下几类研究对象的重要性:已经入选的不合格的研究对象、自动退出研究的病人、根本没有接受治疗或交换组间治疗的病人,以及临床结局资料缺失的病人。随机分组后,剔除任何病人都可能会破坏组间可比性,因此处理这些问题时应遵循以下四个原则:
(1)采取措施减少随机分组后这类事件发生的频率;
(2)对于不合格病人的判断和剔除,必需与治疗和结局无关,即裁决者在不知道治疗分组和转归的条件下进行分析和判断;
(3)采用盲法,减少这些事件的发生与治疗的分配和转归的关系;
(4)采用维持原随机分组分析。


另外,还需注意符合入选标准的病人参加试验的比例。一般来讲,研究应当包括所有符合标准的病人。如需200位病人,则前200位符合标准的病人都应参加试验。如果有许多符合标准的病人没有参加试验,则有理由怀疑最终纳入的病人对所研究的病人的代表性。在报告结果时,应当说明符合要求的病人参加试验的比例是多少。对于符合要求但未参加试验的病人应当保存其记录,说明未参加的原因,以供判断选择偏倚的大小。


关于随机对照试验中资料收集相关的质量控制问题,可以参考流行病学研究质量控制的有关内容。比如,问卷设计、资料收集方法和程序的标化、测量仪器的标化、资料收集人员的培训、预实验、以及资料输入和核查。

 

第九节. 随机对照试验中的伦理问题


伦理是一种用来区分人类活动道德观念对与错的道德规范。在医疗卫生研究中,伦理学的考虑主要体现在对研究对象权益、安全和健康的保障,具体措施包括知情同意、资料保密、减少病人伤害和保障研究对象权益的措施。所谓知情同意,系指研究对象对研究目的、程序、步骤、以及对他们权益、安全和健康的可能的影响,有一个较为全面的了解,并自己同意参与研究。广义地讲,研究设计的科学性也是伦理要求的一个部分,因为任何在人身上的研究都可能给研究对象带来或多或少的不便和伤害,而且消耗资源,任何不能获得可靠知识的低质量的研究都是不符合伦理原则的。另外,对医学干预措施的测试应分阶段进行,在前期测试显示治疗可能安全有效的前提下继续测试,也是遵循临床试验伦理原则的重要一环。


伦理有个人和群体(或社会)两个层面,即首要考虑个体利益的伦理和首要考虑群体利益的伦理,有时二者是矛盾的。比如,任何在人身上的研究都可能给研究对象带来或多或少的不便和伤害,从保护个人利益上讲,任何试验研究都是不符合伦理原则的。但是,为了人群和社会的整体利益,为了未来更多的病人的利益,进行科学研究是必要的,部分个人的一时的损失是值得的。所以,一项好的试验研究必须兼顾集体和个体利益,寻找合理的平衡点,使得科学研究既得以进行,又充分保护研究对象的权益。


伦理学的要求对随机对照试验的设计也有特殊的实践意义:(1)应尽可能给予对照组现有已知有效的(最好的)治疗,而不是安慰剂治疗(即应尽可能减少研究中各比较组施加的干预措施效果上的差别);(2)如果不影响研究目的,各比较组可以给予常规或现有最好的治疗作为基础治疗;(3)当发现组间干预措施的益害比出现明显差异时,应及时中止研究,然后给每一个参与研究的病人提供那个更有效的治疗。另外,临床上使用疗效不明的干预是不符合伦理的,因此从伦理学意义上讲,在疗效不明时,拒绝或延迟对效果的评估也与伦理原则相悖。


国际共识会议(International Conference on Harmonization,ICH)提出的《临床研究规范》(Good Clinical Practice,GCP)是目前国际上普遍使用的临床试验伦理准则,目的是确保研究者以崇高的道德准则和严格的科学标准进行临床研究,获得准确可靠的研究结果。该规范以1964年的赫尔辛基宣言为基础,明确提出生物医学研究必须维护病人的健康和权益,1996年经国际共识会议修订,于1997年获各主要成员国(包括美国、加拿大、欧洲共同体国家和日本等)所采纳,目前已经为世界各国的临床研究者所接受。2002年修订的规范明确提出,在具有有效治疗的情况下,使用安慰剂对照不符合伦理原则,应以现有最好的治疗做对照。


第十节 随机对照试验与流行病学实验研究

在传统流行病学里,实验系指研究者对研究对象人为地施加干预并进而观察干预作用的一类研究。与随机对照试验一样,所有在人群中的实验研究(experimental study)的主要目的都是评估医学干预措施的效果。一般把评估预防措施的实验研究叫做现场试验(field trial),把评估临床治疗措施的实验叫做临床试验(clinical trial),以突出预防和治疗干预的区别。公共卫生干预经常不是针对个体的,而是针对群体,如社区、工厂、学校等,针对群体的干预实验叫做社区试验(community trial)。在设计上,社区试验与前面谈到的整群试验是等同的。

 

传统流行病学认为,区别实验和观察的根本属性是干预,因此认为对干预效果评估的研究都是实验研究。的确,一般意义的实验研究就是那些探究干预可引起的变化的研究,进而根据有关变化对起初的研究假设进行推论。如此以来,什么是干预就是一个必须认真推敲的问题。

 

比如,如果研究者把受试者面神经割断,发现会引起面部瘫痪(研究1)。研究者就此可以推断面神经和面部表情有关。我们权且把“研究者割断受试者面神经”叫做干预,在这个例子里的确是研究者施加的干预(虽然现实中是不可能发生的)。但是,如果一个人的面神经因枪伤被切断,研究者还是可以观察到面瘫,推断二者的关系(研究2)。这个由非研究者施加的干预具有研究者施加的干预同等的科学推理的功效,我们没有理由不把它也叫做实验。同理,一个人自己割断了自己的面神经,研究者也可以就此观察到面神经和面瘫的关系,也等同于实验研究(研究3)。以此类推,一人自己选择吸烟,得了肺癌,还算不算实验?


如果不算,这个研究和前面三个研究有什么本质区别以至于它不再是实验研究?如果吸烟和肺癌的关系与切断面神经和面部瘫痪的关系一样,可以发生的快速且特异,我们似乎没有理由不把吸烟和肺癌的研究也算作实验。如果算作实验,观察性的队列研究和实验性的随机对照试验的边界就开始消失了。


但是,流行病学在比较观察与实验时,的确赋予了实验更高的科学价值。在探索强因果关系时,如面神经损伤和面瘫的关系,干预本身就足以实现这个价值。但是,在探索弱因果关系时,如吸烟和肺癌的关系,这个科学价值不是干预本身就可以实现的,而是需要通过控制(control)施加干预的条件和方法,以保证比较组之间自始至终的可比性。在随机对照试验里,控制措施主要体现在随机分组和盲法。因此,国际流行病学界普遍认为,在人群研究中,只有随机对照试验才是真正的实验。非随机分组形成的干预研究,不是真正的实验研究,抑或可以叫做类实验,但是其科学性与队列研究没有本质的区别。


流行病学研究的归类应该有助于我们选择研究设计类型以及判断研究结果的真实性。然而,目前对实验和观察的区别,以及实验研究的归类并不能很好地达到这些目的。从字面上看,临床试验、现场试验和社区试验的主要区别似乎是干预地点,而且现场和社区没有明确的区别。但是,分类属性的本质却是干预特征:临床试验和现场试验区分的是治疗和预防,现场试验与社区试验的区别是个体干预和群体干预,临床试验与社区试验的区别则包括“治疗和预防”以及“个体和群体”两个属性。而且,分类属性是干预特征,但分类名称则反映是地点,很容易引起混淆。另外,这个分类并不包括所有可能的实验研究的类型。如果用地点、“治疗和预防”和“个体和群体”三个属性进行分类,总共应该有8种组合,即8种实验研究的类型。虽然不存在个体干预的整群研究,但该分类里显然排除了临床上的个体预防措施以及现场里的个体治疗措施等实际存在的研究类型。由于干预研究还可以在很多其他方面(如偏倚控制措施和其他PICOS方面)存在重要区别,可划分的种类远远多于三种(参见上述“随机对照试验设计的变异“部分”)。


也许,在评估干预措施疗效的问题上,把研究分为实验和观察的传统做法太简单化了,采取更细的划分方式才能更好地体现不同研究结论的可信性的高低。国际上通用的最简单的方法是按照研究设计类型对研究质量,由高到底进行如下分级,即随机对照试验> 非随机对照试验> 无平行对照的单组试验 > 无平行对照的单人试验,而且基于个体的随机对照试验优于基于整体的随机对照试验。由于公共卫生措施多是针对群体的,最好也只能采取整群随机分组的试验方法(如对筛检效果的评估),而多数情况下决策只能依靠平行社区比较或同一社区干预前后比较的研究模式。


(本文是全文5个部分的第5部分,全文完)


原文出处:唐金陵 江宇. 主编推荐阅读章:随机对照试验. 见:李立明 主编. 流行病学. 第6版. 北京:人民卫生出版社,2007:128-163. (文字略有改动)


作者:
唐金陵,广州市妇女儿童医疗中心临床研究总监、香港中文大学流行病学荣休教授
江宇,北京协和医学院公共卫生学院副院长、流行病与卫生统计学教授


编辑:
俞嘉洲,香港中文大学博士研究生
照片:见水印
随机对照临床试验(1): 概述
随机对照临床试验(2): 随机对照试验设计的原理
随机对照临床试验(3): 随机对照试验的立题
随机对照临床试验(4): 收集资料、估计疗效和估计样本量

大型随机对照试验: 临床研究的典范与陷阱
观察与实验,效力与效果
再论观察与实验: 大数据现实世界研究不能取代随机对照试验
系统综述与meta分析(1/5): 提出研究问题
唐金陵:流行病学在医学研究和发展中的地位和作用

长按上方二维码关注我们

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存