随机对照临床试验(3/5): 随机对照试验的立题

Original 唐金陵江宇临床研究与循证医学 2022-03-25

收录于话题

本文是“随机对照临床试验”全部5集系列的第3集，之前各集见下：

目录第一节概述
第二节随机对照试验设计的原理
第三节随机对照试验的立题
一、流行病学研究设计的一般原则
二、确定研究问题和研究目的
三、研究对象的确定
四、干预措施的确定和设置
五、对照组干预措施的设置
六、结局的确定和测量
七、试验的医疗环境的条件
第四节追踪随访和资料收集
第五节统计分析和疗效估计
第六节样本量的大小和估计
第七节随机对照试验设计的变异
第八节随机对照试验中的质量控制
第九节随机对照试验中的伦理问题
第十节随机对照试验与实验研究

第三节. 随机对照试验的立题

一、流行病学研究设计的一般原则

任何流行病学研究都不可能获得绝对意义的真实。研究设计的目的之一是减少误差，缩小观察值与真实值之间的距离，使观察值尽可能接近真实。流行病学研究中的误差可分为两大类：偏倚（包括混杂）和抽样误差，二者都会使研究的观察值偏离真实。

控制偏倚的主要方法是严格遵循流行病学设计的一般原则以及一种研究类型的特殊原则。流行病学研究控制偏倚的一般原则包括：样本的代表性、对照、精确的数据收集方法、对比组可比的数据收集程序、足够的观察时间、控制混杂等。随机对照试验的特殊原则包括：随机分组、分组隐匿、盲法、降低失访、维持原随机分组分析等措施。降低抽样误差的主要方法是增加样本量，其他措施包括选择研究事件发生率高的人群和增加观察时间等。

然而，一个完美的科学研究回答的可能是一个没有任何科学价值的问题。因此一个随机对照试验结果的意义和价值不但取决于研究的科学质量高低（即误差的大小），同时还取决于研究的立题以及与立题有关内容的设计。与立题有关内容的设计主要包括四个方面：病人的定义和招募、治疗的设置、对照的选择，以及临床结局的确定。

减少误差只是保证研究科学性的考量。任何科学研究都存在人力、物力、财力和时间方面的限制，同时还受伦理考量的制约，必需在保证研究科学性和可行性的同时，最大限度地保护研究对象的利益，减少对他们的伤害。就是说，任何流行病学研究的设计都不是科学上最完美的，是对影响研究设计科学性、可行性和伦理性三个因素综合考量和平衡的结果，任何只顾一个方面的研究设计都是不切实际的。

科学性指研究的方法学质量，即对偏倚控制的程度。可行性指在现有人力物力财力的条件下，实施和完成研究的可能性。比如，受可行性的限制，很少有大型临床试验的观察超过10年。伦理性指研究过程中对病人健康和利益保护的程度。比如存在明显有效的治疗时，使用安慰对照是不符合伦理原则的，应使用现有最好的治疗作为对照。

二、确定研究问题和研究目的

随机对照试验主要用于评估医学干预措施的作用，即回答一个干预措施是否有效、是否益处大于害处的问题。与无治疗相比，辛伐他汀（simvastatin）是否可以在血脂中度偏高的心血管病高危男性人群中降低心血管病的五年发病和死亡的危险，就是一个典型的随机对照试验的研究问题。这类研究问题一般含有五个主要内容：疾病和病人（patient）、研究的干预（intervention）、比较的干预（comparison）、临床结局（outcome），以及医疗环境和条件（setting）。英文将这五个内容简称为PICOS，随机对照试验立题的实质就是对这五个方面详细准确的考量、界定和陈述。

医学的干预措施是多样的，不仅仅是药物治疗，还包括其他治疗措施（如外科手术）、诊断、服务管理模式、卫生政策，以及医疗卫生系统，等等。研究目的主要有两类，一是对干预措施本身的有效性和安全性进行评估，二是与其他同类措施进行比较，决定它们的相对价值。不同PICOS组合就构成了不同的研究目的。以化学治疗的药物为例，随机对照试验的研究目的大致可分为以下几种：（1）评估效果不明或可疑的药物；（2）研究一个药物的剂量效应关系；（3）比较不同给药方式效果的差别；（4）评估老药新用的效果；（5）比较不同药物的相对效果；（6）研究药物间的交互作用；（7）确定药物在特定病人或环境下的效果；（8）重复和验证过去重要的研究。

确定研究目的和制订研究方案时，必需充分分析和权衡科学性、可行性、伦理性。以研究某药物是否可以预防肝癌的发病危险为例，这样的研究往往需要长期追踪观察成千上万的健康人。从科学性上讲，每个入选的人必需经过彻底的检查，如通过询问病史和使用各种血液、生化、影像学和组织活检等检查，以排除现患肝癌的可能性，但这样的检查费用很大，往往是不可行的。只排除医生明确诊断的肝癌，就是出于可行性原因做出的让步，但并不会明显降低研究的科学性。另外，为了排除一例肝癌，使成千上万的人遭受肝组织活检的伤害，也不符合伦理原则。

另外，从科学性上讲，这样的预防性研究最好追踪观察到每一个研究对象都死亡为止，但由于人力、物力和财力的限制，对研究对象进行终生观察几乎是不可能的，因此随访时间可能只限于5年到10年。在随访过程中，研究对象可能患了肝癌而失访，任何放松追踪随访的做法都会降低研究的科学性。对所有研究对象进行彻底严格的检查，包括使用昂贵的影像学检查和肝组织活检，是不可行的，然而对怀疑患有肝癌的研究对象，必需进行彻底严格的检查，以确定肝癌诊断的准确性，任何简单的做法都会造成误诊，降低研究的科学性，是不可取的。

三、研究对象的确定

参与随机对照试验并接受干预措施的人称为研究对象、受试者或研究人群。研究对象通常是患有某种疾病的病人，但也可以是无相关疾病的“健康人”，比如，心血管病初级预防的研究对象必须是无心血管病的人群。研究者必须对研究的疾病有严格的定义，并具有明确的诊断标准和可靠的诊断方法。

研究对象由研究目的决定，从研究目的的角度，可以把研究对象分为以下几种：（1）从该治疗中可能获益最大且受害最小的人群，也是最易检出疗效的人群；（2）研究者特别关心的人群，如儿童、老年人和中国人；（3）治疗效果不明确或可疑的人群。

其他决定研究人群选择的因素包括：（1）不良反应可能出现的大小；（2）是否有不适合该治疗的指征；（3）对治疗的依从性的好坏；（4）退出和失访的可能性的大小；（5）研究可能检出疗效的大小，即统计的把握度；（6）其他可能影响研究质量的因素，如是否能准确理解和回答问卷的问题。以上第1和2条是出于对病人安全的伦理方面的考虑，第3、4和6是出于降低偏倚和增加科学性的考虑，第5条属于可行性方面的考虑。

研究对象的纳入范围由入选标准和排除标准来界定和限制，入选标准界定了研究者希望该干预措施或该研究的结果未来使用的病人范围。用来制订入选和剔除标准的因素通常包括：（1）疾病的严重程度；（2）有无并发症和伴发症；（3）病人的年龄性别、居住区域；（4）病程长短和既往治疗史。

对研究对象的界定也是对入选病人范围宽窄的界定，需要平衡科学性、可行性和伦理性三个方面的因素。从科学角度讲，入选的病人范围越窄越好，因为同一治疗在不同人群的效果可能不同，将具有不同效果的人群混为一谈，势必在使用药物时不能确定最合适的人群，导致错误地治疗不需治疗的病人。因此，疗效明显不同的人群，必需用独立的临床试验或同一试验的亚组分析分别进行研究。但是，当入选病人的标准太窄时，会大大降低适合进入研究的总人数，从而使研究难以在短期内完成，其研究结果也只有把握外推到这个很小的人群。因此，任何临床试验中研究对象入选范围的界定都是对科学性和可行性审慎平衡的结果。

四、干预措施的确定和设置

随机对照试验中干预措施的确定由研究目的决定。研究者首先必需考量的是应该研究什么干预措施，具体细节，请参考本文上述“确定研究的问题和目的”部分。

在干预措施确定后，研究者应针对干预的实施细节，做具体详尽的限定和描述，如药物的给药途径、给药时间，剂量和用药时间、停药时间、严重不良反应出现时的处理原则，以及其他注意事项。同一治疗在不同用药条件下，效果和副作用的对比可能不同，研究中用药安排是未来实际用药的重要参考，因此，设定用药条件时应特别注意。

五、对照组干预措施的设置

（一）对照组干预措施设置的一般原则

对照组干预措施的设置由研究目的而定。临床试验中常见的对干预组和对照组干预措施的设置及其相应的研究目的如下：

（1）评估治疗的效力或效果：相应的对照为无治疗对照或安慰剂对照

（2）研究剂量效应关系－确定最佳剂量：相应的对照组为同一药物的不同剂量

（3）研究不同给药方式，确定最佳给药方式：相应的对照组为同一药物的不同给药方式

（4）在先有常规治疗基础上，新治疗可带来的额外益处：一组用常规治疗加新治疗，一组用常规治疗加安慰治疗

（5）确定两个治疗是否效果相当：两药互为对照

（6）确定两个治疗效果的优劣：两药互为对照

（7）研究治疗间的交互作用：需要特殊的交互设计的对照（见下）

（8）研究同一干预措施在不同人群、地区或医疗环境下的效果（见下）

下面就不同研究目的时对照组干预设置的原理做具体介绍。

（二）估计治疗的绝对作用

这里的绝对作用特指与没有任何治疗相比时一项干预措施的效果，即不与任何有效治疗比较时的效果。因此对照组的治疗可以是无任何治疗或安慰治疗。

1. 无治疗对照

在对照组不接受任何治疗时，治疗组和对照组转归上的差异反映了治疗措施的绝对作用。然而，这一作用不仅包括治疗的特异作用，还有治疗的非特异安慰作用。由于采用无治疗对照时，无法排除治疗是否只具有安慰作用，无法将治疗的特异作用和安慰作用区分开来，解释结果时需引起注意。

2. 安慰对照

由于安慰治疗与评估的治疗外观上相象，会在病人中产生与治疗相同的安慰作用，在比较组都存在安慰作用时，组间比较时安慰作用就会相互抵消，从而排除疗效估计时安慰作用引起的误差。同时，安慰对照还是蒙蔽试验参与人员、实现盲法的重要措施。

（三）研究剂量效应关系或确定最佳给药方式

在以此为研究目的的临床试验里，各研究组给予同一药物的不同剂量，或同一药物的不同给药方式，用于研究剂量效应关系，确定最佳剂量，或是确定最佳给药方式。

研究药物剂量效应关系时，通过组间的差别，或是没有差别，或是随着剂量增加疗效变化的趋势，进行研究和分析，不仅可以明确药物使用的初始剂量，也可以确定可能引起明显不良作用的最低剂量。值得注意的是，在缺乏无治疗或安慰治疗做对照时，如果剂量效应关系不存在，则无法判断药物是否真正有效，如果有剂量效应关系，则无法判断最低有效的剂量。因此，采用不同剂量做对照时，最好同时设立安慰剂对照。

（四）是否应增加新的治疗

出于伦理学的考量，越来越少的随机对照试验仍采用安慰剂作为对照。那么如果希望证明一个新的治疗有效，就有两种常用的做法：一种是在现行常规治疗（或最优治疗）基础上加上新的治疗，与常规治疗比较，这样测得的疗效可能不完全等于上述的绝对作用，一般会小于绝对作用；另一种是直接与常规治疗或最优治疗比较，详情见下。

（五）比较不同治疗的效果

此类研究旨在比较已知有效的药物之间效果的差别。当然，药物间的比较不仅局限于疗效，还可以包括安全性、副作用、经济效益等，通过不同治疗优缺点的比较，协助对不同治疗的选择。

选用不同治疗作为对照时，有两种可能，一是研究和对照组的治疗效果大小可能相当，二是研究治疗效果不同于（包括优于或劣于）对照组的治疗。前者就是常说的等效试验（equivalence trial），后者为优效试验（superiority trial）。所谓等效并不意味着两者效果完全相等，只是差异在一个相对较小的范围之内，其效果的差别无实际临床意义。“优效”指两个治疗在疗效上的差异足够大，临床使用时需要区别对待。等效试验往往需要比较大的样本量。

（六）研究不同治疗间的交互作用

为了提高疗效或减轻毒副反应，常会将不同药物或治疗联合使用。如果联合治疗的效果仅仅是原各治疗效果的简单叠加，则显示治疗间无交互作用。如果联合治疗的效果大于或小于原治疗效果的和，则治疗间存在交互作用，前一种交互作用相互加强了彼此的效果，有临床应用价值，后一种交互作用减弱了彼此的效果，临床上应该避免。析因设计可以用来研究不同治疗间的交互作用（见下）。

（七）研究同一治疗在不同病人或环境下效果的差别

同一种治疗在不同人群的效果可能会不同，有的可能对治疗反应很好，有的会很差，有的还会出现强烈的不良反应。病情、年龄、性别、种族等因素都可能影响病人对治疗的反应。另外，不同治疗环境下，同一治疗的效果也可能会不同。

本质上，同一治疗的效果随人群和环境的不同而不同的现象也属于交互作用。然而，不同于治疗间的交互作用，由于人群和环境特征无法用随机的方式来决定，因此无法用真正随机试验的方法回答这样的问题。实际的做法是，用同一试验里的亚组分析（见本文第4集）研究人群特征对治疗效果的影响。但治疗与医疗环境的交互作用，只能通过比较不同医疗环境下治疗效果的大小来判断，如果有差别，说明治疗在不同人群中的效果不同。系统综述里类似的亚组分析也是对交互作用的探索。

由于不同人群和医疗环境的形成不是随机的，亚组之间或不同研究之间不可比的因素有很多，它们的比较不是建立在随机分组基础之上的。因此，这样的比较与队列研究里的分层分析一样，属于观察性比较，存在观察性研究中普遍存在的混杂问题。

六、结局的确定和测量

结局特指干预可能影响或改变的事件、指标或变量，如痊愈和死亡，它们是随机对照试验用来估计效果必须收集的资料。一项干预措施的实施可能影响的结局是多种的，有些是与疾病和健康直接相关的结局，如生存时间和生活质量；有些是干预产生的“延伸”作用，如病人的满意程度、资源的消耗、以及资源分配的公平性。

在研究干预措施效果时，人们往往会错误地认为一种干预措施只影响一种临床结局，因此在设计临床试验时只考虑了该项结局。然而，实际情况很少如此，一个疾病有多种可能的结局，一种干预措施可能会影响一种、多种或所有相关的结局，干预的实施还会产生间接的效应。表4列出了一些常见的临床结局。如果只考虑某一种结局，忽略其他方面的作用，可能会导致偏颇甚至错误的结论，从而导致不恰当的决策。

表4. 疾病的结局和干预的作用举例

举例说明。血压和心脑血管病事件是不同的临床结局，如果一种药物只能降低血压，不能降低心脑血管病发病和死亡危险，该药预防心脑血管病的用途将很有限。又如，心脑血管病死亡和所有原因的死亡是不同的临床结局，如果一种药物可以降低心脑血管病死亡危险，同时又增加其他原因的死亡，从而增加了总死亡危险，该药的有益作用可能小于其有害作用。因此，如果只考虑心脑血管病死亡的结果，就会导致错误的结论。

临床结局有些是分类变量，如痊愈、好转、恶化和死亡；有些是连续变量，如血压、血糖、生活质量和生存时间。有些结局是单一指标，如血压；有些是综合指标，如生活质量。不同的人对临床结局重要性的认识也不同，如帕金森综合征治疗时，病人认为生活质量最重要；医生认为病情的改善最重要；而决策者可能更关心治疗所导致的资源分配的公平性。变量特征也和研究目的、研究设计和样本量估计都有关系。

临床试验可能使用的结局有很多不同的特征和属性，在确定使用什么结局时，可以从以下几个方面进行分析和考量：

（1）相关性：如血压是抗高血压药的相关指标，血脂则不是；

（2）特异性：如心血管病是抗高血压药的特异指标，全死因死亡则不是；

（3）重要性：如对抗高血压药来说，心血管病事件比血压更重要；

（4）益处和害处：如抗高血压药降低血压是益处，而引起头晕则是害处，必需兼顾重要的益处和害处的指标；

（5）综合性：如死亡为单一指标，生命质量为综合指标，中风康复治疗时，综合指标可能优于单一功能指标；

（6）病人相关性：如癌症治疗中病人可能认为生活质量比生存时间更重要；

（7）准确性：如有些仪器测量的客观变量优于病人自己报告的主观变量；

（8）时间性：对任何结局的测量必需有明确的时间范围，比如，三个月内几乎无法看出降血压治疗预防心血管病事件的作用；

（9）统计特征：如血压是连续变量，死亡为二分变量；

（10）敏感性：越容易测量出干预效果的指标敏感性就越高。

一项临床试验不可能测量所有相关的结局，结局的确定和测量是研究成功的关键之一。哪种结局更重要？取决于看问题的角度，目前认为病人认为重要的结局必需给以充分的重视。研究者必须对干预措施各种可能的结局进行分析，确定并测量相关、重要、敏感的结局。另外，结局指标的选择还必须兼顾可行性和伦理性的要求。

七、试验的医疗环境的条件

研究中的医疗环境和条件决定服务的质量。理想的服务环境包括一流的医生、一流的器械、一流的基础设施等，它们是保障诊断准确和治疗正确的前提。如果诊断不准确，就会纳入很多不该治疗的人，总体疗效不可能好；如果外科医生经验不足，手术不可能很成功，等等。相对理想医疗环境的是更广泛存在的现实医疗环境。一般来讲，一个治疗的效果在理想环境下会高于现实医疗环境，在现实环境下估计的疗效更可能在实际病人中得到实现。如果治疗在理想环境下有效，在现实环境里则可能有效，也可能无效。相反，治疗在理想环境下无效，在现实环境下一定也不会有效。

(本文是全文5个部分的第3部分，未完待续)

原文出处：唐金陵江宇. 主编推荐阅读章：随机对照试验. 见：李立明主编. 流行病学. 第6版. 北京：人民卫生出版社，2007：128-163. （文字略有改动）

作者：

唐金陵，广州市妇女儿童医疗中心临床研究总监、香港中文大学流行病学荣休教授

江宇，北京协和医学院公共卫生学院副院长、流行病与卫生统计学教授

编辑：

袁金秋，中山大学附属第七医院副研究员

照片：见水印

随机对照临床试验(1/5): 概述

随机对照临床试验(2/5): 随机对照试验设计的原理

大型随机对照试验: 临床研究的典范与陷阱

观察与实验，效力与效果