查看原文
其他

临床研究方法基础(1/3): 研究设计类型及其比较

唐金陵 韩笑然 临床研究与循证医学 2022-03-25

“把事情弄坏的方法有很多,但把事情弄对的方法却只有几种。”   ——大卫·萨基特(国际临床流行病学大家、循证医学鼻祖)




目录



第一节  引言 第二节  研究设计    一、病例系列研究    二、病例对照研究    三、队列研究    四、随机对照试验    五、系统综述    六、五类研究可信度的比较第三节  研究的组成和步骤第四节  误差和推论第五节  其他研究设计 第六节  概要


一、引言

医学实践需要的证据是如何产生的?其实,逻辑推理、实践经验、科学研究都是医学决策可依赖的证据来源,三者有着密切的关系。拿疗效论证来说,推理可提出假设,经验可初步验证,研究可最后证实,后者是产生医学实践证据最可靠的方法。科学研究产生的证据是医学实践可依的总纲,但是在医学实践很多关键和细节的地方都缺乏研究证据,经验和推理就成了研究证据之外医学实践所需要的广泛存在的参考依据。


图1 生物医学研究的分类及其与循证医学的关系


在医学领域,我们可以把科学研究大致分为三类:基础研究、转化型研究和应用型研究(图1)。基础研究是在实验室里进行的、在分子、细胞、动物等水平上的研究,是有关生命与疾病物质基础、原理、机制等理论层面的探索。基础研究是对生命、健康和疾病本质的探索,其最终目的是产生有效的诊断和防治方法。转化型研究是试图将基础研究成果转化为医疗诊断和干预方法的过渡性研究,如新药和新诊断方法研发中连接实验室研究和人群研究的中间探索。应用型研究是在人群中评估诊治方法实际应用效果及其大小的一类研究。应用型研究是一种“黑箱式”研究,只关心暴露或干预对临床结局的直接影响,不关心中间的机理(图2),与实验室基础研究刚好相反。


图2 流行病学的“黑箱”研究模式


应用型研究结果可以直接用于指导和改善医学决策和实践,而逻辑推理则是依据间接证据(含远端证据甚至常识)提示的规律和原则对某诊治方法是否可能有效的理论推测。如此推演出的效果可能是对的,但经常是不可靠的。千分之几的药物研发的成功率就说明了这个问题。有人说,如果从动物研究的成果推测,已经可以消灭癌症很多次了,但是我们目前还远没有看到在人类中根除癌症的有效方法。说明了推理对医学实践指导的局限性。


实践经验可看成是一种应用型研究,一种非系统的缺乏科学严谨性的初步探索,也是产生新的(解决医疗实际问题)研究假说的重要途径。医学应用型研究的方法论是20世纪中叶诞生的现代流行病学(epidemiology),是在人群中(定量)研究有关健康、疾病和医疗服务一般规律的学问和艺术。它的基本或最小研究单位是作为一个个体的人,研究的问题是医学实践直接面对的应用性问题,因此其结果可以直接用于指导和影响医学实践(表1),其方法包括作为重要分支的临床流行病学(clinical epidemiology)等分支学科。流行病学研究的结果是医学实践可以依赖的最直接的最可靠的证据,是循证医学实践应遵循的证据的主体。



一项治疗是否有效,科学研究在于寻找有关这个问题的真实答案。假设研究观察到的结果为观察值,真实的疗效为真实值,二者的关系可以用图3展示。在流行病学里,我们把真实值和观察值之间的距离或差别称为偏倚(bias)或系统误差(systematic error),与偏倚相反的概念叫可信度、真实性或效度(validity)。一个研究的偏倚越多,其结果和结论的真实性就越低。


图3 偏倚、抽样误差与真实性的关系


但是,我们永远无法知道观察到的结果是否真实,甚至不知道它离真实值有多近。即使观察值与真实值一模一样,我们还是不知道它是否真实。这是因为我们不知道真实值,如果知道,就没有必要再做研究了。那么,我们怎么才能知道观察值反映了真实呢?唯一可行的方法是从研究的程序上进行判断。具体来说,就是在研究使用的控制偏倚的方法上进行分析,偏倚控制的方法越多、越严谨,研究的结果就越接近真实。因此,一个更具有实际意义的对偏倚的定义是:研究中可能引起”偏倚”的程序或方法。如失访偏倚,是一种因研究对象失访而造成的偏倚,其实质是一种选择偏倚——因研究对象选择不当而造成的研究结果上错误。


控制偏倚最有效的方法是研究设计。流行病学研究设计主要是由对比的方式和观察的时间走向决定的研究框架,一类研究设计有固定的设计框架,包含这类研究独特的不可缺少的因素。


实践循证医学首先需要对证据进行评估,评估证据包括真实性、结果和适用性三个方面。对证据真实性的评估就是对其偏倚高低的评估,因此本文也可以看成是对解读医学文献时评估证据真实性的概述。


二、研究设计


(一)病例系列研究


20世纪20年代,英国医疗工作者发现很多肺癌病人都是吸烟者,因此怀疑吸烟可能会引起肺癌。这是人类研究吸烟和肺癌关系的开端。从研究设计上讲,这个起始的观察方法叫病例系列(case series)研究,即只有一组病人,用他们的共同特征揭示事物的规律。但是,病例系列的最大问题是缺乏对照,如果无肺癌者中很多也是吸烟者,该研究提示的吸烟与肺癌的关系将不会成立。


没有对照,就没有鉴别,对照是科学研究的要素之一。如果没有任何对照,仅仅根据病例系列的分析则得不出任何可信的结论,病例系列研究需参照研究外的对照才能做出结论。举例说明,用某药物治疗一批普通感冒病人,如果他们在两周内都得到康复,是否说明该药物有效呢?显然不是。我们之所以可以做出这样的结论,是因为大量经验告诉我们,即使没有任何治疗,绝大多数感冒病人都会在两周内得到康复。研究外的对照多为历史对照,缺乏严格的可比性,影响结论的可信度。因此,从研究方法学上,科学家设计了比病例系列更可靠的含有直接对照的病例对照研究,并用此进一步验证吸烟和肺癌的关系。

 

(二)病例对照研究


1939年,德国人Müller以德文在癌症研究杂志发表了第一篇关于吸烟和肺癌关系的病例对照研究(case-control study),但当时并没引起太多的重视。1950年,英国流行病学家Doll与统计学家Hill关于吸烟和肺癌关系的病例对照研究发表于英国医学杂志。该研究包括了649例肺癌病人,设置的内部直接对照为649例无肺癌者。肺癌病人中只有2人不是吸烟者,而无肺癌者中有27位不是吸烟者。病例与对照组中吸烟者的比值比高达14(有关暴露或干预效应的一般计算方法请参见表2),进一步说明了吸烟和肺癌是有关的。图4展示了病例对照研究的设计框架。


表2 随机对照试验数据总结表和效应指标估计公式
(在病例对照研究和队列研究中,暴露组相当于治疗组,非暴露组相当于对照治疗组,数据陈列方式和效应估计方式与此表相同,但病例对照研究只能估计比值比)


图4 病例对照研究的对比和时间走向的设计框架


在上述病例对照研究中,对比人群是肺癌患者和非肺癌患者,时间走向是从现在发现的肺癌到过去的吸烟史,吸烟是暴露因素,肺癌是结局指标。由于病例对照研究走向是从结局到暴露,其时间走向是从现在到过去,属于回顾性的,因此此类研究又称作回顾性研究(retrospective study)。病例对照研究的特点是经济、快速,但是结果不太可靠。 


研究的最终目的是看吸烟是否可引起肺癌,但是上述病例对照研究本质上比较的是肺癌病人和非肺癌患者过去吸烟历史的区别,二者并非等同。更直接、更可靠的方法应该是比较吸烟者和非吸烟者未来发生肺癌机会的差别,这就是前瞻性队列研究的思路。


(三)队列研究


1951年,Doll和Hill开始了一项追踪观察长达50年的前瞻性研究(prospective study)。该研究在英格兰征募了40701个医生,并将他们分为吸烟者和非吸烟者,然后长期随访以观察两组肺癌的发生情况,前40年随访发现,吸烟者的肺癌发病率为每10万人每年209例,非吸烟组的发病率为每10万人每年19例。两组肺癌发病率之比为14.9,说明吸烟者肺癌发病率是非吸烟者的14.9倍,这与前述病例对照研究显示的比值比(等于14)在数值上十分接近,说明绝大多数肺癌病人都是由于吸烟引起的,更有力地说明肺癌和吸烟有关。


上述研究是从“现在”开始,并随访观察到“未来”某一个时点,因此叫做前瞻性研究。图5描述了前瞻性研究的设计框架。由于整个研究从头至尾是由一个队列(即同一个固定的人群)组成的,前瞻性研究一般又称为队列研究或定群研究(cohort study)。队列研究费时、费力、费钱,但结论的真实性高于病例对照研究。


图5 前瞻性队列研究的对比和时间走向的设计框架


然而,上述队列研究发现的吸烟者和非吸烟者之间肺癌发病率的差别仍然存在其他可能的解释,不能肯定地归结于吸烟的结果。我们知道,吸烟者多为男性,非吸烟者多为女性,而且男性更容易得肺癌。这样一来,即使吸烟和肺癌无关,吸烟者的肺癌发病率会因为他们多是男性而高于多是女性的非吸烟者(图6)。在流行病学里,这种现象叫作混杂,即性别和吸烟对肺癌的作用混杂在一起,我们无法肯定地判断吸烟者和非吸烟者之间肺癌发病率的差别是由于或完全由于吸烟造成的。


图6 性别对吸烟和肺癌关系的混杂作用


这里的混杂是由于吸烟者和非吸烟者在性别上的不可比造成。其实任何一个可能引起肺癌的因素都可以成为潜在的混杂因素,因此一个研究中的混杂因素可能有很多,如年龄、种族、职业、饮食习惯、家族史等。混杂是任何一个队列研究(和病例对照研究)都必须排除的偏倚,设计阶段可以使用匹配和限制控制混杂,更常用的则是数据分析阶段可采用的分层分析、标化比较和多元回归分析。在分析阶段,最有用的是多元回归分析。


有控制混杂的原理是相同的:就是通过各种方法“迫使”比较组之间在混杂因素上变得可比。然而,上述所有这些方法都不能保证彻底控制混杂,因为我们经常不知道所有的混杂因素,或者我们没有能够收集所有已知混杂因素的数据,而且统计分析模型有其自身的缺陷。


队列研究和病例对照研究均属于观察性研究。在观察性研究里,暴露组和非暴露组(如吸烟和非吸烟)是“自然”形成的,或是人们自愿选择的,研究者只是旁观者,不能主动分配暴露,也不对暴露进行任何干预。譬如,研究者不能人为地让一群人吸烟30年,而另一群人则不能吸烟,即使他们很喜欢吸烟。不是因为科学上做不到,而是伦理上不可接受,因为研究者不能人为地给研究对象施加可能有害的因素。所以,研究疾病病因和危险因素时,只能使用观察性研究。混杂是由于其他可以影响结局指标的因素在暴露组和非暴露组不可比造成的,是观察性研究永存的缺陷,在队列研究里如此,在病例对照研究中更为严重和复杂。


(四)随机对照试验


如果研究的是一项潜在可能有益的因素(如治疗),尤其是尚无人暴露于这个因素(如新药)时,研究者必须人为地将研究对象分配到不同的比较组,然后才能施加干预措施并观察其作用。由于分配的因素是潜在有益的,人为分组在伦理上则是可以接受的。


一个重要的方法学问题是,能否借助这个可以人为分组的机会,设计一种方法,使获得的比较组间除了干预外的各种因素都是可比的,从而从根本上消除混杂效应。答案是:随机化分组,即用随机化的方法把研究对象分配到各比较组。随机分组时,研究对象被分配到哪一组完全由随机机制(即偶然性)决定,不受研究者、病人和其他任何人的意志和偏好的影响。


通过随机分组形成的对照研究就是随机对照试验(图7)。1948年,世界上第一个随机对照试验在英国医学杂志发表,研究目的是评估链霉素治疗肺结核的临床效果。


图7 随机对照试验的对比和时间走向的设计框架


随机分组只能保证比较组在研究开始时是可比的,盲法、降低失访、提高随访率、维持原随机分组分析(即意向治疗分析, interntion to treat analysis)等在研究开始后的措施保证了比较组在研究的整个过程中自始至终都是可比的,从而在随机对照试验里最大限度地降低了混杂效应。为了明确显示随机对照试验相对于其他流行病学研究的优势,一般把前者称为实验性研究,后者统称为观察性研究。


随机对照试验是目前最可靠的在人群中研究医学领域中因果关系的研究设计。医学领域中的因果关系主要包括治疗和效果的关系以及病因和疾病的关系。但是,由于伦理学的限制,随机对照试验只可以用于评估医学干预措施(如药物、手术、疫苗等)的效果,不能直接用于研究疾病的病因和危险因素。


(五)系统综述


关于同一研究问题,经常存在很多类似的研究。如表3所示,截至1994年,有28个关于尼古丁口胶戒烟效果的随机对照试验,它们都是高质量的随机分组、安慰剂双盲对照的试验,但结果各不相同,有的研究显示尼古丁口胶可以明显帮助吸烟者戒烟(如第1项研究),有的显示没有任何作用(如第17项研究),有的则显示可能还会使吸烟者更容易继续吸烟(如第22项研究)。哪些研究是正确的?如果该治疗是有效的,效果的大小究竟如何?是否在有些吸烟者中效果更大?


表3 28个尼古丁口胶随机对照试验的结果


面对医学研究中的这类问题,20世纪70年代末,有人提出了meta分析(meta-analysis)的方法,就是现在常说的系统综述(systematic review),试图通过对既往研究的系统回顾,回答这些问题。系统综述是一种系统的以定量分析为主的总结和整合文献的研究方法。其本质是一种综述方法,目的是提炼和整合同类研究的结果,以做出定量的、更可靠的结论。“系统”特指收集原始文献的全面性、操作方法的可靠性和统一性,以及利用meta分析定量地整合结果。今天讲的meta分析主要指系统综述中用于定量地合并多个有关研究的结果以获得能够代表这些研究的平均结果的统计学方法。


简言之,系统综述本质上就是综合某研究问题现有所有证据,科学、定量地进行总结和推论的方法。


(六)五类研究可信度的比较


由上述分析可见,探索病因和疗效,至少有5类研究可以使用,但是它们不是等同的,其证据的可信度由高到底依次是:随机对照试验的系统综述、单个随机对照试验、队列研究、病例对照研究和病例系列研究。上述讨论揭示了三个提高研究结果可信度的原则:保证观察从暴露到结局的时间走向,设立对照,保证比较组间的可比性。研究设计的核心区别就是在处理这些问题上的不同。
对于研究者来说,当面对一个崭新的研究问题时,研究者往往是自下而上进行,先用简单速的类型进行初步索,然后再展开更可靠的研究,以验证和确认初步结果对于证据的使用者(或循证决策者)来说,检索证据应该自上而下地进行,最先检索随机对照试验的系统综述,发现证据时就可以停止进一步检索;当针对一个问题的各种研究都存在时,研究设计种类是判断研究结果和结论可信度最简单、快速的方法(图8);当不同研究的结果和结论不一致时,应以最可信的研究类型提供的证据为准。




前面描述了5种流行病学研究类型的基本设计及其差别,重点在于比较它们的设计原理以及控制偏倚能力的区别。下一期将从流行病学研究的另一个侧面,剖析一个流行病学研究的组成和步骤。

(未完待续)


原文出处:唐金陵,韩笑然. 第二章: 流行病学:产生证据的科学方法论. 见: 唐金陵,Paul Glasziou 主编. 《循证医学基础》(第二版) 北京;北京大学医学出版社: 2016



唐金陵,广州市妇女儿童医疗中心临床研究总监、《英国医学杂志》高级临床研究编辑、香港中文大学流行病学荣休教授


编辑:唐惠、邬德华


唐金陵教授《临床研究方法学文章汇集》 | 2019-11-27


系统综述中的统计分析(5/5):Meta分析软件与分析实例


临床研究讲座:流行病学数据分析基础(6/6):如何利用临床常规数据进行研究?



长按上方二维码关注我们

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存