查看原文
其他

观察与实验,效力与效果

唐金陵 杨祖耀 临床研究与循证医学 2020-09-11

一、导读

本文重点了分析“观察”与“实验”的区别以及“效力”与“效果”的关系,讨论评估效力和效果时研究类型的选择,强调现实世界研究的大数据增加的精确性不能替代实验研究的真实性,并依此阐述大数据观察性现实世界研究在评估疗效中的作用。文中的讨论也有助于决策者根据研究设计判断证据的真实性,以便更好地进行医学实践。


二、观察与实验

现代流行病学是在人群中定量地研究有关健康、疾病以及医疗卫生服务一般规律的方法论。其常见的研究设计包括病例系列、横断面研究、病例对照研究、队列研究、随机对照试验和系统综述。按照设计特征,又可分为观察性研究和实验研究,或简称观察和实验。顾名思义,观察性研究是在无研究者影响或控制的“自然条件下”进行的研究,而实验研究则是在研究者完全或部分控制的“非自然条件下”进行的研究,可获得比观察性研究更可靠的结论。

流行病学研究中研究者可控的条件有两方面,一是对暴露状态的分配,二是对其他研究条件(如组间可比性)的控制。研究者对暴露分配的介入就是干预,即研究对象是否处于某种暴露状态(例如是否接受某种治疗)不是自然条件下形成的,而是研究者的主动行为。由研究者主动施加干预的研究称干预研究,在临床研究里称做临床试验,即对一项治疗措施作用的试验(trial)。干预研究常被等同于实验研究。这样区分实验研究和非实验研究(观察性研究),本质上是依据研究问题而进行的分类。然而,实验和观察的本质区别在于其科学性,而非研究的问题。因此,严格意义上讲,如果不具备通过对其他实验条件的控制而获得的组间可比性,这样的“实验研究”与“观察性研究”在结果真实性上无本质区别,同样存在观察性研究常见的混杂偏倚和其他偏倚。只有严格控制其他研究条件和具有组间可比性的干预研究,才可能与观察性研究区分开来,成为真正意义上的实验研究,而随机分组则是实现组间可比性的关键。因此实验和观察的根本区别在于是否采用了随机分组,区别的本质是组间的可比性,而非施加的干预,后者仅仅使研究者实施随机分组和形成真正的实验条件成为可能,并不是实验条件形成的必然因素(图1)。


现代流行病学已将实验研究等同于随机对照试验,而其他流行病学研究设计均属于观察性研究。在流行病学里常被冠为“实验”研究的目的及其与随机对照试验的区别见表1。特别值得一提的是,并非所有的“临床试验”都是“随机对照试验”或真正意义上的实验,“试验”与“实验”的区别在于前者是测试一个干预的效果,而后者则强调对研究条件的控制。据此可知,临床试验既可以是实验性的,也可以是观察性的。例如交叉试验、序贯试验、析因试验和单人交叉试验,如果分组和交叉是随机形成的,则属于“实验”,否则等同于观察,或称类实验。

用研究的科学性而不是研究目的对流行病学研究进行分类,还在于不同研究类型可用于同一研究目的,同一研究类型也可用于不同的研究目的(表2)。例如在人群中研究干预的作用,并非必须使用实验研究,也可以是观察性的,尤其是初期测试和后期对慢性毒副作用的调查。另外,由于伦理的限制,研究者不能在研究对象人群中人为施加可能有害的病因或危险因素,所以在人类中进行的实验研究只能用于评估可能有益的干预措施。因此,不同的研究问题均有适合自身的最佳、可行的研究设计(表3)。研究类型的区别及其设计的严谨程度决定了流行病学研究结果和结论的真实性。就可用于评估干预效果的研究设计而言,随机对照试验结果的真实性一般高于观察性队列研究(图2),有盲法的随机对照试验结果的真实性又高于无盲法的随机对照试验。因此在研究同一问题时,不同的研究设计就具有不同的定位和作用。本文重点讨论在评估干预作用时,如何根据研究目的选择适合的研究设计。



  

因此按研究的真实性进行分类,有助于研究者在评估一项干预措施的不同阶段合理地选择研究设计,并利于决策者根据研究设计判断其结果的真实性,更好地开展医学实践。尽管如此,本文并不排除流行病学研究其他分类方法的合理性,虽然有些分类同时使用两种或以上的研究特征,易引起逻辑上的混乱。


三、实验与实践条件的差异

研究设计决定结果的真实性。而研究结果的意义和价值,则取决于研究的问题,即研究的问题越重要,结果的价值就越高。随机对照试验的研究问题由PICOS[即patient/population (患者或接受干预的人群)、intervention (测试的干预措施)、comparator (对照组的干预措施)、outcome (使用的结局指标)和setting (实施干预的环境和条件)]决定,其结果的实践意义也就取决于PICOS的设置。例如,在常规治疗基础上,三甲医院急性心肌梗死住院患者预防性使用利多卡因是否可以降低患者死亡的机会?该研究问题中,P=急性心肌梗死患者,I=利多卡因,C=无利多卡因治疗,0=死亡,S=服务水平最高的一类医院。

出于可行性、安全性和科学性的考虑,随机对照试验的PICOS常常与实践存在差异,尤其是初期探索疗效的试验。实验一般是在理想的控制条件下进行的,而实践则发生于现实的自然条件下。比如实验研究多采用诊断明确、病情稳定、依从性高的典型病例,而实践中必须包括非典型病例的治疗;实验研究多采用安慰剂作为对照,而实践中往往需要在不同的有效治疗中进行选择;实验研究采用的结局指标可能是中间替代变量(如血压),而实践中更关心的是终末变量(如心肌梗死);研究多是在优越或高于一般的医疗条件下进行,实施者多是有经验的高水平的医生,对各项条件的严格控制使得干预措施的作用趋向最大化,而实际治疗中,由于条件和资源限制,不可能像做研究那样严格控制这些条件,从而使干预措施的作用被多种影响因素“稀释”甚至完全消除。因此研究在理想条件下显示的疗效的大小往往不能在实际医疗环境中得到验证和实现。干预措施还需要在实际或至少是接近实际实践的条件下进一步评估。


四、效力与效果

为便于区别,通常将理想医疗环境下显示的疗效称作效力(efficacy)、最大效果或理论效果,把评估效力的研究叫做效力试验(efficacy trial)、探索性试验(exploratory trial)或解释性试验(explanatory trial)。相反,在实际或接近实际的医疗环境下显示的疗效称为效果(effectiveness),把评估效果的研究称作效果试验(effectiveness trial)、实用性试验(pragmatic trial)或验证性试验(confirmatory trial)。由于需要征募大量患者,大规模(多中心)试验(large multi—centre trials,mega trials)多属于评估干预效果试验。因此,效力试验应尽可能在理想的环境中进行,效果试验则应尽可能模仿实际治疗环境。

与效力试验比较,效果试验多采用患者和医生最关心的终末结局(如伤残、死亡和生活质量)来估计治疗作用,并选择现行最好的或常规的治疗作为对照。使用终末结局评估干预措施效果的研究也称结局研究(outcome research),即关于医学实践活动最终结果的研究。而采用现行治疗作为对照研究则属于比较疗效研究(comparative effectiveness research),比较疗效研究也可以通过系统综述来实现,如网络Meta分析。重要的是,效果试验多是在代表一般实践条件的医疗场所进行的。

然而,在医疗服务条件和医生素质方面,理想和实际的医疗环境是相对的,美国的理想医疗环境高于我国,我国实际医疗环境在不同地区也不尽相同。因此,理想和实际条件并非截然分开的两种独立的情况,而是一个从最好到最差的连续现象。好和差是相对的,一个医院在一个地区可能是比较好的,而在另一个地区则可能是比较差的。因此,从理论上讲,“效力”还存在最大效力和最小效力,“效果”也存在最大效果和最小效果,从最大效力到最小效果应是一个连续现象。当研究效力的服务条件优于研究效果的服务条件时,效力应大于或等于效果。当效力等于或接近效果时,说明该项治疗对医疗环境要求不高,易推广,且使用面宽(如各种同类患者),很多药物治疗都是如此;相反,当效果远远小于效力时,说明该项治疗需要一定医疗条件的保障,不易推广,很多复杂的外科手术即属于此类。


五、观察和实验的互补作用

关于观察和实验以及效力和效果的概念,在临床流行病学领域已有广泛讨论和认识。在人群中进行药物治疗测试的过程中,为保障安全、缩短测试时间和降低费用,以及降低未来大规模试验失败的风险,首先采用观察性研究初步了解治疗毒副作用和效果是合理的,然后再进行更严谨的随机对照试验以确定疗效。然而,即使是大规模的试验,也不足以检出罕见的慢性毒副作用。因此在药物上市后,再次求助于观察性研究,调查药物可能引起的罕见慢性毒副作用,同样是合理选择。可见观察性研究在药物评估中不可或缺,但观察性研究的重要性并不能取代实验研究(即随机对照试验)在确定治疗效果中的关键性作用。在不同评估阶段,根据不同研究目的,选择不同的研究设计和PICOS,正是西医药物测试的四期临床试验的概念(表4)。


六、现实世界研究及其作用

由于随机对照试验费用昂贵和实施困难,以及其PICOS组合与实际情况的差异,加之互联网时代大量常规医学数据的出现,有人开始怀疑和挑战随机对照试验在确定干预效果中的作用,并提出使用观察性研究最终验证现实条件下的疗效,而且认为这类研究完全可以通过分析常规收集的资料来完成。该设想最重要的理由是临床治疗是基于患者实际情况而定,不可能是随机的,尽管随机对照试验可以在十分接近现实的环境中进行,但是就随机分配治疗这一点,它无法反映实际情况,因此随机对照试验的结果不可能反映实际疗效(实效),后者只能通过观察加以验证。如果把现实情况下进行的研究称为实效研究或现实世界研究(real world research),那么现实世界研究就是对疗效的最后测试。“现实”与“理想”相对,强调实际环境与理想环境的差别。亦有学者称之为真实世界研究,但是“真实”与“不真实”或“虚假”相对,随机对照试验的条件并非不真实,只是在常规实践中较难达到而已,因此我们认为用“现实”更妥当。广义地讲,现实世界研究包括观察性研究,也包括在接近现实世界环境中进行的随机对照试验。但在非随机决定治疗的现实世界中,治疗效果只能通过观察进行验证。因此狭义的现实世界研究排除了任何随机对照试验,仅指观察性研究。

那么,现实世界研究(或观察性实效研究)在评估疗效中的意义何在?比较实验研究和现实世界研究的结果,有四种可能:①两种研究均显示治疗有效;②均显示治疗无效;③实验研究显示无效,现实世界研究显示有效;④实验研究显示有效,现实世界研究显示无效(图3)。众所周知,实验研究的真实性高于观察性研究,当两者不一致时,观察性研究结果更可能是错误的。由此推论,在实验研究显示无效时,现实世界研究的进一步验证是没有意义的,只有当实验研究显示有效时,现实世界观察性研究的验证才具有意义。在情况①,现实世界研究验证了效果的存在,说明疗效受实际医疗条件的限制较小,易推广;相反,情况④有两种可能的解释,一是现实世界研究的阴性结果有误;二是其结果正确,但并不能否定疗效,可能说明治疗生效还应满足一定的医疗条件和环境,如医生素质、诊断和护理质量、患者依从性等。


由此可见,在评估干预措施效果时,现实世界研究的特殊作用在于检验理想条件下已经证明有效的措施在一般环境下是否仍然有效。当然,一些效果非常显著的干预措施如断指再植手术、胰岛素降血糖及乙醚麻醉的效果,通过现实世界研究就足以可靠地证明,不必再开展费时费力的实验研究。现实世界研究本质是观察性的,因此存在所有观察性比较研究共同的问题——混杂。在观察性研究里控制混杂的方法有很多,例如在设计阶段可以采用匹配(matching)和限制(restriction),但两者在前瞻性研究和病例对照研究中控制混杂的能力有限。“匹配”在前瞻性研究中费时费力,在病例对照研究中是无效的,“限制”在两种研究中都会使入组人群大大减少。在数据分析阶段,可采用标化(standardization)、分层分析(stratified analysis)和多元回归分析(multivariate analysis),其中使用最多的是最后一种,可以同时有效控制多个混杂因素。此外还可使用倾向评分(propensity score)以及控制未知变量潜在混杂的手段(如difference in differences、instrumental variables 和 regression discontinuity designs等方法)同时控制多个已知或未知的混杂因素。但在控制“混杂”的意义上,上述方法均没有随机分组有效。因此观察性研究的真实性一般低于实验研究,更无法替代实验研究。关于利用常规资料评估干预效果的其他方法学问题,请参见文献。

如果现实世界研究的结果可信,当实验研究显示某治疗有效而现实世界研究显示其无效时,其原因大致有两种。一是现实世界研究的某些要素与实验研究明显不同,例如实验研究中实施某种干预者均为高水平医生,并有高端医疗设备辅助,而现实世界研究的人员及环境不具备此条件;二是现实世界研究的某些要素与实验研究部分不同,例如实验研究纳入的是病情单一、依从性高的患者,而现实世界研究除此之外还纳入了患有其他疾病的复杂病例和依从性低的患者。对于第一种情况,做好过程评价及对治疗条件的评估,有助于探索现实世界研究结果与实验研究存在差异的原因;对于第二种情况,在现实世界研究中可以通过亚组分析,比较各亚组(例如依从性不同的患者)中的治疗效果是否有区别,以解释现实世界研究和实验研究结果的差异。图4总结了评估一项医学干预措施的全过程,显示了不同阶段的研究目的以及干预条件和研究设计的选择。



七、结论

实验和观察的根本区别在于是否采用了随机分组,实验研究的真实性高于观察性研究。“效力”是一项干预措施可能的最大有益作用,“效果”是指该措施在实际条件下的作用。“实验和观察”是指不同的研究类型,“效力和效果”是指不同的研究目的。不同研究类型可用于同一研究目的,同一研究类型可用于不同研究目的。干预措施的评估应循序渐进(观察一实验一观察)。实验研究只能用于评估干预,但评估干预的研究并不都是实验研究。实验条件下展示的效果能否在实际条件下得到重复,只能利用现实世界的观察性研究予以验证。但在现实世界中验证疗效的重要性不能否定实验研究的必要性。同理,当实验研究的效果无法在现实情况下重复时,仅凭此不足以否定干预的效果,因为观察性研究的结果可能有误,也可能干预需要高质量的服务条件方能生效。重要的是,现实世界并不是一个单一的状况,而是千变万化,如果一项治疗的效果对治疗条件的依赖性很高,我们不可能在所有具体的现实情况下进行测试,然后决定在什么条件下可以推荐。更实际、可取的方法是,根据研究中的服务标准,改善当地实际的诊疗和服务质量,以获得应有的疗效。

作者:唐金陵  杨祖耀(香港中文大学医学院)

编辑:袁金秋

原文出处:唐金陵, 杨祖耀. 观察与实验效力与效果[J].中华流行病学杂志, 2014, 35(3):221-227.

再论观察与实验: 大数据现实世界研究不能取代随机对照试验

关于循证医学、精准医学和大数据研究的几点看法

唐金陵:病因及其推断

大型随机对照试验: 临床研究的典范与陷阱

试论以疗效为先导的中医药研究策略


  


  

   长按上方二维码关注我们

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存