如何解读临床研究报告(2/4):检索文献与解读内容
目录
一、医学文献评估概述
二、确定临床实践问题
三、 检索有关研究
1)研究类型与文献检索
2)临床问题与文献检索
3)检索的灵敏度和特异度
四、文献评估的内容
五、评估研究的结果
六、评估结果的真实性
七、评估结果的外推性
八、依据证据进行决策
九、本章概要
三、 检索有关研究
目前最重要的医学研究的文献库包括MEDLINE和EMBASE,它们涵盖了以上所有三类问题研究的文献。重要的中文文献库包括中国生物医学期刊文献数据库(CMDisc)和中文生物医学期刊引文数据库(CMCI)等。由于中文文献库只收集国内的文献,有很大的局限性。比如,关于抗高血压药物的高质量的大型随机对照试验主要来自英文文献,即使中国有一些研究,它们往往比较小,很多是国际多中心试验的一个部分,已经在国际上发表,很多研究随访时间很短,使用的多是中间替代指标,因此对抗高血压药物效果的整体结论影响不大,因此尚未构成循证实践文献检索的重点。但是,关于诸如发病率、患病率,以及药物在中国人群的特殊反应,只有中国人群的研究才是相关的,中文文献库则是检索的重点。
1)研究类型与文献检索
与临床实践相关的研究是那些在人群中进行的关于疾病和健康一般规律的应用型科学研究,主要就是(临床)流行病学研究,而不是在实验室进行的关于分子、细胞和动物的基础医学研究。因此循证医学的文献检索首先应局限于在人群中进行的应用型流行病学研究(表1与表2)。
表1 医学应用型研究的特征
表2 流行病学研究方法及其可应用的主要应用领域
即使是来自人群的研究,相关的证据也是多层次的,往往多种不同来源的证据同时存在,不同质量的证据同时存在。就疗效来说,可能有医生个人经验的总结,也可能还有高质量的随机对照试验。循证医学强调医学实践必须基于现有最好的证据,这意味着文献检索必须从可能的最高质量的研究开始。目前,唯一可行的方法就是按照提供证据的研究设计的类型,将证据质量进行分级,文献检索应按照质量的高低由上而下依次进行,直到发现有关证据为止。
流行病学研究设计主要包括临床试验、队列研究、病例对照研究、横断面研究和系统综述(systematic reviews)。虽然所有这些研究设计都可以用于研究同一临床问题(表2),但是出于科学性的要求,并受资源和伦理的限制,关于一类临床问题的最好研究证据往往来自于某种特定的研究设计(表3)。比如,虽然关于某药物治疗效果的最好证据来自科学性很高的随机对照试验,但是关于同一药物的罕见的慢性严重不良反应,则往往只能使用科学性较低的但切实可行的病例对照研究。
表3 医学实践问题与最优可行的研究设计
我们把这一研究设计叫做适合研究某临床问题的最好的、可行的研究,或简称最优的研究设计。其他低质量可行的研究设计也可以用于研究该类问题,但来自最好的研究设计的证据的真实性高于其他可行的研究设计。有些研究设计可能提供更高质量的证据,但是由于伦理和可行性的限制,它们不能用于研究某类临床问题。比如,队列研究是研究病因最好的研究设计,来自队列研究的证据高于病例对照研究、横切面研究和病例系列分析等。随机对照试验可以提供比队列研究更好的证据,但是由于伦理的限制,随机对照试验不能用于病因的研究。
由于偏倚控制措施的不同,各种研究设计的方法学质量不同,来自各种研究设计的证据的真实性也因此不同。可用于评价治疗效果的各类研究的方法学质量的由高到低依次为:随机对照试验,(非随机分组的)对照试验,队列研究,病例对照研究,(无对照组的)病例系列分析,临床经验回顾(图2)。
图2 关于干预效果研究的证据分级
这种研究类型方法学质量的排序叫证据分级(hierarchy ofevidence或level of evidence)。证据分级的方法有很多 ,繁简程度不一,但背后的原理和依据是一样的。证据分级是循证医学的重要内容之一,分级的用途有三:①作为文献检索的指引,文献检索应依证据质量高低,由最好的研究开始,自上而下地进行,直到检索到有关证据为止;②质量的高低与研究结果的真实性或可信性成正比,与结果的不确定性成反比,可用来快速判断研究结果可信性的高低;③当不同质量的证据同时具备时,决策必须基于最好来源的证据。
证据检索必须从最好的研究设计类型开始。所谓检索某类研究,就是在文献检索时只限制地检索这类研究。以治疗效果证据为例,应首先检索随机对照试验。如果随机对照试验不存在,再以依次向下检索其他类型的研究,直到检索到相关证据为止,无需继续检索其下低质量的证据。只有在以上任何证据都不存在时,基础研究的证据方可用作参考。
系统综述是收集、总结和整合有关同一临床问题的所有同类研究(如随机对照试验)的研究方法。系统综述可以提高效果大小估计的精确度,可以显示和分析不同研究的异质性,因此比单一的原始研究提供了更好更全面的证据。比如,随机对照试验的系统综述提供了比其中任何单一原始研究更全面的证据。因此,检索任何单一原始研究之前必须首先检索该类研究的系统综述,如果系统综述存在,将无需进行有关原始研究的检索。
图2提供的检索顺序只适用于治疗效果证据的检索,不适用于其他临床问题,因为随机对照试验不是提供所有临床实践问题证据的最好研究设计,关于不同临床问题的最好原始研究设计,请参考表3。
2)临床问题与文献检索
在限定研究设计类型的基础上,检索须依据临床问题进一步限定文献检索的范围。以随机对照试验为例,这类研究有很多,且方法学设计大同小异,多会使用随机分组、分组隐匿(allocation concealment)、盲法、提高随访率、维持原随机分组分析(intentionto treat analysis),以及适当的样本量等预防偏倚和减少随机误差的措施。然而,这些千千万万的看似相同的随机对照试验又千差万别,差别在于它们回答了不同的临床问题,临床问题的特征由PICOS决定,不同的临床问题就有不同的PICOS组成,因而不同的临床试验就具有不同的PICOS特征。PICOS决定了一项研究的目的,同时也决定了该项研究的临床实践意义,改变PICOS的任何一个方面,就改变了研究所回答的临床问题。文献检索就是要检出那些回答了特定PICOS的临床问题的研究。
比如,一项临床试验的研究目的是:在初级保健机构(S)发现的成人原发性高血压病人(P)中,使用利尿剂治疗(I),与无治疗作用的安慰剂比较(C),是否可以降低主要心脑血管事件(O)的风险?而另一项研究是在同样的病人中进行的,使用同样的试验治疗和结局指标,但对照组的治疗不是安慰剂而是钙拮抗剂。两项研究只在对照组治疗的不同,其结果的临床实践意义明显有别,文献检索时可通过对对照治疗的限制,将二类研究区分开来。
文献检索的诀窍就在于如何对PICOS和研究设计进行限制。以MEDLINE为例,检索治疗效果证据时,首先应限制随机对照试验,其次对PICOS逐一限制,然后限制人类的研究和研究的年份,最后用“and”将它们合并,得出最终的检索结果。由于随机对照试验和PICOS的每个方面都有很多同义词,用“or”将PICOS的某一个方面的同义词连接起来进行检索,会增加检出相关研究的机会。一般来讲,“and”用得越少且“or”用得越多,检出有关研究的机会就越高,但混杂的无关研究也越多。相反,“and”用得越多且“or”用得越少,混杂的无关研究就越少,但检出有关研究的机会也越低。
图3是一个“抗高血压药物预防心脑血管事件效果的随机对照试验”的检索策略实例。第1~19步是对随机对照试验的检索,第20步用“or”将随机对照试验的同义词合并检索;第21~30步是对病人和治疗的联合检索,第31步用“or”将病人和治疗的同义词联合检索;第32步是对临床结局同义词的联合检索,第33部将前三步检索的结果用“and”进行限制,第34~35步对检索的结果进步限制于在人类的研究,第36步将年份限制与1966—2006年,共检出50886项研究。在这5万多项研究中,真正有关的研究只有几十个,检索者还必须进一步从5万文摘中找出有关的研究。显然,该检索策略检出的绝大多数文献是无关的研究。
图3 用MEDLINE检索降压药预防心血管病效果的临床试验的检索策略及检索结果
3)检索的灵敏度和特异度
文献检索是根据检索目的检出有关的文章,因此可把文献库里的文章分为有关和无关两类。无关的研究是大量的,有关的研究是少数的。相关研究检出的百分数为灵敏度,无关研究不被检出的百分数为特异度;1-灵敏度为漏检的百分数,1-特异度为无关研究检出的百分数。
灵敏度越高,检出有关研究的机会就越大;特异度越高,检出无关研究的比例就越小。特异度低的后果是,检出无关研究太多,增加进一步筛检有关研究的工作量。比如,图3中的检索策略就是一个为了制作系统综述制定的灵敏度高特、异度低的检索策略。值得注意的是,改变检索策略总是同时改变检索的灵敏度和特异度,且灵敏度和特异度成反比,即提高灵敏度的同时必然降低特异度,反之亦然。
为了制作系统综述而进行的文献检索应尽可能提高灵敏度,但是其他一般性检索可以适当提高特异度,以减少无关的研究。读者可以根据需要,通过限制PICOS的部分或全部内容,并利用“or”对同义词进行加减,以改变检索的灵敏度和特异度,从而制定出符合自己需要的检索策略。比如,PICOS中P和I以及“在人类的研究”是最基本的内容,必须进行限制。由于文献库对C、O和S的记录和索引往往不是必须和统一的,很难对针对C、O和S进行限制,限制的结果是大大降低检索的灵敏度,因此为了保持检索的灵敏度,往往无需对C、O和S进行限制。反之,则可对C、O和S进行适当的限制,以提高特异度,减少无关的研究。
四、文献评估的内容
找到文献后的任务是评价文献。为循证实践而评价文献,就是找出原始科学研究报告中与临床决策有关的信息,评价信息的可信度,评价信息的临床实践意义,进而利用这些信息进行临床决策。
一篇科学论文报告,少则几千字,多则几万字,不是里面所有的信息都与临床决策有关,读者必须学会从中找出与临床实践有关的信息。一篇科学论文中与实践有关的信息大致分为三类:
研究的结果
有关结果真实性的信息
有关结果外推性的信息
研究的结果是核心,但只有可信的结果才有可利用的价值,可信性由研究的方法学质量决定。可信的有意义的结果未必会在所有不同的病人中得到到重复,因此决策者还必须对研究结果在具体病人中的外推性进行判断。
长按上方二维码关注我们