系统综述与meta分析(1/5): 提出研究问题
流行病学研究(如队列研究与临床试验)是在人群中研究医学实践相关问题的科学方法论,其结果是医学实践需要的科学依据。出于总结同类研究结果的需要,20世纪后叶出现了系统综述,早期这种研究方法被称作Meta分析。如果把传统的流行病学研究看作原始研究,系统综述则是对原始研究的研究,是系统的定量的文献研究,其研究单位不是一个人,而是一个研究。广义地讲,系统综述是一种总结和整合研究证据进行科学推论的方法。系统综述已被广泛纳入流行病学研究方法学的内容。本章将简要介绍其基本概念、原理、方法、步骤等。有关系统综述中的统计学分析(如meta分析)的详细内容,请参见本公众号随后推出的“系统综述中的统计学分析”的系列文章。
目录
第一节 引言
一、传统综述
二、Meta分析及其原理
三、系统综述的原理和方法
第二节 研究问题和文献收集
一、提出研究问题
(一)研究问题的特征
(二)确定研究问题
(三)制定研究的合格标准
二、检索文献
三、筛选文献
四、文献检索的记录和管理
第三节 提取数据
第四节 评价原始研究质量
第五节 分析数据
第六节 报告的撰写和更新
第七节 系统综述的特征和优缺点
第八节 系统综述的偏倚和质量评价
第九节 系统综述和meta分析进展
第一节 引言
一、传统综述
循证医学兴起,医学对科学研究证据日益重视。长期以来,综述一直是总结和传播科学研究结果的最重要方式,也是医学文献的重要组成部分。在本质上,传统的综述属于叙述性综述(narrative review),即以文字叙述为主的综述方法,以定性结论为主要结果,没有或只有简单的定量地综合不同研究结果的方法。
传统综述多是由杂志社邀请的有关领域的专家撰写的。这些专家往往是业界的权威,有丰富的实践经验,对有关领域了如指掌。因此,此类综述是了解有关问题背景的重要文献。然而,传统的综述存在明显的缺陷。首先,很多综述者有着明显的先入为主的专业偏见,这些偏见在很大程度上会左右他们对文献的选择以及对结果的综合和诠释,很可能导致有偏的或错误的结论。
其次,即使作者一开始并没有先入之见,由于没有系统的文献检索方法,尤其是在电子检索还没出现或不够发达的年代,全面的文献检索几乎是不可能的,传统的综述不可能纳入所有有关的文献,只纳入部分文献是综述文献偏倚的重要来源之一。
第三,即使文献检索全面,由于叙述性综述选择和诠释有关研究的步骤和方法不是统一和透明的,而是缺乏明确的标准,随意性很大,得出结论的过程不可重复。因此,读者很难判断这些综述的结论到底在多大程度上受到了作者个人偏见和文献选择偏倚等因素的影响。例如,一些作者可能有意地纳入某些研究而忽视另一些研究,以至于不同的综述经常得出截然不同的结论。
此外,叙述性综述对于研究结果缺乏定量的综合,只由定性的结论,作者有时会比较结果有统计学显著性的研究和无显著性的研究的数目,并依此给出定性的结论。然而,即使每个研究都没有显著性意义,也不能肯定地做出比如干预措施无效的结论,相反的结论也可能是正确的(图 1)。而且,定量的结论比定性的结论能更好地辅助决策。例如,在100名接受干预的研究对象中,干预A可以预防1例死亡,干预B可以预防50例死亡,两个干预都是有效的,但是B的效果远远大于A,必然影响决策和选择。
由于计算机和互联网的诞生、电子文献库的出现以及循证医学的需要,20世纪70年代,一种更为系统的、标准化的、定量的综述方法——meta分析——应运而生。
图 1. Meta分析的优点:无显著性意义的单一研究和有显著性意义的总体结果(森林图,forest plot)
二、Meta分析及其原理
Meta分析(meta-analysis)是一种用于定量地合并多个有关研究的结果以获得能够代表这些研究的平均结果的统计学方法(图 1)。Meta分析克服了传统综述只做定性研究的缺陷,提出用定量的方法综合不同研究的结果。Meta分析也译作荟萃分析、元分析和整合分析。
在统计学上,如果关于某研究问题的有关研究来自同一个总体,或者它们背后的真实结果是相同的,而且研究者拥有所有有关的研究,那么这些研究的结果与其样本量的散点图应围绕真实值(或总体值)呈均匀对称的分布(图 2)。真实值在图形横轴的正中间,小样本的研究分布在下方,平均距真实值较远,大样本研究分布在上方,平均距真实值较近,整个散点图呈现一个倒置的漏斗的形状,故被称作漏斗图(funnel plot)。
图 2. 研究观察的结果与样本量之间关系的散点图(漏斗图,funnel plot)
注:图中的圆点代表在不同的研究中观察到的效应大小,即观察值;中间的竖线代表该效应的实际大小,即真实值;箭头表示从其中一个研究的观察值到真实值的距离。
真实值可以用所有研究的平均值进行估计。由于每个研究的样本量不同,其结果距真实值的远近不同,对估计真实值的贡献也应不同。因此,在合并研究结果时,meta分析会给不同的研究以不同的权重,以反映它们对真实值估计的贡献的大小,依此获得的平均值叫做加权平均值。原则上讲,越接近真实值的研究结果应获得更大的权重。由于研究结果与真实值的距离取决于样本量的大小,因此最直接的加权方法就是以样本量大小作为权重。更严格地讲,研究结果与真实值的距离与该研究的抽样误差成正比,抽样误差越小,则距离真实值越近,反之越远,因此最常用的加权方法不是以样本量为基础,而是根据抽样误差的大小进行加权,抽样误差越小,权重越大,反之权重越小。
由此可见,meta分析必须遵循以下几个重要假设或原则。一、欲综合的原始研究所探索的研究问题必须相同,因此它们来自同一总体,结果相近;二、合并结果时必须纳入所有有关的研究,不能只包括部分研究,以减少选择偏倚;三、假设所有纳入的研究都没有偏倚,其结果的差异完全由抽样误差引起;四、利用加权平均法对真实值进行定量的估计。其实,meta分析的实质是第四条,是一种用于合并结果的统计学方法,其本身并不能保证前三条假设或原则的实现。因此,进行meta分析,必须采取更多的措施,以保证前三条假设或原则的实现,才能控制偏倚,保证meta分析结果的可靠性。目前人们把这种新的一整套的综述研究方法叫做系统综述。
三、系统综述的原理和方法
系统综述 |
图 3. 系统综述的操作流程
作为基于现有文献的二次研究,系统综述和其他流行病学研究一样,需要确定研究问题和研究目的,并根据研究目的确定和选择研究对象(原始研究)、收集数据、分析数据、报告及阐释结果。但是,由于研究对象不是人群,而是原始研究,研究单位不是一个人,而是一个研究,因此,系统综述的制作有其特殊性。图 3展示了系统综述的操作流程。为尽量减少研究过程中的偏倚,取得更为真实可信的结果,制作系统综述时,应遵循以下几个原则:
(1)必须预先制定明确的研究问题和研究目的,并根据研究问题制定研究的入选条件;
(2)必须进行全面、系统的文献检索,尽可能收集和纳入世界上所有相关的研究;
(3)在遴选文献、判断合格性、评估方法学质量和采集数据过程中,应采取公认的、可靠的、可重复的操作方法;
(4)必须对纳入的研究的方法学质量进行评价和总结;
(5)检查研究结果的异质性,探索异质性的原因,并适当处理不能解释的异质性;
(6)使用加权平均的方法合并研究,估计总体结果。在同一个meta分析中合并的研究应尽可能具备一致性。
第二节 研究问题和文献收集
一、提出研究问题
(一)研究问题的特征
(三)制定研究的合格标准
确定研究问题后,应确定什么是回答该类问题最优可行的研究设计类型。虽然不同的研究设计可以用于研究同一临床问题(表 1),但是出于科学性的要求,并受资源和伦理的限制,关于某一类临床问题的最好研究证据往往来自于某种特定的研究设计(框 2)。比如,虽然关于药物治疗效果的最佳证据来自科学性很高的随机对照试验,但是在早期初步探索药物安全性、药物代谢和疗效时,往往会使用科学性较低但安全快捷可行的病例系列或非随机的对照研究。又如,关于药物的慢性罕见不良反应,随机对照研究和队列研究都是不可行的,往往只能使用病例对照研究。
表 1. 流行病学研究设计类型与主要应用领域
研究方法 | 主要应用领域 |
框 2. 医学实践问题及其最优可行的研究设计类型
• 常见病因:前瞻性研究 |
我们把这一研究设计叫做适合研究某临床问题的最优的、可行的研究设计,或简称最优可行的研究设计。其他质量较低的可行的研究设计也可以用于该类问题的研究,但来自最好的研究设计的证据的真实性高于其他可行的研究设计。例如,关于干预措施的疗效,虽然病例系列、病例对照研究、前瞻性研究等都可以使用,但最优可行的研究设计类型是随机对照试验。因此,评估干预措施效果的系统综述应该首先考虑有关的随机对照试验。当最优可行的研究不存在时,才可以降而求其次,考虑非随机分组的对照试验,再次观察性队列研究,再次病例对照研究。当最优可行的研究数量很少时,也可以考虑同时纳入次之的研究类型。比如,当随机对照试验很少时,可考虑同时纳入非随机分组的对照试验。
确定原始研究类型后,就可以根据研究问题制定明确的合格标准(eligibility criteria),包括纳入标准(inclusion criteria)和排除标准(exclusion criteria)两部分。原始研究的合格标准是文献检索的前提,是寻找有关文献的“筛子”。上述“研究问题的构成”(即PICOS)和研究设计类型是制定纳入标准的基础。例如,在前面利多卡因的例子中,纳入标准应该包括:①研究应该是随机对照试验;②病人是急性心肌梗塞住院病人;③治疗为常规治疗加利多卡因;④对照为常规治疗;⑤结局指标为死亡;⑥治疗环境为急诊室。必要时,还需根据研究问题的需要,对每个环节进行更具体的限制。例如,就病人而言,可能需要针对种族、性别、年龄、发病时间、严重程度、治疗史、伴发疾病等因素进行限制。
排除标准是用来剔除哪些已经符合纳入标准但存在“意外”情况的研究。例如,发现两篇同一研究的报告,一篇是早期的会议摘要,另一篇是观察更久的全文报告,两个研究除观察时间不同外,其他方面均相同,后者提供了更多更为详细的信息,在此情况下,应该剔除会议摘要。
长按上方二维码关注我们