系统综述与meta分析（1/5）: 提出研究问题

Original 唐金陵杨祖耀临床研究与循证医学 2022-03-25

流行病学研究（如队列研究与临床试验）是在人群中研究医学实践相关问题的科学方法论，其结果是医学实践需要的科学依据。出于总结同类研究结果的需要，20世纪后叶出现了系统综述，早期这种研究方法被称作Meta分析。如果把传统的流行病学研究看作原始研究，系统综述则是对原始研究的研究，是系统的定量的文献研究，其研究单位不是一个人，而是一个研究。广义地讲，系统综述是一种总结和整合研究证据进行科学推论的方法。系统综述已被广泛纳入流行病学研究方法学的内容。本章将简要介绍其基本概念、原理、方法、步骤等。有关系统综述中的统计学分析（如meta分析）的详细内容，请参见本公众号随后推出的“系统综述中的统计学分析”的系列文章。

第一节引言

一、传统综述

二、Meta分析及其原理

三、系统综述的原理和方法

第二节研究问题和文献收集

一、提出研究问题

（一）研究问题的特征

（二）确定研究问题

（三）制定研究的合格标准

二、检索文献

三、筛选文献

四、文献检索的记录和管理

第三节提取数据

第四节评价原始研究质量

第五节分析数据

第六节报告的撰写和更新

第七节系统综述的特征和优缺点

第八节系统综述的偏倚和质量评价

第九节系统综述和meta分析进展

第一节引言

一、传统综述

循证医学兴起，医学对科学研究证据日益重视。长期以来，综述一直是总结和传播科学研究结果的最重要方式，也是医学文献的重要组成部分。在本质上，传统的综述属于叙述性综述（narrative review），即以文字叙述为主的综述方法，以定性结论为主要结果，没有或只有简单的定量地综合不同研究结果的方法。

传统综述多是由杂志社邀请的有关领域的专家撰写的。这些专家往往是业界的权威，有丰富的实践经验，对有关领域了如指掌。因此，此类综述是了解有关问题背景的重要文献。然而，传统的综述存在明显的缺陷。首先，很多综述者有着明显的先入为主的专业偏见，这些偏见在很大程度上会左右他们对文献的选择以及对结果的综合和诠释，很可能导致有偏的或错误的结论。

其次，即使作者一开始并没有先入之见，由于没有系统的文献检索方法，尤其是在电子检索还没出现或不够发达的年代，全面的文献检索几乎是不可能的，传统的综述不可能纳入所有有关的文献，只纳入部分文献是综述文献偏倚的重要来源之一。

第三，即使文献检索全面，由于叙述性综述选择和诠释有关研究的步骤和方法不是统一和透明的，而是缺乏明确的标准，随意性很大，得出结论的过程不可重复。因此，读者很难判断这些综述的结论到底在多大程度上受到了作者个人偏见和文献选择偏倚等因素的影响。例如，一些作者可能有意地纳入某些研究而忽视另一些研究，以至于不同的综述经常得出截然不同的结论。

此外，叙述性综述对于研究结果缺乏定量的综合，只由定性的结论，作者有时会比较结果有统计学显著性的研究和无显著性的研究的数目，并依此给出定性的结论。然而，即使每个研究都没有显著性意义，也不能肯定地做出比如干预措施无效的结论，相反的结论也可能是正确的（图 1）。而且，定量的结论比定性的结论能更好地辅助决策。例如，在100名接受干预的研究对象中，干预A可以预防1例死亡，干预B可以预防50例死亡，两个干预都是有效的，但是B的效果远远大于A，必然影响决策和选择。

由于计算机和互联网的诞生、电子文献库的出现以及循证医学的需要，20世纪70年代，一种更为系统的、标准化的、定量的综述方法——meta分析——应运而生。

图 1. Meta分析的优点：无显著性意义的单一研究和有显著性意义的总体结果（森林图，forest plot）

资料来源：Bachmann S，Finger C，Huss A，e tal. BMJ，2010，340：c1718.

注：图中方块的中心点代表效应的点估计值，方块面积的大小代表权重的大小，穿过方块的横线代表可信区间的宽窄。下面的菱形代表合并的总体结果，菱形的左右两端代表95%可信区间的上限和下限。可信区间穿过 Relative risk=1 的那条竖线时，说明结果无统计学显著性意义。

二、Meta分析及其原理

Meta分析（meta-analysis）是一种用于定量地合并多个有关研究的结果以获得能够代表这些研究的平均结果的统计学方法（图 1）。Meta分析克服了传统综述只做定性研究的缺陷，提出用定量的方法综合不同研究的结果。Meta分析也译作荟萃分析、元分析和整合分析。

在统计学上，如果关于某研究问题的有关研究来自同一个总体，或者它们背后的真实结果是相同的，而且研究者拥有所有有关的研究，那么这些研究的结果与其样本量的散点图应围绕真实值（或总体值）呈均匀对称的分布（图 2）。真实值在图形横轴的正中间，小样本的研究分布在下方，平均距真实值较远，大样本研究分布在上方，平均距真实值较近，整个散点图呈现一个倒置的漏斗的形状，故被称作漏斗图（funnel plot）。

图 2. 研究观察的结果与样本量之间关系的散点图（漏斗图，funnel plot）

注：图中的圆点代表在不同的研究中观察到的效应大小，即观察值；中间的竖线代表该效应的实际大小，即真实值；箭头表示从其中一个研究的观察值到真实值的距离。

真实值可以用所有研究的平均值进行估计。由于每个研究的样本量不同，其结果距真实值的远近不同，对估计真实值的贡献也应不同。因此，在合并研究结果时，meta分析会给不同的研究以不同的权重，以反映它们对真实值估计的贡献的大小，依此获得的平均值叫做加权平均值。原则上讲，越接近真实值的研究结果应获得更大的权重。由于研究结果与真实值的距离取决于样本量的大小，因此最直接的加权方法就是以样本量大小作为权重。更严格地讲，研究结果与真实值的距离与该研究的抽样误差成正比，抽样误差越小，则距离真实值越近，反之越远，因此最常用的加权方法不是以样本量为基础，而是根据抽样误差的大小进行加权，抽样误差越小，权重越大，反之权重越小。

由此可见，meta分析必须遵循以下几个重要假设或原则。一、欲综合的原始研究所探索的研究问题必须相同，因此它们来自同一总体，结果相近；二、合并结果时必须纳入所有有关的研究，不能只包括部分研究，以减少选择偏倚；三、假设所有纳入的研究都没有偏倚，其结果的差异完全由抽样误差引起；四、利用加权平均法对真实值进行定量的估计。其实，meta分析的实质是第四条，是一种用于合并结果的统计学方法，其本身并不能保证前三条假设或原则的实现。因此，进行meta分析，必须采取更多的措施，以保证前三条假设或原则的实现，才能控制偏倚，保证meta分析结果的可靠性。目前人们把这种新的一整套的综述研究方法叫做系统综述。

三、系统综述的原理和方法

系统综述（systematic review）是一种系统的定量的总结和整合文献、进行科学推论的方法。其本质仍是综述，目的是围绕具体研究问题提炼和整合文献、进而做出科学推论，“系统”特指收集原始文献的全面性、操作方法的可靠性和统一性，以及利用meta分析定量地整合结果（框 1）。世界考科蓝协作组织（the Cochrane Clollaboration）制作的系统综述又叫作考科蓝综述（Cochrane reviews）。

框 1. 系统综述和meta分析的定义

系统综述

是一种系统的定量的总结和整合文献、进行科学推论的方法。其本质仍是综述，目的是围绕具体研究问题提炼和整合文献、进而做出科学推论，“系统”特指收集原始文献的全面性、操作方法的可靠性和统一性，以及利用meta分析定量地整合结果。

Meta分析

是系统综述中用于定量地合并多个有关研究的结果以获得能够代表这些研究的平均结果的统计学方法。

作为一种总结和整合证据的方法，系统综述可用于任何领域。系统综述的确在教育学、心理学、行为学、社会科学等领域都已有应用。在近20年中，系统综述在临床医学得到了广泛的应用，产生了巨大的影响。本章将以系统综述在医学和卫生领域的应用为主线展开叙述和讨论。

Meta分析是系统综述的一个重要部分，但不是必要的部分（框 1）。假如确定研究题目后，进行了全面文献检索，但没有发现有关研究，或发现的研究数目很少，或研究结果存在很大的差异，则可能不需进行meta分析。单纯的meta分析是没有意义的，如果没有全面的文献收集和可靠的操作方法，meta分析的结果是不可靠的，也无法被正确诠释和利用。尽管如此，由于历史的原因，有时文献还会把meta分析和系统综述等同看待。

图 3. 系统综述的操作流程

作为基于现有文献的二次研究，系统综述和其他流行病学研究一样，需要确定研究问题和研究目的，并根据研究目的确定和选择研究对象（原始研究）、收集数据、分析数据、报告及阐释结果。但是，由于研究对象不是人群，而是原始研究，研究单位不是一个人，而是一个研究，因此，系统综述的制作有其特殊性。图 3展示了系统综述的操作流程。为尽量减少研究过程中的偏倚，取得更为真实可信的结果，制作系统综述时，应遵循以下几个原则：

（1）必须预先制定明确的研究问题和研究目的，并根据研究问题制定研究的入选条件；

（2）必须进行全面、系统的文献检索，尽可能收集和纳入世界上所有相关的研究；

（3）在遴选文献、判断合格性、评估方法学质量和采集数据过程中，应采取公认的、可靠的、可重复的操作方法；

（4）必须对纳入的研究的方法学质量进行评价和总结；

（5）检查研究结果的异质性，探索异质性的原因，并适当处理不能解释的异质性；

（6）使用加权平均的方法合并研究，估计总体结果。在同一个meta分析中合并的研究应尽可能具备一致性。

第二节研究问题和文献收集

一、提出研究问题

（一）研究问题的特征

医生和卫生决策者在实践中可能涉及的问题大致可以分为三类：基础医学问题、医学基础问题和医学实践问题。以利尿剂治疗高血压为例，在临床上可能会提出以下三类问题：为什么利尿剂可以降低血压？什么是高血压？利尿剂是否可以降低血压？它们分别是与高血压相关的基础医学问题、临床基础问题和临床实践问题。

与前两类问题不同，临床实践问题是与病人诊治直接相关的问题，是临床决策不可缺失的信息，往往需要科学研究才能可靠地回答，其答案随时间可能会发生变化。临床实践问题主要包括：鉴别诊断、诊断方法的准确性、治疗的效果、治疗的副作用，以及疾病治疗和无治疗情况下的转归、病因、治疗的成本效益等。公共卫生实践问题还包括疾病的发病率、患病率、死亡率等。

作为可用于指导医学实践的直接证据，系统综述要回答的一般是与临床或公共卫生相关的实践问题，虽然也完全可以用于研究基础医学或临床基础问题。因此，在提出系统综述的研究问题时，就要从上述与实践相关的各个环节去考虑。

（二）确定研究问题

以评估干预措施的效果为例，有关研究问题一般包括5个基本要素，它们分别是人群、干预、对照、结局和干预环境，英文分别是population，intervention，comparator，outcome和setting，简称PICOS（研究问题的基本要素）。有时会把PICOS中的S定为研究设计（study design），但是研究设计并不决定研究问题的实质，因此讨论研究问题时，应使用干预环境。

例如，在常规治疗基础上，急诊室急性心肌梗塞病人预防性使用利多卡因是否可以降低病人死亡的危险（治疗的益处）？该问题的基本要素P＝研究的人群为急性心肌梗塞病人，I＝治疗组的干预为利多卡因加常规治疗，C＝对照组的干预为无利多卡因的常规治疗，O＝用来评价疗效的结局指标为死亡，S＝治疗环境为急诊室。

干预环境（S）的核心是诊治水平和服务条件，在确定研究问题时常常不做具体规定，而是在数据分析时依此进行亚组分析。在病因研究中，上述的干预组可替换成暴露组，对照组可替换成非暴露组，结局可替换成疾病。

对研究问题基本要素的具体化和限制，是一个系统综述可以回答一个独立研究问题的前提，也可以防止由于无的放矢广泛撒网式的研究导致的假阳性结果。同时，研究问题的构成是文献检索用来“瞄准”相关文献的工具。应注意的是，研究问题不能太“宽”或太“窄”。太宽，则研究问题不具体，方向不明确，研究之间的异质性可能很大，降低结果对实践的指导意义。举例说明，如果某抗高血压药物可降低男性病人舒张压10mmHg，但对女性血压无影响，那么男女则需分别对待，男女病人的合并结果会误导实践。相反，如果研究问题太窄，则合格的研究可能很少，甚至没有，而且医学实践也不需要过于详尽的信息。例如，46岁~50岁的高血压病人可能对某药物的反应不同于51岁~55岁的病人，然而这个差别可能小得没有实际意义，无需分别对待。宽与窄的程度如何把握，没有明确的标准，取决于研究问题的特征，以及研究者对有关领域的熟悉程度。

（三）制定研究的合格标准

确定研究问题后，应确定什么是回答该类问题最优可行的研究设计类型。虽然不同的研究设计可以用于研究同一临床问题（表 1），但是出于科学性的要求，并受资源和伦理的限制，关于某一类临床问题的最好研究证据往往来自于某种特定的研究设计（框 2）。比如，虽然关于药物治疗效果的最佳证据来自科学性很高的随机对照试验，但是在早期初步探索药物安全性、药物代谢和疗效时，往往会使用科学性较低但安全快捷可行的病例系列或非随机的对照研究。又如，关于药物的慢性罕见不良反应，随机对照研究和队列研究都是不可行的，往往只能使用病例对照研究。

表 1. 流行病学研究设计类型与主要应用领域

研究方法	主要应用领域
随机对照试验	干预、筛查、诊断和管理模式效果、副作用
前瞻性研究	病因、副作用、预后和转归、诊断、疗效
病例对照研究	病因、副作用、诊断、预后因素
现况调查	诊断准确性、现患情况、疾病负担、卫生需求
系统综述	各种研究结果的总结、提炼和整合

框 2. 医学实践问题及其最优可行的研究设计类型

• 常见病因：前瞻性研究

• 罕见慢性疾病和药物不良作用的原因：病例对照研究

• 不常见的疾病和药物不良作用的原因：队列研究

• 干预效果和常见不良作用：随机对照试验

• 诊断方法的准确性：横断面研究

• 疾病的转归和预后：前瞻性研究

我们把这一研究设计叫做适合研究某临床问题的最优的、可行的研究设计，或简称最优可行的研究设计。其他质量较低的可行的研究设计也可以用于该类问题的研究，但来自最好的研究设计的证据的真实性高于其他可行的研究设计。例如，关于干预措施的疗效，虽然病例系列、病例对照研究、前瞻性研究等都可以使用，但最优可行的研究设计类型是随机对照试验。因此，评估干预措施效果的系统综述应该首先考虑有关的随机对照试验。当最优可行的研究不存在时，才可以降而求其次，考虑非随机分组的对照试验，再次观察性队列研究，再次病例对照研究。当最优可行的研究数量很少时，也可以考虑同时纳入次之的研究类型。比如，当随机对照试验很少时，可考虑同时纳入非随机分组的对照试验。

确定原始研究类型后，就可以根据研究问题制定明确的合格标准（eligibility criteria），包括纳入标准（inclusion criteria）和排除标准（exclusion criteria）两部分。原始研究的合格标准是文献检索的前提，是寻找有关文献的“筛子”。上述“研究问题的构成”（即PICOS）和研究设计类型是制定纳入标准的基础。例如，在前面利多卡因的例子中，纳入标准应该包括：①研究应该是随机对照试验；②病人是急性心肌梗塞住院病人；③治疗为常规治疗加利多卡因；④对照为常规治疗；⑤结局指标为死亡；⑥治疗环境为急诊室。必要时，还需根据研究问题的需要，对每个环节进行更具体的限制。例如，就病人而言，可能需要针对种族、性别、年龄、发病时间、严重程度、治疗史、伴发疾病等因素进行限制。

排除标准是用来剔除哪些已经符合纳入标准但存在“意外”情况的研究。例如，发现两篇同一研究的报告，一篇是早期的会议摘要，另一篇是观察更久的全文报告，两个研究除观察时间不同外，其他方面均相同，后者提供了更多更为详细的信息，在此情况下，应该剔除会议摘要。

原文出处：唐金陵, 杨祖耀. 第十四章: 系统综述与Meta分析. 见: 李立明主编. 流行病学. 第一卷. 第三版. 北京: 人民卫生出版社, 2015.

（本文是全文五个部分的第一部分，未完待续）

编辑：朱影影、冯琦、傅晓红、黄蔚然

Meta分析屡掀起医学圈讨论，它到底是何方神圣？

唐金陵：流行病学在医学研究和发展中的地位和作用

唐金陵：病因、病因模型与因果关系推断（五）

BMJ | 循证医学：一场远没有结束的医学变革

关于循证医学、精准医学和大数据研究的几点看法

长按上方二维码关注我们