系统综述与meta分析（4/5）：评价原始研究质量及分析数据

Original 唐金陵杨祖耀临床研究与循证医学 2022-03-25

本文是“系统综述与meta分析”全部5集系列的第4集，之前各集的链接见下：

系统综述与meta分析（1）：提出研究问题

系统综述与meta分析（2）：检索文献

系统综述与meta分析（3）：筛选文献及提取数据

第一节引言

第二节研究问题和文献收集

第三节提取数据

第四节评价原始研究质量

一、质量评价的原理和方法

（一）评价研究质量的重要性

（二）决定研究质量的因素

（三）评价研究质量的工具

（四）注意事项

二、评价随机对照试验的质量

三、评价其它研究类型的质量

四、评价研究质量的困难

第五节分析数据

第六节报告的撰写和更新

第七节系统综述的特点和优缺点

第八节系统综述的偏倚和质量评价

第九节系统综述和meta分析进展

第四节评价原始研究质量

一、质量评价的原理和方法

（一）评价研究质量的重要性

研究的目的在于求得真实，只有真实可信的结果才能作为决策依据的基础。这里的真实性指研究结果和结论的内部真实性（internal validity）或可信性（trustworthiness），是对一项研究的结果或结论反映真实情况的程度的衡量。观察到的结果和真实值之间的差别叫做误差，包括随机误差和系统误差。随机误差的大小主要由样本量决定，在系统综述中评价研究质量时通常不评价该项，因为meta分析的目的之一就是通过合并多个研究来增加样本量、减少随机误差。换言之，既然需要通过系统综述、meta分析来回答一个问题，那么原始研究的样本量较小就是很正常的，不能将其视作一个“问题”。因此，系统综述研究者关注的主要是原始研究中的系统误差，又叫做偏倚。一项研究的偏倚与其结果的内部真实性成反比。决定研究结果内部真实性的因素是研究的质量（study quality），即一项研究的方法学质量（methodological quality）。研究质量是对研究偏倚控制程度的总体衡量。因此，研究质量决定研究结果的可信度，质量越高，偏倚就越小，结果的可信度就越高，结论正确的可能性就越高。

系统综述的质量是决策的重要参考因素。作为二次研究，系统综述提供的证据的质量首先取决于纳入的原始研究的质量。如果原始研究质量很低，系统综述和meta分析不可能把它们变成高质量的证据。因此，评价原始研究的质量，是系统综述不可缺少的部分，也是系统综述区别于传统叙述性综述的一个重要特征。评价原始研究质量还有其他用途。第一，它可以用作原始研究的入选标准之一，即对入选研究的方法学质量设立最低门槛。第二，可以基于方法学质量把研究分为不同的组，通过亚组分析、meta回归等方法，探讨研究质量与研究结果的之间的关系，分析异质性的原因。第三，可以发现原始研究在方法学方面存在的不足，为未来研究指出改进方向。

（二）决定研究质量的因素

研究的质量由研究的偏倚控制措施决定。研究设计类型是一项研究控制偏倚最基本的方法，一项研究的质量首先取决于研究设计的种类。比如，评价疗效时，在设计类型上讲，随机对照试验的质量一般应高于非随机的对照试验，后者又高于病例对照研究。每种特定类型的研究又有它特有的偏倚控制措施，比如临床试验可使用合理的对照、随机分组、分组隐藏、盲法、维持原随机分组分析等偏倚控制措施。但在实际研究中，由于种种原因，一项研究不一定采取所有这些措施，这些措施使用得越多，操作越严谨，偏倚控制就越好，质量就越高。此外，研究的质量还取决于流行病学研究的一般偏倚控制措施，如准确测量暴露和结局、减少失访、观察足够长的时间等。评价一项研究的质量就是对它的研究设计和偏倚控制措施进行分析和评价。由于一个系统综述通常只纳入一种特定的设计类型的研究，所以只需对研究设计类型以外的偏倚控制措施（即上述第二和第三类偏倚控制措施）进行评价。

（三）评价研究质量的工具

可用于研究质量评价的工具有很多，主要可分为列表法（checklist）和记分法（scoring）两大类。列表法就是把一类研究应该采用的偏倚控制措施和一项研究实际是否采用了这些措施用表格的形式罗列出来，以评价研究的质量，实际采用的措施越多，研究质量就越高。列表法是评价研究质量最简单的方法，主要问题是对偏倚控制措施执行的严谨程度没有度量，因而不能区别研究间比较微小的区别。记分法则同时兼顾一类研究应该采用的偏倚控制措施及其在研究中的执行程度，对每项偏倚控制措施进行打分，并用各项偏倚控制措施的记分总和来衡量一项研究的总体方法学质量。

例如，Jadad记分法（Jadad Score）曾广泛用于评价随机对照试验的质量，该方法包括了随机对照试验最重要的三个偏倚控制措施，即随机分组、盲法和控制失访。该记分法规定：一、如果研究报告明确指出采用了这三项偏倚控制措施，则每项措施各得1分，否则得0分；二、如果根据文章描述判断，随机分组和双盲的操作是正确的，则二者各额外再得1分。因此，0分为此类研究方法学质量最低的研究，5分为质量最高的研究。也有学者建议综合列表法和记分法，使用图示法表达记分法的结果，但不进行总体质量打分。常用的图示法是考科蓝协作组织建议的“偏倚风险展示图”，如图7所示。

图7. 考科蓝组织建议的临床试验偏倚风险展示图

资料来源：Mao C, Yang ZY, He BF, et al. Cochrane Database Syst Rev, 2012; 7: CD008926.

使用这些工具时，需利用专业知识全面推敲和考证，而不是根据生硬的标准机械地做出“有”和“无”的结论。例如，在评价失访时，如果预先设定一个20%的标准，则可能在比例高于21%时做出高风险的结论，低于19%时认为是低风险的，这显然有不合理的地方。

（四）注意事项

评价原始研究质量时还应注意以下几个问题。一、评价同一研究的质量时，需要针对不同结局指标分别进行。在同一研究中，针对不同结局的结论的偏倚程度可能不同，当研究同时包括主观指标和客观指标而未实施盲法时，尤其如此。例如，“死亡”属于“硬”结局，其信息受测量者主观因素影响很小，发生信息偏倚的风险较低。相反，疼痛和生活质量等属于“软”结局，无盲法时很可能而引入测量误差，从而导致信息偏倚。因此，盲法对使用软结局的临床试验的意义大于使用硬结局的试验。

二、评价原始研究的质量时，对应的数据是最后纳入系统综述的数据，而不是原始研究报告的结果。例如，有些原始研究在分析时不恰当地排除了失访的病人，但是系统综述制作者可以把被排除的病人计算进来，并按照维持原随机分组分析的原则（intention to treat analysis）对其结局作出判定，从而减少可能的偏倚。在这种情况下，尽管原始研究没有采用维持原随机分组分析，但系统综述采用了这个分析，因此不能在维持原随机分组分析上对原始研究扣分。

三、对原始研究质量的总体评价还需考虑研究问题的特殊性。例如，盲法是随机对照双盲试验控制偏倚的重要措施之一，但是对于评价非药物治疗（例如针灸、手术和理疗）的试验，无法真正实现盲法，如果因此就认为这样的证据质量较差而推迟医学实践行动，显然是不合理的，因为这样的证据已是最好可能的证据了。

四、不要把研究的内部真实性与外推性混为一谈。内部真实性是外推性的基础，但样本的代表性、病人的特征、病人依从性、治疗环境和服务质量等因素，与外推性有关，而与内部真实性无关，不是研究质量评价的内容。也不应把偏倚和抽样误差混为一谈。抽样误差取决于样本量的大小，严格来讲样本量的大小与偏倚风险无关。

五、在是否应该为研究总体质量打分的问题上，尚存在争议。有学者认为，无论如何打分，都存在很大的主观性，因此建议只对具体偏倚控制措施进行交代，无需打分。这固然减少了系统综述研究者的负担，暂时避免了但却没有真正解决对一项系统综述结果和结论总体可信性评价的问题，而是留给了系统综述的读者。然而，为了做好决策，读者最终还必须对结果和结论的可信性进行判断。如果系统综述研究者对此爱莫能助，又如何期望千千万万个实践者对此有更好的办法呢？

二、评价随机对照试验的质量

根据上述原理和方法，考科蓝协作组织于2008年推出了自己的评估随机对照试验偏倚风险的工具，即“考科蓝偏倚风险评估工具”（Cochrane Risk of Bias Tool），如表4所示。该工具涵盖了随机对照试验中偏倚的6种类型：选择偏倚（selection bias），实施偏倚（performance bias），检测偏倚（detection bias），退出偏倚（attrition bias），报告偏倚（reporting bias），以及其它偏倚。每种类型的偏倚都有1~2个主要来源。

表4. 考科蓝协作组织评价随机对照试验偏倚风险的工具

偏倚的种类	偏倚的来源	判断依据
选择偏倚	随机序列的产生	用适当的细节描述生成随机分配序列的方法，以判断是否能产生可比的比较组
	分配方案的隐藏	用适当的细节描述是如何隐藏分配序列的，以判断负责纳入征募病人的研究人员和病人是否预先知道或可以猜测病人会被分配到哪一组
实施偏倚	对研究对象和工作人员的盲法	描述用于使研究对象和工作人员无法获知研究对象接受了何种干预的所有措施。提供关于盲法是否有效的任何信息
检测偏倚	对结局评估者的盲法	描述用于使结局评估者无法获知研究对象接受了何种干预的所有措施。提供关于盲法是否有效的任何信息
失访偏倚	结局数据不完整	对于每个主要结局，要描述其结局数据是否完整以及分析时是否剔除了失访的研究对象。说明是否报告了每个组失访和剔除的情况，如果报告了，人数有多少、原因是什么，以及系统综述是否使用了维持原随机分组分析原则纳入了这些被原始研究剔除研究对象
报告偏倚	选择性报告	说明是如何考察有无选择性报告的，以及考察的结果
其它偏倚	其它可能造成偏倚的方面，最好预先说明	说明任何其它的可能偏倚

注：评估偏倚时，须对同一研究中不同结局指标分别进行

对每种偏倚来源的评估均包括判断的依据和判断的结果两个部分。比如，在判断随机序列的产生方法是否恰当时，有关信息一般来自目前的研究报告，但有时则需综合有关该研究的其它报告、研究方案或评论文章，甚至通过与作者联系才能获得。根据有关信息可将偏倚风险的大小分为高风险、低风险和不明风险三级。该工具建议只关注重要偏倚。所谓“重要偏倚”，是指那些足以对试验结果或结论造成显著影响的偏倚。当然，重要与否的判断不可避免地带着主观性。对偏倚风险的评价，应由两名研究者独立地进行，并通过讨论解决不同意见。另外，判断偏倚大小时，如果有关信息缺如，或因为任何合理的原因，无法对偏倚风险的大小进行判断，通常是将其划为“不明风险”。

评价一项研究的偏倚时，对于有些因素，只需评价一次，例如随机序列的产生和随机分配方案的隐藏。而对于另一些因素，则须根据结局的特征或测量时点，分别多次地评价。例如，对于无盲法试验的偏倚，需依据不同结局测量的客观程度分别进行评价。又如，对于结局数据缺失导致的偏倚，则需针对不同时间点采集的数据，分别进行评价。对每个偏倚进行评估之后，就可以对研究的总体偏倚风险进行评价。表5是关于如何进行总体偏倚评价的建议。研究质量评价的结果可用“偏倚风险展示图”直观地表达。如图7所示，每一行代表一个不同的研究，每一列表示一种不同的偏倚类型，“+”号表示“低风险”，“-”号表示“高风险”，“?”号表示“风险不明”。条件允许时，还可以用不同的颜色，更明显地表达风险的高低。具体操作细节和判断依据可参见考科蓝综述手册。

表5. 考科蓝协作组织关于评价原始研究总体偏倚风险大小的建议

偏倚大小	含义或解释	对单一研究的判断	对系统综述里多个研究的总体判断
低	如果偏倚确实发生，也不太可能对结果造成严重影响	各种关键偏倚发生的风险都比较低	综述的大部分信息来自偏倚风险“低”的研究
不明	如果偏倚确实发生，可能会使试验的结果受到质疑	有些关键偏倚发生的风险比较低，有些则不清楚，或者全部都不清楚	综述的大部分信息来自偏倚风险“低”或“不清楚”的研究
高	如果偏倚确实发生，会对结果造成严重影响	任何一种关键的偏倚发生的风险较高	偏倚风险“高”的研究提供的信息足以影响到总体结果的真实性

注：评估偏倚时，须对同一研究中不同结局指标分别进行

三、评价其它研究类型的质量

对于队列研究、病例对照研究和横断面研究这些常见的流行病学研究类型，目前还没有一致公认的质量评价标准，但这并不是说无章可循。如前所述，对于一种特定的研究类型，研究质量主要取决于该类研究特定的偏倚控制措施以及流行病学研究一般的偏倚控制措施。广义地讲，流行病学研究的偏倚可分为三大类，即选择偏倚、信息偏倚和混杂偏倚。所以，评价观察性流行病学研究的质量，本质上就是考察它们所采取的一般的和特殊的偏倚控制措施。一般偏倚控制措施包括：准确地定义和测量各种变量，确保各组之间测量方法的可比性，合理地选择和控制混杂因素，尽量减少失访，慎重地处理资料缺失，采取措施减少观察者偏倚等。

除此之外，对于队列研究而言，可能还要特别注意随访的时间是否足够长，使得研究者能够观察到结局事件的发生？随访的方法是否恰当、有效？对于病例对照研究，则需特别注意病例是否为新发病例？根据现有的知识判断，过去暴露的时间是否在疾病发生之前（否则该暴露就不可能是该疾病的病因）？对既往暴露史的回顾是否可靠？对照与病例是否来自同一总体？如果进行了匹配，匹配因素的选择是否恰当？是否会因为匹配了太多因素而导致“过度匹配”的问题？在横断面研究中，研究对象对总体人群的代表性尤为重要，所以应特别注意其抽样方法的恰当性和调查对象的应答率。如果抽样的单位不是个体而是群组的话，还要看是否采取了恰当的方法来处理同一个群组内不同个体之间的相关性的问题。对于遗传学关联研究，则还要考察其实验方法（如DNA来源、保存方法、基因分型方法）对结果的影响，以及有无考虑Hardy-Weinberg平衡、如何处理多重比较的问题等。在拿不准应该对哪些方面进行评价或不知道所涉及的条目是否全面的时候，可以参照同类研究国际报告规范（表6），找出其中与方法学质量有关的方面，评价这些方面的实施情况及对质量的影响。

表6. 评价非随机对照试验研究的方法学质量的参考工具

研究类型	评价工具或报告规范
察性研究（队列研究，病例对照研究，横断面研究）	STROBE 声明：Strengthening the Reporting of Obser-vational Studies in Epidemiology
遗传学关联研究	STREGA 声明：Strengthening the Reporting of Geneti- c Association Studies
评价诊断试验的研究	QUADAS-2工具： A Revised Tool for the Quality Asse-ssment of Diagnostic Accuracy Studies

对于评价诊断研究的质量，目前常用的的工具是QUADAS修订版（A Revised Tool for the Quality Assessment of Diagnostic Accuracy Studies，QUADAS-2）。它从病人的选择、待评价的试验、金标准以及评价的流程和时间安排四个方面对诊断研究的方法学质量进行评价，每个方面又分为若干个小的问题，视不同情况可能会有增有减。有关详情可造访www.quadas.org网站。

四、评价研究质量的困难

目前，评价研究方法学质量的工具存在一些共同的问题。一、在应该包括哪些偏倚控制措施的问题上，没有明确一致的意见，因此不同的评价工具包括的偏倚控制措施的种类及其总数可能不同。二、每种偏倚控制措施应给以多大的权重，也没有明确一致的意见，因此，打分时不同的评价工具可能赋予同一措施不同的权重。三、在不同研究设计类型之间方法学质量区别的问题上，也没有明确一致的意见，因此，有时会出现一个随机对照试验的质量低于一个病例对照研究的情况，似乎不合理。四、研究质量评价工具依据的是研究报告的情况，但是报告的情况可能不同于实际执行的情况，有些可能做了但没有报告，有些可能没有做但报告不如实。五、所有工具评价的是“偏倚的风险”或“偏倚的可能性”。可能性高，不代表一定会发生；相反，可能性低，也不代表一定不会发生。例如，没有盲法可能出现信息偏倚，但信息偏倚不一定出现。相反，使用了盲法，有关偏倚也不一定不出现。因此，评价原始研究的方法学是必要的，但是过于追求其细节并把研究质量详细分级，既没有可靠的理论根据，也没有充分的实际需要。

第五节分析数据

与其他流行病学研究的分析一样，系统综述数据分析的基本目的是估计效应（或其他指标如诊断的敏感度和横断面研究的患病率）的大小及其可信区间。然而，即使预先设定了具体的明确的研究目的，经常还需依据比较的组合和结局指标，将研究问题进一步细化，分成数个不同的子问题，然后针对每一个子问题，进行meta分析，分别估计有关效应及其可信区间。

例如，某系统综述欲比较三种不同抗高血压药物预防心血管事件的效果，假设这三种药物分别为A、B和C。那么，就有三种不同的比较组合，即A与B、A与C和B与C，这些比较组合可能来自不同的试验，也可能来自同一个试验，都符合纳入分析的标准。显然，把所有这些不同的比较组合放入同一个meta分析进行合并是不合理的，应把它们看成独立的子问题区别对待，分别进行meta分析。其次，如果怀疑抗高血压药物在预防冠心病和脑卒中的作用上存在差异，就应该依据结局指标的不同，针对冠心病和脑卒中分别进行meta分析。为了表述方便，我们把由比较组合和结局指标联合形成的子问题看成一个独立的分析单元，每一个分析单元就需要一个独立的meta分析（参考图6）。由此可见，该系统综述有6个独立的子问题，就有6个分析单元，需要进行6个独立的meta分析。

确定了分析单元之后，下一步需要评估纳入同一meta分析的不同研究的效应估计是否存在差异。在系统综述里，有关分析被称作异质性检验（heterogeneity test）。异质性是系统综述中重要的概念。如果纳入分析的研究不存在异质性，则说明这些研究背后的真实效应可能是相同的，用一个合并的效应值代表所有研究效应的大小是合理的。合并时应采用固定效应模型（fixed-effect model）。“固定”的意思是研究背后的真实值是同一个，是固定的。否则，用一个合并的效应代表所有研究的效应是不合理的。

的确，即使比较组合和临床结局相同，不同研究真实效应的大小，还会因病人特征和治疗环境的不同而不同。比如，与安慰剂比较，某药物预防冠心病的效果在性别上可能存在差别，异质性检验就可能出现阳性结果，即疗效在研究间存在统计学有显著意义的差异。这时，就应该按照性别（或研究中男性或女性的比例）把研究分成两组（或多组），进行亚组分析，分别估计药物的效果，并对男性和女性中的效果进行比较。如果效果在男性和女性之间存在差异，临床上就应该区别对待，分别报告，并做出不同的建议。在系统综述里，这样的分析被称作亚组分析（subgroup analysis）。亚组分析是寻找异质性来源（即效应修饰因素）的重要方法。当可疑的效应修饰因素比较多时，可采用meta回归分析，以增加分析的效力。图8总结了系统综述基本分析的流程和内容。

图8. 系统综述中数据分析的思路、内容和步骤

异质性检验和探索其原因的分析是系统综述中重要的统计分析内容，也是系统综述优于传统综述的重要方面。然而，由于系统综述纳入的研究数量经常不是很多，限制了亚组分析和meta回归分析的统计效能，因此这些分析不一定能找出导致异质性的原因。当亚组分析或meta回归分析没有找到解释异质性的可疑因素时，进一步的分析选择有两种，一是使用随机效应模型（random-effect model）将所有研究合并，二是不做合并，只分别描述各个研究的特征和结果。随机效应模型假设合并的研究的真实效应的大小是不同的，并把这个不同纳入权重的计算和抽样误差的估计。因此，对于同一组研究，在总体效应估计上，随机效应模型和固定效应模型的结果多大同小异，但是随机效应模型估计的可信区间将宽于固定效应模型。

鉴于文献检索在系统综述中的重要性，在数据分析之前，需要对文献检索的途径、流程和结果进行描述，以便读者判断文献检索的全面性和可靠性。具体形式和内容，可参见图5文献筛选流程图实例。但是，即使进行了全面可靠的文献检索，也不能发现没有发表的研究，而没有发表的多是小样本的阴性的研究。漏掉小的阴性的研究，会导致高估实际的效应，由此引起的偏倚叫做发表偏倚（publication bias）（详见后文）。由于文献检索多依赖于来自文献库的已经发表了的研究，发表偏倚是系统综述的重要选择偏倚之一。漏斗图及其相关的显著性检验和调整方法是识别和矫正发表偏倚的重要参考工具。

另外，为了检验文献检索策略和方法、研究合格性标准和数据提取方法的可靠性或合理性等，经常会采取敏感性分析（sensitivity analysis），以观察局部改变这些标准和方法是否会对最后结果产生影响以及影响的大小。影响越小，说明使用的标准和方法越可靠。

关于以上分析的详情以及其他可能使用的分析方法，请参见本公众号随后即将推出的“系统综述中的统计分析”系列文章。

文章来源：第十四章: 系统综述与Meta分析. 见: 李立明主编. 《流行病学》. 第一卷. 第三版. 北京: 人民卫生出版社, 2015: 261-290. （略有改动）

（本文是全文五个部分的第四部分，未完待续）

编辑：朱影影、冯琦、傅晓红、黄蔚然

系统综述与meta分析（1/5）: 提出研究问题

系统综述与meta分析（2/5）：检索文献

系统综述与meta分析（3/5）：筛选文献及提取数据

Meta分析屡掀起医学圈讨论，它到底是何方神圣？

唐金陵：流行病学在医学研究和发展中的地位和作用

唐金陵：病因、病因模型与因果关系推断（五）

BMJ | 循证医学：一场远没有结束的医学变革