读一篇Meta分析时,我们要思考哪些问题?
假设我们想知道某种治疗手段是否有效,找到了一篇比较该治疗手段和常规治疗的系统综述和Meta分析的文章,研究表明,新的治疗手段要比常规治疗有效。问题来了,这个研究的结果是否可靠?我们是否有足够的把握相信这个结果并用于治疗患者呢?
当我们想要回答一个临床问题时,通常会倾向于先查看系统综述类证据,尤其是含Meta分析的系统综述,因为这往往比单个研究的结果要更可靠。在证据十分不一致的时候,Meta分析提供的证据有助于我们判断某种治疗方法究竟有效与否。
但Meta分析的优势是建立在其高质量执行的前提下的,一个不严谨的Meta分析得到的结果可能会与真实结果相悖,从而错误地诱导临床实践者。那么,我们要如何判断一个Meta分析是否有参考价值呢?
在系统综述与Meta分析的使用指导《How to read a systematic review and meta-analysis and apply the results to patient care》中,提出了两方面的主要评判标准:综述的可靠性和结果估计值的把握度。
综述的可靠性
综述的可靠性指什么?评判可靠性的标准都有什么?
可靠性是指研究结果接近真实的程度,或通过严格设计和实施的研究能尽可能避免偏倚的程度。这种偏倚是系统误差,就算纳入的研究异质性很小,结论趋于一致,但也可能因为所有的研究都存在缺陷而导致得出的结果不可信,因此尽量减少偏倚才能最大化地保证研究的可靠性。
Meta分析是在综述的基础上进行的量化分析,Meta分析其实是综述的一部分,因此综述的纳入条件是否合适、检索是否全面、结论是否正确等,对这篇综述是否真实可靠至关重要。Meta分析的各个阶段都有可能发生偏倚,可能的偏倚的来源可能有:
1. 综述是否明确了研究的研究对象、干预措施、对照措施和结局(PICO)
如果研究范围设置的太宽泛,可能很难对临床实践有指导意义,比如一项针对胃癌所有治疗措施有效性的Meta分析,这样的研究得出的结论是没什么意义的,因为我们仍然不知道哪种治疗措施是有效的。
2. 综述的文献检索是否穷尽
如果只在某一个或几个搜索引擎中简单检索的话,很难包含所有相关的研究。而如果纳入的部分研究无法代表所有研究的话就会产生选择偏倚,影响总结果的可靠性。
3. 综述的纳入结果是否是可重复的
虽然在研究设计的部分制订了纳排标准,但是也不能完全排除调查员主观判断的影响,所以是否进行了双人重复录入或报告了两人的判断一致率(κ值)是检验综述可靠性的一个方面。
4. 综述的结果是否可以在临床应用
作者可以通过提供不同风险水平的人的绝对风险值来指导临床治疗决策。例如,一个人的心血管事件风险为2%,另一个人为28%,我们可以根据其基线风险和Meta分析得到的他汀治疗可以减少25%的相对风险,计算出每个人可以降低的绝对风险,分别为0.5%和7%。连续变量的结果也可以用于指导临床,如果有切点则会更好地解释结果,若所用切点为临床常用,则更利于医生理解。
5. 综述是否提供了结果估计值的把握度
如果没有检验研究的偏倚风险和异质性问题的话,将影响读者对结果的进一步理解。
结果估计值的把握度
通过以上几条标准,我们首先检验了综述的可靠性,假如其可靠性良好,那么我们就可以接着上述第5条标准,展开看Meta分析给出的结果估计值的把握度如何。
一般常用来评价证据等级的标准是GRADE,分为四等:高、中、低和非常低。GRADE评价流程从研究类型开始,RCT的质量高于观察性研究,接着再根据五个方面(偏倚风险、不一致性、间接性、不精确性、报告偏倚)来降低其质量等级,三个方面(效应量大、剂量-反应、所有可能的混杂因素)来升高其质量等级,详见下表。
无论研究是否按照GRADE标准来进行,读者都可以用其标准来衡量一个研究的质量。但这其中至少要包括一些必要的信息,来帮助读者判断研究结果的把握度。具体包括以下几个方面:
1. 研究证据中的偏倚风险多大
一篇好的系统综述应该提供纳入的每个研究的偏倚风险。不严谨的研究可能会高估治疗或预防措施的效应。最好能够评估和报告每个纳入研究的每个重要结局的偏倚风险。评估偏倚的方法不唯一,作者可自行选择。不同的研究类型使用不同的量表,比如RCT可使用Cochrane偏倚风险评估工具,而观察性研究可以使用NOS量表。如果总的偏倚风险较大的话,估计值的把握度会降低。
2. 不同研究间结果是否一致
不同研究结果的异质性通常用森林图来展示,如果点估计值差异较大且其置信区间不重叠,则表明随机误差可能无法解释结果的差异,因而降低了总体估计值的把握度。
异质性检验之一是Cochran's Q检验,其无效假设是每个研究中的相对风险没有差异,假如P值小于检验阈(如0.05),则说明所有研究结果不一致,结果估计值的把握度降低。另一个指标是I2统计量,它反映了研究结果的变异程度,I2=0%代表变异是随机误差造成的,随着I2的增加,结果变异度越大,随机误差则变得越难以解释结果的差异。
而假如发现了异质性问题,则可以通过交互作用来检验哪些亚组间存在差异,若P值小于检验阈(如0.05),则说明存在亚组效应,然后再分亚组总结和展示结果。另外一个探索异质性原因的方法是Meta回归,自变量是研究的特征(如研究人群、干预方法等),因变量是每个研究的效应估计值。
研究的异质性很有可能在很大的程度上是没有办法解释的,需要未来的研究继续探索,但临床医生和患者还是应该最大限度地利用现有的研究证据来指导临床治疗,尽管其把握度可能有限。
3. 结果的精确性如何
通常情况下,一个研究的样本量越小,其随机误差就越大,其得出的结果就越不精确。在Meta分析中,会提供所有研究合并的点估计值和相应置信区间,而置信区间可以反应其精确性。可根据每个患者情况(处于置信区间的上界或下界)来建议治疗方案,如果上下界均在一侧,则提示结果的精确性良好,但若二者不在一侧,则会降低结果的把握度。
4. 结果是否可以直接应用于我的患者
当一个Meta分析选用的人群、干预措施、结局并不是我们关心的,或者说直接应用的价值低,则称这样的研究是间接的、不直观的。比如说将排除60岁以上的人进行的研究结果应用于60岁以上的患者,其估计值的把握度会降低。
5. 是否存在报告偏倚
当一个研究的结果全部都没有发表时,我们称之为发表偏倚,而如果一个研究的某些结果没有发表,我们称之为报告偏倚。研究表明阳性结果更容易被发表,所以假如存在报告偏倚的话,那么研究结果可能会偏离治疗措施真实的效应。
在含有Meta分析的综述中,发表偏倚的情况通常用倒漏斗图来展示。假如发表偏倚不存在或很小,那么倒漏斗图随合并效应值的分布应该是对称的,如图1A所示。其中空白的间隙表明未进行相应研究或研究结果未发表,如图1B所示。除此之外,最有力的方法是获得未发表的研究结果,并将其与发表的结果进行比较。
6. 是否有其他的可以增加结果把握度的理由
在某些特殊的情况下,如未经治疗患者的病情会发生不可逆的恶化时,治疗措施的把握度可以升高。例如对肾衰终末期的病人进行透析治疗,通常可以在短期内观察到很大的治疗效应,这种较大的效应会增加真实关联的把握度。
参考文献
1. Murad M H, Montori V M, Ioannidis J P, et al. How to read a systematic review and meta-analysis and apply the results to patient care: users' guides to the medical literature[J]. Jama, 2014, 312(2):171.
2. Oxman AD. Checklists for review articles. BMJ.1994;309(6955):648-651.
3. Balshem H, Helfand M, Schunemann HJ, et al. GRADE guidelines, 3: rating the quality of evidence. J Clin Epidemiol. 2011;64(4):401-406.
相关阅读
关注医咖会,涨姿势!
我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。