系统综述中的统计分析（3/5）：异质性及其来源

Original 唐金陵毛琛临床研究与循证医学 2022-03-25

本文是“系统综述中的统计分析”全部5集系列的第3集，之前各集的链接见下：

系统综述中的统计分析（1/5）: 分析目的和Meta分析原理

系统综述中的统计分析（2/5）: Meta分析方法的选择

第一节统计分析的目的和方法

第二节 Meta分析

第三节异质性及其来源的分析

一、异质性及其来源

二、异质性检验

三、处理异质性的方法四、探索异质性的来源第四节敏感性分析第五节发表偏倚的检测和校正第六节常见meta分析软件的介绍第七节 RevMan分析实例

第三节异质性及其来源的分析

一、异质性及其来源

有关同一问题的同一类型的研究结果绝大多数情况下是不同的。如表3所示，28篇评价尼古丁口胶戒烟效果的随机对照临床试验的比值比存在很大变异，最高可达5.31，最低可达0.70。这些差异可能由三种不同的因素引起：或然性因素、临床因素和方法学因素。无论临床因素和方法学因素是否存在，或然性因素引起的差异总是存在的，是总体变异的一个部分或全部。在meta分析里，一般把源于临床因素和方法学因素这些非或然性因素造成的变异叫做异质性，并分别称为临床异质性和方法学异质性。如果没有异质性存在，则说明不同研究间研究结果的差异主要是由或然性因素引起的，这时我们会说研究结果存在同质性。

或然性因素引起的变异系指由于抽样而引起的研究结果间的差异，因此又可以看作是抽样误差引起的变异。几乎所有流行病学研究都是某种意义上的抽样研究，即都是基于总体很小一个部分的研究。由于抽样误差的存在，不同研究的结果必然存在变异，这个变异就是或然性因素造成的。临床异质性是指研究因病人、干预措施、对照治疗、结局指标和干预环境等临床方面的不同而造成的研究间结果的变异。方法学异质性系指研究在设计种类、偏倚控制和统计分析等方法学方面的不同而造成的研究间结果的变异。研究设计的差异，如队列研究和随机对照试验的差异；偏倚控制措施的差异，如临床试验里可使用的随机分组、分组隐匿、盲法等措施的差异。

除或然性因素引起的变异外，方法学异质性和临床异质性都具有重要的实践意义。通过合并多个不同研究的数据，可以有效地增加样本含量，降低抽样误差，提高总体结果的精确度，从而减少或然性因素对总体结果的影响，这正是meta分析的基本目的。就方法学异质性而言，如果高质量的研究显示的结果不同于低质量的研究，合并的结果和结论就应该主要甚至完全依据高质量研究。就临床异质性而言，异质性的存在犹如交互作用或效应修饰作用的存在，对医学决策意义重大。例如，如果同一个药物在女性中有效而在男性中无效，那么就应该区别对待，将药物只推荐给女性，而不能做一个笼统的有效结论（即在男性和女性中都有效），这样会误导临床实践。

二、异质性检验

从抽样研究上讲，如果结果变异完全是或然性因素造成的，则变异的大小应该是有限的。换言之，在研究数量已定的情况下，我们就有足够的把握（如95%）认为，观察到的总体变异应该小于一个特定的上限值。如果观察到的实际变异大于这个上限值，则说明可能存在重要的临床和/或方法学异质性，需要进一步分析异质性的原因。否则，将没有充分的理由认为临床和方法学异质性的存在，变异主要是或然性因素造成的，用meta分析进行合并将是合理的。系统综述中用于测量一组研究结果异质性的大小并估计其完全源于或然性因素的可能性的显著性检验叫做异质性检验。异质性检验类似于其他流行病学分层分析的一致性检验，以Q检验为例，其基本原理和方法如下。

（一）异质性Q检验

在Q检验里，一组研究结果实际总变异的大小可以用以下公式测量：

w_i为第i个研究的权重值，θ_i为第i个研究的效应量，为合并的效应量。因为Q服从于自由度为k-1的χ2分布，因此如果实际总变异完全是或然性因素造成的，即不存在临床和方法学异质性，那么我们就有95%的把握肯定，实际观察到的总变异Q值将不会超过其理论变异的上限值χ2（α, df）。相反，如果实际Q大于χ2（α, df），由于或然性因素不可能引起如此大的变异，因此推测很可能存在临床和/或方法学异质性。这里，df 是自由度，等于纳入的研究的数目k-1，α为统计学检验的一类错误概率，一般定为0.05，也可以定为0.10 或0.01等。确定自由度和一类错误概率大小后，χ2（α, df）值可通过有关公式估计或从χ2分布表中获得。

一般来讲，meta分析通常纳入的研究数目较小，在这种情况下，Q检验的检验效能较低，容易出现假阴性错误，即漏检实际存在的异质性。为了提高检验效能，一般会将异质性检验的α设为0.10，而不是常用的0.05。结果判断方法如下：如果Q ≥χ2(α＝0.10，df＝k-1），则P≤0.10，提示可能存在临床和/或方法学异质性；否则，如果Q<χ2(α＝0.10，df＝k-1），则P>0.10，提示可能不存在（或尚没有足够用证据显示存在）重要的临床和/或方法学异质性。Q值越大，其对应的P 值越小，表明研究间存临床和/或方法学异质性的可能性就越大。

在使用Q检验时，应额外注意以下两点：一、当P≤0.10时几乎可以肯定异质性的存在，但未必能找到异质性的原因，但是当P>0.10时，因为Q检验效率比较低，则不能排除真实异质性存在可能性。二、使用不同的加权方法时，Q检验公式中的θ所代表的数值是不同的，具体细节如下：倒方差法中θ可为率比的对数值、比值比的对数值、率差、均数差或标准化均数差等；M-H法θ可为率比的对数值、比值比的对数值及率差；Peto法θ为比值比的对数值。

以表3中尼古丁替代疗法系统综述的数据为例，倒方差法异质性检验的χ2＝39.25，M-H法异质性检验的χ2＝39.31，Peto法异质性检验的χ2＝38.37。以M-H法为例，当一类错误α＝0.10以及df＝27时，χ2（0.10, 27）= 36.74，则M-H异质性检验的P=0.06（图1），P<0.10 ，说明研究间的结果存在显著统计学异质性。

（二）I²统计检验

异质性的大小还可以用I²表达，I²是非或然性因素引起的异质性占实际总变异的百分数，其计算公式如下：

其中Q为实际观察到变异的大小，df为自由度=（k-1），k为纳入分析研究的总数。I²统计量经过自由度的矫正，不受纳入研究数目的影响，适用于不同研究数目的meta分析。

当Q<df 时，即I²为负数时，设I²为0。当I²=0时，说明观察到的总变异主要是或然误差引起的，可能不存在非或然因素引起的异质性；I²越大，表示非或然因素引起的异质性越大，存在临床和/或方法学异质性的可能性就越大。当I² 统计量大约为25%、50%或75% 时，分别表示有低度、中度或高度异质性。或者说当I²>50%时，说明存在比较明显的异质性。

Q异质性检验和I²统计量是两个相关的方法。但是，如果以I²＝0作为判断异质性存在与否的阈值，由于与Q比较的是χ2分布的平均值（等于df），不是理论变异的上限χ2值，因此I²的检验效力或灵敏度高于Q异质性检验。同样以表3中尼古丁替代疗法系统综述的数据为例，使用M-H法时异质性检验的结果显示，I²=31%，说明纳入研究间存在低度异质性（图 1）。使用倒方差法和Peto法时，I²分别为31%和30%。

三、处理异质性的方法

异质性检验发现研究间存在显著异质性时，可按图2所示的流程对异质性进行处理，各种方法的详情见下。

图2 Meta分析异质性处理流程

（一）纠正数据的错误

有时，异质性可能是由于提取的数据或中间计算的数据的错误造成的。例如，对连续性变量来说，如果将标准误当作标准差来使用，可使各个纳入研究效应值的可信区间变得很窄，导致各个研究间的可信区间很少重叠，产生异质性的假象。

（二）改变效应测量指标

效应测量指标的选择与异质性关系很大。例如，对连续性变量来说，当不同研究测量效应时使用了不同的结局或同一结局的不同测量方法时，如选用均数差而不是标准化均数差作为效应指标，则可能错误地造成极大的异质性。对于二分类变量来说，使用比值比和率比时出现异质性的机会远远小于率差。

（三）探索异质性的来源

采取了以上措施之后，如果异质性仍然存在，这时就需要采取进一步措施探索异质性的来源。如前所述，异质性的本质是交互作用或效应修饰作用，因此其分析策略也类似，分析方法主要包括亚组分析和meta回归。同时，与流行病学分析交互作用的原则一样，一般也要求只围绕预先设定的可能影响效应的因素进行分析，而不是在知道了研究结果之后进行事后分析，因为事后分析可能产生假阳性结果，详细讨论请见本集“探索异质性的来源”部分。

（四）采用随机效应模型进行合并

当异质性存在且不能解释其来源时，可选择随机效应模型进行合并。随机效应模型常用的权重计算方法是DerSimonian and Laird法（或简称D-L法），其对应的方法是固定效应模型。与固定效应模型的倒方差法不同的是，随机模型在赋予权重时既要考虑研究内变异，又要考虑研究间的变异，即以研究内方差与研究间方差之和的倒数作为权重。假设第i个研究的效应量为θ_i，加权合并效应量θ_DL计算公式如下：

其中w_i是第i个研究的权重，即研究内方差与研究间方差之和的倒数，计算公式如下：

这里SE(θ_i)²是第i个研究的方差，是研究间的方差。研究间的方差是固定的，用于一项meta分析包含的所有研究。

加权合并估计值的标准误可由以下公式计算：

合并效应量θ_DL的95%可信区间为：

注意，当为零时，随机效应模型的权重就等于固定效应模型下倒方差法中的权重w_i。当不为零时，随机效应模型的权重将小于固定效应模型权重w_i，加权合并结果的标准误将大于固定效应模型，因此效应的点估计值一般与固定效应模型接近，而可信区间通常宽于固定效应模型。

另外，由于是一个固定值，同等地赋予于所有纳入的研究，因此会缩小研究间权重的相对差别，增加小样本研究的相对权重，降低大样本的相对权重，而且越大，研究间权重的相对差异就越小。

以表3中的尼古丁替代疗法系统综述中的部分研究为例，在采用随机效应模型合并数据时，小样本的研究较固定效应模型（I-V法）的权重有所增大，如表9中的前4个研究；而大样本研究的权重则相对变小，如表9中最后一个研究。随机效应模型合并28个研究的比值比为1.65，95%可信区间为（1.42, 1.93）。相比，固定效应模型的合并结果为1.55，95%可信区间为（1.39, 1.74）。

表9 比较固定效应模型和随机效应模型的相对权重

随机效应模型加大了小样本研究的相对权重。然而，如果小样本研究存在偏倚，如方法学质量偏低或选择性发表阳性结果，那么随机效应模型就会增加这种偏倚的影响。这时，可以使用亚组分析（见上），或围绕小样本量研究进行敏感性分析，希望小样本研究对随机效应模型的结果影响不大。

（五）放弃meta分析

有时，研究数目不大，但研究间异质性很大，如效应方向明显不一致，或可信区间互不重叠，且研究间在PICOS上存在重要差异，又无法用亚组分析或回归分析解释异质性的原因。这时，可以放弃meta分析，对不同研究分别进行描述。

四、探索异质性的来源

异质性的主要来源包括临床因素和方法学因素两个方面。临床异质性相当于传统流行病学概念里的交互作用或效应修饰作用，即关联强度或疗效大小随某些临床因素的变化而变化的现象。如前所述，交互作用具有重要的实践意义，应该尽可能探明。与传统流行病学分析原理一样，分析异质性来源的方法主要包括亚组分析（或分层分析）和回归分析。

值得注意的是，有些交互作用可能是假象，判断交互作用是否存在，须参考分析计划以及研究外的证据，才能做出正确的判断。仅目前的研究发现而言，预先计划的亚组分析的结果比无计划的事后分析更可能是真实的。就研究以外的证据而言，如果其他研究也报告了类似的交互作用，而且有关交互作用存在一定的生物学基础，那么目前发现的交互作用则更可能是真实的。

（一）亚组分析

系统综述里，按照研究的特征，如设计类型和病人特征等因素，将研究分成不同的组别，针对同一组内的研究，进行meta分析，估计合并的总体结果，并比较不同组别的合并结果是否存在差异，这种分析方法就是亚组分析。

进行亚组分析时，用以分组的因素是关键。分组的因素就是可能引起研究间异质性的原因。对于一项系统综述纳入的研究而言，可能导致它们结果差异的原因是多种多样的，主要包括临床因素和方法学因素。研究方法学因素包括研究类型（如随机对照研究还是队列研究）和偏倚控制措施（如临床试验结局测量方法、分组方法、分组隐匿、盲法、随访率、意向性分析等）。临床因素主要是与PICOS有关的因素，如病人的性别、年龄、病情轻重等，又如给药途径、剂量、总疗程等，又如结局指标的选择和治疗条件的好坏等。

在制定研究方案时，研究者须对众多可能的原因进行分析，提出最可能引起异质性的一个或几个因素，然后只针对这一个或几个预先确定的因素进行亚组分析。应尽可能避免在收集数据以后进行无计划、无目的、针对所有可能因素的亚组分析，因为非预先制定的、盲目的亚组分析很可能导致假阳性结果，当分析的因素很多时尤其如此。

系统综述的亚组分析一般是基于是原始研究特征形成的亚组。例如，按照整个研究中研究对象平均年龄或男性比例将研究划分为两组，分别估计每组的疗效，并对其结果进行比较。有时，系统综述的亚组分析是基于原始研究报告的同样亚组分析的结果。例如，很多原始研究都分别报告了治疗在男性亚组中的效果以及在女性亚组中的效果，系统综述就可以分别合并该药物在男性中和女性中的效果，并比较它们的差异。有时，亚组分析则是基于两种亚组数据。

我们把基于原始研究内部亚组进行的亚组分析叫做配对比较或直接比较，把根据研究整体特征进行分组的亚组分析叫做非配对比较或间接比较，把基于混合数据的亚组分析叫做混合亚组分析。非配对亚组分析不能排除研究间在分组因素以外因素上的区别对亚组比较的影响，而配对亚组分析的优点恰恰是排除这些因素的影响，使用的是研究直接比较的数据，因此配对亚组分析优于非配对亚组分析。亚组间“分组因素以外的因素”可分为两种，一是研究间各种影响治疗效果的因素，如病人特征和诊治条件；二是研究内病人特征上的区别。即使是配对亚组分析，也不能排除研究内在分组因素以外因素上的区别对亚组比较的影响，因为分组因素不是随机形成的。

不能有效地排除其他因素（即非分组因素）引起亚组间差异（即混杂作用）的可能性，这是所有系统综述亚组分析共有的缺点。换言之，由于研究间某些因素的区别不是随机形成的，而且同一研究内亚组的形成也不是随机的，因此系统综述亚组分析的结果属于观察性证据，都不能有效地排除混杂偏倚的可能性。然而，关于医学干预措施和其他因素间的交互作用，这些观察性证据已是可获得的最好证据，不可能有试验性的证据。

在判断交互作用存在与否时，对以下问题可做肯定回答的数目越多，交互作用存在的机会就越大：

1.亚组分析是在制定meta分析计划时而不是在分析过程中提出的吗？

2.亚组间的差异是检验的少数因素之一吗？（检验的假设数量越多，由于偶然性发现亚组间差异的概率就越大。）

3.亚组间的差异是基于直接比较而不是间接比较发现的吗？

4.亚组间的差异足够大吗？

5.亚组间的差异具有显著统计学意义吗？

6.亚组间的差异在不同的研究间一致吗？（若多个原始研究都发现亚组间存在差异且大小一致，则说明亚组间差异在多个研究间的一致性较高，可增加结果的可信度。）

7.亚组间的差异有外部证据的支持吗？

再以表3中尼古丁替代疗法系统综述的数据为例。为了探讨尼古丁替代疗法28篇研究的异质性来源，按照研究对象将原始研究分为两组：自愿戒烟组（13个研究）和应邀戒烟组（15个研究）。亚组分析显示，与安慰对照比较，该治疗的效果在两组存在明显区别，自愿戒烟组的比值比为1.86, 95%可信区间为（1.57, 2.21）；应邀戒烟组比值比为1.39，95%可信区间为（1.19, 1.61），两组显示的疗效的差别具有显著统计学意义（χ2 =6.58，df=1，P=0.01），说明该治疗在自愿戒烟人群中的治疗效果大于无戒烟意愿的人群。详情参见图 1。

（二）Meta回归分析

与分析一般流行病学数据一样，系统综述里的简单meta分析和亚组分析都可以通过回归分析完成。系统综述里的回归分析叫做meta回归，是基于集合数据的加权回归分析。回归模型一般会使用一般线性模型（general linear model）；因变量是研究效应的点估计，如比值比的对数值；自变量是用来解释异质性的因素，如上述的戒烟意愿；权重变量为meta分析中给予每个研究的权重，但不是一般的随机模型的权重，详情见下。

如果回归模型不加入任何自变量，权重设为固定模型中倒方差法的权重，那么线性回归方程的常数值就等于meta分析的合并效应，常数的标准误与95%可信区间也与meta分析结果相同。如果研究间存在统计学显著意义的异质性，应使用随机效应模型的权重作为权重变量；如果希望分析异质性的来源，可将引起异质性的可疑因素作为自变量，纳入回归方程。与一般线性回归分析相同，因变量效应值应符合或接近正态分布，各个研究彼此独立且方差齐同或接近，否则会增加统计学检验一类错误的风险。随机效应模型则只要求因变量效应值呈或接近正态分布，扩大了适用范围。

若一个meta回归中纳入了k个研究，探讨了n项可疑异质性因素，则固定效应模型meta分析的一般线性回归方程为：

随机效应模型meta分析的一般线性回归方程为：

式中y_i为第i个研究的效应点估计值，x_1i，…，x_ni 为可疑异质性因素，β₀为常数项，β₁，…，β_n为各个异质性可疑因素的偏回归系数, ε为研究间误差，η_j为第i个研究的研究内误差。

在引入自变量的meta回归中，一般都采用随机效用模型，而且只能使用倒方差法。有关meta回归和随机效应模型的meta分析（D-L法）中Q、I²、（研究间方差）以及w_i（权重）计算公式的比较见表10。

表10 Meta回归和随机效应模型meta分析中异质性检验和权重计算公式的比较

亚组分析一次可以处理一个异质性因素，meta回归则可以同时处理多个异质性因素，而且控制了纳入方程内的其它因素的混杂作用。值得注意的是，一般纳入回归分析的研究数目不能太少，最好不低于10个。由于meta分析包括的研究数目一般不大，纳入分析的异质性因素一般不应超过3~5个。

仍以表3中尼古丁替代疗法系统综述的数据为例，采用Stata中的随机效应模型meta回归，探讨戒烟意愿否是异质性的来源之一。这里以戒烟比值比的对数值为因变量（Y），戒烟意愿为自变量（X）；并设X＝0表示应邀戒烟，X＝1表示自愿戒烟。分析结果见表11。

表11 尼古丁口胶与安慰剂/不治疗组的戒烟比值比和戒烟意愿的meta回归分析

本文出处：唐金陵, 毛琛. 第三十一章: 系统综述中的统计分析. 见: 李立明主编. 流行病学. 第一卷. 第三版. 北京: 人民卫生出版社, 2015.

（本文是全文五个部分的第三部分，未完待续）

作者：

唐金陵，广州市妇女儿童医疗中心临床研究总监、香港中文大学荣休教授

毛琛，南方医科大学公共卫生学院流行病学系主任，教授

编辑：王嘉慧、黄清湄、杨佩、郑嘉臻、宋玮琦

往期回顾

系统综述中的统计分析（1/5）: 分析目的和Meta分析原理

系统综述中的统计分析（2/5）: Meta分析方法的选择随机对照临床试验（1/5）：概述
唐金陵：流行病学在医学研究和发展中的地位和作用

系统综述与meta分析（1/5）：提出研究问题

长按上方二维码关注我们

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，掌上藏品，宜藏宜礼！

系统综述中的统计分析（3/5）：异质性及其来源

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，掌上藏品，宜藏宜礼！

生成图片，分享到微信朋友圈

系统综述中的统计分析（3/5）：异质性及其来源

您可能也对以下帖子感兴趣