回归分析(OLS)表格简易阅读指南 | 学科教学
编者按
为了帮助社会科学初学者和社会大众从更好的信息来源中获得更正确且完整的信息,我们特此编译了本批文献。这批文献均是从国外知名大学研究方法课程大纲的阅读文献中精心挑选,首批包括了简易的文献阅读指南、阅读统计回归表格的有用提示、如何认知科学研究的证伪性、评估科学研究的可重复性等等。我们希望,初学者们和社会大众通过阅读这批文献,能够对科学以及科学研究建立初步的正确认识(而不仅限于社会科学),提升信息辨别能力。
在之前,我们已经推送了有关科学文献阅读的方法指南,今天我们继续推送阅读统计回归表格的简易阅读指南。社会科学初学者或是门外汉,总是对学术文献中纷繁复杂的数据统计表格望而生畏。在翻开文献时,初学者们往往会想,“啊,我的高数并不好”、“为什么学文科还要读这些”、“看到数字,我的头好痛!”。数学和统计学一向是我国高考文科生的短板,而社会科学研究者的最大来源便是文科生们。那么,如何绕过复杂的数学公式和统计学原理阅读统计表格呢?我们今天这篇文献提供了一个简易指南。值得强调的是,本篇文献是以量化方法中运用最为广泛的最小二乘法(OLS)回归为例,向读者展现了统计表格中的基本元素。如果想要了解更多量化或质性方法的细节,可以继续关注我们的后续推送。
回归(OLS)表格简易阅读指南
(原标题为:《阅读回归表格要知道的10件事(10 Things to Know About Reading a Regression Table)》,现标题为译者所拟)
作者:
Abby Long, EGAP
编译:
焦磊,山东大学
本指南旨在提供基本信息,帮助您理解如何解读社会科学研究中普通最小二乘(OLS)回归的结果。该指南侧重于回归分析,同时也会讨论诸如置信区间等一般概念。
下表将贯穿本方法指南的始终,它改编自EGAP成员Miriam Golden、Eric Kramon及其同事(J. Asunka et al., “Protecting the Polls: The Effect of Observers on Election Fraud”)的研究。作者们在2012年于加纳进行了一项实地实验,以检验国内选举观察员在对抗两种常见的选举舞弊问题——选票填充和超额投票中的有效性。选票填充是指在投票箱中发现的选票数量多于已知分发给选民的数量。超额投票则是指在一个投票站投出的票数超过了注册选民的数量。此表报告了他们实验中的一项多元回归分析结果(这一概念将在下文进一步解释),该分析探讨了国内选举观察员对选票填充影响。样本包括了2004个投票站。
1. 什么是回归?
回归分析(Regression)是一种计算最佳拟合线的方法。回归线利用“自变量”来预测结果或称为“因变量”。因变量代表输出或响应。自变量则表示输入或预测因素,是那些被测试是否能预测结果的变量。
自变量和因变量有许多同义词,因此熟悉它们很有帮助。它们也被称作解释变量和反应变量、输入变量和输出变量、右手边变量和左手边变量、说明项和被说明项、回归因子和回归对象、预测变量和标准变量等。当你看到一个回归表格时,首先要做的就是确定因变量是什么——这通常写在列的顶部。之后识别最重要的自变量。你的解释将基于这些变量。
回归分析中的正向关系意味着自变量的高值与因变量的高值相关联。负向关系则意味着在自变量上具有高值的单位往往在因变量上具有低值,反之亦然。回归分析可以用于估计或检验许多不同的关系。你可能运行一个回归模型来预测平均而言,每增加一年的教育,人们的收入会增加多少,或者预测基于在某项运动中练习的小时数成功的可能性。
下面我们将详细讨论回归表格的输出。为x和y填入值,然后观察最佳拟合线如何变化以捕捉x和y之间的平均关系。随着线的变化,回归表格中的关键信息也会相应改变。
2. 什么是回归方程?
这是仅包含两个变量的回归分析公式:
Y=α+βX+ε
方程左边的Y是因变量。α或Alpha系数代表截距,即图表中直线与y轴相交的点,即当X等于0时Y的预测值。β或Beta系数代表斜率,表示因X每增加一个单位,Y的预测变化量。
这一切都是围绕Beta系数展开的。Beta系数代表当自变量增加时,选票填充率增加或减少的程度。例如(见表格),观察员的存在每增加一个单位,选票填充事件就减少0.037个单位;而竞争每增加一个单位,选票填充则增加0.019个单位。请注意,这里假设了一种线性关系(尽管不同的模型可以放宽这一假设):当X增加一定量时,Y相应地增加或减少一定量。ε是误差项,代表不能由X与Y之间的线性关系解释的Y的剩余变动部分。
在我们的数据中,我们可以观察到Y和X,但无法直接观察到ε。α和β系数是参数——是我们利用数据来估计的未知量。
含有一个因变量和多个自变量的回归称为多元回归。这种类型的回归非常常用,是一种使用多个自变量来预测因变量值的统计工具。自变量可以包括二次或其他非线性转换:例如,如果因变量Y是收入,我们可能会将性别、年龄及年龄的平方作为自变量包括进去,在这种情况下,Y与这三个回归因子之间所谓的“线性”关系实际上允许了与年龄的二次关系的可能性。
上述示例表格考察了因变量——以选票填充形式出现的欺诈行为——是如何与以下因素/自变量关联的:选举观察员、地区的饱和度、该地区的选举竞争程度以及人口密度。回归分析将展示这些自变量中是否有任何一个有助于预测因变量。
3. 回归的主要目的是什么?
回归分析可以出于多种不同目的进行,包括但不限于:(1)提供结果变量如何随解释变量变化的描述性总结;(2)给定解释变量的一组值时预测结果;(3)估计描述生成结果过程的模型参数;(4)研究因果关系。正如Terry Speed所写,回归的“核心”教科书方法“在这些情况下都不太可能是正确的方法。无论是考虑回归还是进行其他任何统计分析,明确问题都是非常必要的。”
对于描述性总结,普通最小二乘法(OLS)回归在狭义的技术层面上完成了任务:OLS向我们展示了最佳拟合的线性关系,其中“最佳”定义为使残差平方和(实际结果与从解释变量预测的值之间的差异)最小化。此外,如果我们有一个足够大的随机样本,且该样本是从一个大得多的总体中抽取的,OLS可以估计总体中的最佳拟合线,并且我们可以使用估计的系数和“稳健”的标准误差来构造系数的置信区间(参见第5节)。然而,OLS提供的摘要可能忽略了数据的重要特征,如离群点或非线性关系。
类似地,对于预测而言,OLS回归给出了样本中最佳的线性预测器,如果样本是从更大的总体中随机抽取的,OLS是一致估计总体最佳线性预测器的方法。然而,(a)从特定一组回归变量得出的最佳线性预测器可能不是可用数据可以构建的最佳预测器,(b)在我们的样本或类似群体中效果良好的预测在其他群体中可能表现不佳。
估计模型参数(estimating the parameters of a model)是传统教科书中讨论最多的目的。然而,研究因果关系往往是回归分析的真实动机。许多研究者使用回归进行因果推断,但并不关心回归模型的所有参数。为了估计一个特定解释变量(处理因素)对结果的平均因果效应,研究者可能会将结果对处理指标以及其他被称为协变量的解释变量进行回归。协变量被包含进回归中以减少偏差(在观察性研究中)或方差(在随机实验中),但协变量上的系数本身通常不是研究兴趣所在。在观察性研究中,要使回归能得出关于处理效应的有效推断需要较强的假设,而在随机实验中则可能需要较弱的假设。
4. 什么是标准误、t值、p值和自由度?
4.1 标准误
标准误(Standard Error,简称SE)是对估计系数的标准差的一种估计。它通常显示在回归表中系数旁边或下方的括号里。可以将其视为衡量我们对系数估计精确度的一个度量。SE越小,我们对系数的估计就越精确。SE之所以重要,主要是因为它能够帮助构建置信区间(Confidence Intervals,简称CIs)和显著性检验。一个常用的粗略规则是,在样本量相当大时,95%置信区间的误差范围大约是SE的两倍。然而,明确计算置信区间更为可取。我们将在下一节更详细地讨论置信区间。
Asunka等人提供的上表展示的是“稳健”标准误,它们在大样本中具有吸引力的特性,因为在某些回归模型假设被违背的情况下,它们仍然保持有效。“传统”或“经典”标准误所依赖而稳健标准误放松的关键假设是:(1)给定X条件下Y的期望值是X的线性函数;(2)Y的方差不依赖于X(条件同方差)。稳健标准误假设(除非进行了“聚类”)观测值在统计上是独立的,或者处理是随机分配给观测单位的(例如本例中的投票站)。
4.2 t值
t值(在示例表格中以方括号表示)是估计系数与其标准误的比率。t值通常出现在回归程序的输出中,但在发表的回归表中往往被省略,因为它们只是构建置信区间和显著性检验的工具。
4.3 p值与显著性检验
在上表中,如果一个估计系数(以粗体显示)带有一个或多个星号,这意味着估计在1%,5%,或10%的水平上是“统计上显著的”——换句话说,p值(来自零假设的双侧检验,即真实系数为零)低于0.01、0.05或0.1。
计算p值时,我们通常假设你用来运行回归的数据是从某个更大的总体中随机抽取的样本。然后我们想象你多次重新抽取新的随机样本并为每个新样本运行你的回归。(或者,我们也可以想象多次随机分配某种处理)这个过程会产生估计值和t统计量的分布。基于这个分布,p值捕捉了在真实系数为零的情况下,t统计量的绝对值至少与你实际观察到的值一样大的概率。如果p值大于或等于某个传统的阈值(如0.05或0.1),那么该估计在5%或10%的水平上是“统计上不显著的”。根据惯例,统计上不显著的估计被认为不是真实系数不为零的证据。
在表中,唯一在任何常规水平上统计显著的估计系数是截距(标记为“常数/截距”,因为在回归的代数中,截距是常数1的系数)。截距是在解释变量值全为零时结果变量的预测值。在这个例子中,真实截距是否为零的问题并没有特别的意义,但表格为了完整性报告了显著性检验。研究问题关注的是观察员对选票填充的影响(如表头所示)。对“观察员在场(Observer Present, OP)”的估计系数是主要关注点,但它在统计上并不显著。
p值和显著性检验容易被误解。许多学者认为,尽管显著性检验作为约束手段有时很有用,但它们经常被过分强调。
4.4 F检验与自由度
表格的底部包含一行,标题为“F(5, 59)”,其值为1.43(F统计量)以及p值0.223。这个F检验是用来检验零假设的,即回归系数的真实值(除了截距外)都为零。换句话说,零假设是没有任何解释变量实际上有助于预测结果。在这个例子中,与F统计量相关的p值为0.223,因此在任何常规的显著性水平上都没有拒绝零假设。然而,由于我们主要关心的是观察者效应,所以在这种应用中F检验并不是特别有趣。(我们已经知道,“观察员在场”的估计系数如前所述在统计上并不显著)
括号中的数字5和59代表F统计量公式中分子和分母的自由度(degrees of freedom, df)。分子自由度(5)是零假设声称等于零的参数数量。在这个例子中,这些参数就是表中所示的5个解释变量的系数。分母自由度(59)等于样本量减去总估计参数的数量。(在这个例子中,样本量为2,004,表中仅显示了6个估计参数,但回归还包含了用于分块的许多选区虚拟变量。)
5. 置信区间的含义
置信区间(Confidence Intervals,简称CIs)经常在社会科学的研究论文中被报告,偶尔也会在回归表中展示。它们传达了估计中的一些不确定性:例如,“观察员在场”系数的点估计是一个具体值,-0.037,但置信区间(计算为点估计加上或减去一个误差边际)是从-0.09到0.01的值范围,意味着这个范围内的任何值都与数据相容。(换句话说,有观察员在场可能导致选票填充率降低了9个百分点,或者实际上可能增加了1个百分点,或者效果可能在这两者之间。)置信区间的覆盖概率(或置信水平)是指置信区间包含参数真实值的概率。报告的置信区间通常具有名义上的(声称的)95%的覆盖概率,因此它们被称为95%的置信区间。
覆盖概率(Coverage probabilities)很容易被误解。在示例表格中,(-0.09, 0.01)是观察员对选票填充影响的95%置信区间。这并不意味着真实影响有95%的概率落在-0.09和0.01之间。这类陈述可以在贝叶斯统计中做出(通过后验区间,也称为可信区间),但置信区间是频率主义统计学的一个构造。覆盖概率回答了以下问题:设想我们可以大量复制实验,而且从一个复制到另一个复制唯一变化的是哪些单位被随机分配接受处理。每次复制时,观察员的效果是固定的,但置信区间的端点是随机的。例如,如果真实效果是-0.02,那么在每一次复制中它都是-0.02。但由于每次复制时不同的单位被随机分配接受处理,我们可能在实验的三次复制中看到以下置信区间:(-0.10, -0.01),(-0.03, 0.03),和(0.00, 0.10)。第一个和第二个置信区间捕获了真实值-0.02,但第三个错过了。名义上的95%的覆盖概率意味着在一百万次复制中,大约有950000个置信区间会捕获-0.02的真实值。这是关于我们报告一个范围的方法的事前可靠性声明,而不是关于事后真实观察员效应在-0.09和0.01之间概率的声明。
Greenland等人对置信区间的益处、限制及常见误解进行了有益的讨论。他们指出,“许多作者同意置信区间优于检验和P值,因为它们允许人们将注意力从零假设转移到与数据兼容的全部效应大小范围上——这是许多作者和越来越多期刊推荐的转变。”然而,“置信区间的计算基于许多假设,这些假设的违反可能导致了结果。因此,是数据与假设的结合,再加上任意的95%标准,才需要宣称效应大小在区间之外在某种程度上与观察结果不兼容。即便如此,像说效应大小已经被反驳或排除这样的极端判断还需要更强的条件。”
CONSORT解释和阐述文件指出,在医学领域,“许多期刊要求或强烈鼓励使用置信区间。”在社会科学中,置信区间并不总是明确报告;一些作者只报告点估计和标准误。如果t值分布的自由度被报告,具备足够技术背景的读者可以自行构建置信区间(尽管显然作者明确报告置信区间会更有帮助)。在我们的示例表中,t值的自由度与F值的分母自由度(59)相同。为了构建95%置信区间的误差边际,我们把标准误乘以适当的临界值,即具有59个自由度的t分布的0.975分位数,约为2.001(在R中,使用命令qt(.975, df = 59))。因此,我们在SEs部分提到的经验法则(“95% CI的误差边际大约是SE的两倍”)在这里适用得很好。然而,如果我们只有,比如说,20个自由度,合适的临界值将大约为2.09,而95%的置信区间应该比经验法则建议的更宽。
6. 注意“研究者自由度”
回归表中报告的标准误、p值、显著性检验和置信区间通常假设,如果结果数据呈现出不同的模式,或者(在随机实验中)不同的单位被随机分配到处理条件,研究人员将会做出所有相同的分析决策(包括哪些观测值和变量进入回归、检验哪个假设等)。如果所有这些决策都是在研究人员查看任何结果数据或处理分配之前预先指定的,那么这个假设是可信的。否则,研究人员可能会做出有意识或无意识地偏向期望结果的决定。这个问题被称为“数据挖掘”、“研究者的自由度”或“分岔路径的花园”。
Joseph Simmons、Leif Nelson和Uri Simonsohn在一篇既有教育意义又有趣的论文中,通过模拟以及实际实验表明,研究者自由度如何容易使显著性检验失效。在模拟中,他们展示当研究者在分析哪个结果、何时停止招募受试者、如何建模协变量效应以及将哪些处理条件纳入分析方面拥有无限的自主权时,一个声称具有5%第一类错误概率(假阳性率)的显著性检验很容易被调整到实际上具有高达61%的第一类错误概率。换句话说(正如论文标题所述),“数据分析与收集中的未公开灵活性使得任何事物都能被呈现为显著”。Simmons等人在实际实验中允许自己在数据收集和分析上有无限的灵活性,最终得出了一个必然是错误的结论,即听披头士乐队的歌曲《当我六十四岁》让受试者“年轻了将近一年半”,其p值为.04。
一种补救措施是要求研究人员在查看结果数据(理想情况下,在分配处理之前)预先指定并公开存档他们在数据收集和分析方面的决策(例如,停止规则、结果度量、协变量、回归模型、样本排除和子群体定义)。这些决策的文档被称为预分析计划(Pre-Analysis Plans,PAPs)。PAPs的批评者担心它们会抑制探索性数据分析。支持者则认为,偏离计划并不被禁止,但应完全披露并突出显示,以便帮助读者区分探索性和确认性分析。
7. 注意其他可能的偏差
仅仅因为你使用回归来估计关系,并不意味着你所估计的关系真正抓住了你感兴趣的那类关系。以下是需要留意的一些可能产生偏差的来源:
选择偏差(Selection bias)可能出现在样本中被选中或接受处理的个体与未被选中或未接受处理的个体之间存在系统性的、未被测量的特征差异时。换句话说,选择偏差可以涉及两个担忧之一:
如果处理是由除随机分配之外的某些过程决定的(例如,如果对象自行选择接受处理),那么接受处理的对象可能在影响结果的方式上与未接受处理的对象有所不同。这种差异很容易导致基于结果对处理进行回归时出现偏差,即使将对象的已测量特征作为协变量包含在内,也会如此,因为处理和未处理对象可能在未被测量的方面存在差异。
如果纳入回归分析的样本并非来自感兴趣人群的随机样本,则回归分析可能对结果与解释变量之间的人群关系给出有偏估计。
损耗偏差(Attrition bias)是选择偏差的一种形式,当原始样本中非随机的一部分缺失了结果数据时就会发生。在治疗效果的研究中,如果治疗可能影响了损耗(即结果数据的丢失),损耗偏差尤其难以解决:当接受和未接受处理的对象之间的损耗率或模式不同时,即使是随机实验也可能无法为任何人群提供无偏的治疗效果估计。参见我们的缺失数据指南了解详情。
同样,如果处理影响了结果的测量,随机分配创造的对称性就会受到威胁,即使在随机实验中,估计的处理效应也可能是有偏的。
对可能受到处理影响的协变量进行调整会导致偏差。
发表偏差(Publication bias),也称为文件抽屉问题,指的是整项研究未被发表,这并非因为它们的质量低于同一主题的其他研究,而是因为它们的结果性质(例如,因为结果被认为并不出人意料,或者因为它们没有达到统计显著性的传统阈值)。正如Robert Rosenthal在其经典文章中所写:“‘文件抽屉问题’的极端观点是,期刊上充斥着显示第一类错误的5%的研究,而文件抽屉里塞满了显示非显著结果的95%的研究。”
8. R²是什么意思
R²(Coefficient of Determination,决定系数)是衡量回归模型解释因变量变异程度的一个统计量。具体来说,它表示通过自变量预测得到的因变量值的变异(离差平方和)占实际观测到的因变量总变异(总离差平方和)的比例。R²的数值越大,说明回归模型对数据的拟合度越好,即模型预测值与真实值之间的差异越小。这表明自变量在多大程度上能够“解释”因变量的变化。
然而,尽管R²是评估模型性能的一个重要指标,但它并不能全面反映模型的所有特性。一个高R²并不总是意味着模型是好的,尤其是当模型过拟合(fitting noise rather than the underlying pattern)时;反之,低R²也不一定代表模型无效,特别是当研究的领域本身就具有高度不确定性或者自变量与因变量关系复杂时。
Anscombe四重奏是一个经典的例子,展示了四个数据集虽然有着相同的均值、方差、相关系数以及R²值,但是其数据分布和图形却截然不同,从而强调了仅依赖单一统计量(如R²)来评价模型或数据关系的局限性。这提醒我们在分析时还需要考虑其他统计量和图形展示,以更全面地理解数据和模型的特点。
【补充知识】Anscombe四重奏是由统计学家Francis Anscombe在1973年设计的四个数据集,用以展示在数据分析中绘制数据的重要性,以及异常值和其他有影响力观测值对统计特性的影响。尽管这四个数据集拥有几乎相同的简单描述性统计量(如均值、方差、相关系数和线性回归的斜率、截距及R²值),但它们的分布情况和图形表示却截然不同。每个数据集都包含十一个(x, y)数据点。
Anscombe四重奏的每一个数据集都揭示了一个关键点:
第一个散点图(左上)展示的似乎是一种简单的线性关系,对应于两个相互关联的变量,其中y可以建模为关于x线性相关的高斯分布。
第二幅图(右上)中,尽管两个变量之间的某种关系显而易见,但这种关系并非线性的,皮尔逊相关系数在这里并不适用。采用一种更广泛的回归模型及其相应的决定系数会更加合适。
第三幅图(左下)中,建模的关系是线性的,但实际上应该有一条不同的回归线(在这种情况下,采用稳健回归会是更好的选择)。计算出的回归线被一个离群点所偏移,这个离群点施加了足够大的影响,使相关系数从1降到了0.816。
最后,第四幅图(右下)展示了一个例子:仅凭一个高杠杆点就足以产生较高的相关系数,即便其它数据点并未显示出变量间有任何关系。
Anscombe通过这些数据集强调,仅凭数值统计量无法完全揭示数据的内在结构和特点,直观的图表展示对于理解数据关系至关重要。他的这一工作反驳了当时统计学界中普遍存在的“数值计算是精确的,而图表是粗略的”这一观念,推动了对数据可视化在统计分析中作用的认识。
9. 在比较系数时要小心谨慎
如果一个系数比另一个大,这是否意味着结果对该解释变量更敏感?并非如此——系数的解释取决于变量所采用的度量尺度。如果你将一个解释变量从英尺转换为英里,其系数会变大很多,但这并没有实质改变解释变量与结果之间底层的关系。因此,在比较不同变量的系数时,必须考虑它们各自的度量单位和尺度,直接的数值大小对比并不直接等同于效应的相对重要性。
10. 认识整个回归家族
迄今为止,本指南主要聚焦于普通最小二乘回归,这是社会科学中最常用的估计方法之一。实际上,还有许多其他回归方法,包括加权最小二乘回归和广义最小二乘回归,以及针对受限因变量的各种非线性模型——这些因变量的取值范围有限,比如二元(0/1)、分类(A、B、C,...)或计数(0、1、2,...)结果。
当误差项ε的方差在不同观测值之间变化,并且可以作为一个或多个预测变量的函数来建模时(这被称为异方差性,通常表现为此图所示的样子),研究者可能会使用加权最小二乘回归。
如果因变量是二元的,即只有两种可能的值:是/否、0/1或真/假,你可能会看到逻辑回归(logit)或序贯概率比率回归(probit)。逻辑回归和序贯概率比率回归在关于数据生成过程的基本假设上有所区别,但它们常常得出相似的结果。
对于具有多个有序类别的结果(如“非常不同意”、“不同意”、“同意”、“非常同意”),可以使用有序逻辑回归(ordered logit)和有序序贯概率比率回归(ordered probit)模型。
对于具有多个无序类别的结果(如“工党”、“保守党”、“自民党”),可以使用多项逻辑回归(multinomial logit)或多项序贯概率比率回归(multinomial probit)模型。
当结果是一个计数(如“今年发生了多少起暴乱”)时,可以使用泊松(Poisson)或负二项(Negative Binomial)模型。
对于非负结果(如“本月工作了多少时间”),有时会使用托比特(Tobit)模型。
还有很多其他的模型。
在简单的线性情况下,系数告诉你每单位X变化引起的Y的变化量,但对于非线性回归,系数的解释可能要复杂得多。对于非线性模型,一般应期待作者提供系数的实质性解释。
(因篇幅限制,参考文献从略)
〇 编辑、排版:焦磊
〇 审校:郭瑞涵 大兰