查看原文
其他

学途跬步 | 回归分析入门(一)——温故知新

李剑雄 走进光华 2023-09-28
Regression


回归分析入门(一)

高中数学教材回顾

Review of math textbooks

虽然各位同学尚未进入大学正式学习概率论、数理统计和计量经济学的知识,但在高中阶段的数学课程学习中,我们已经接触了回归分析最基础的内容。在进一步介绍回归之前,我们先对高中数学的回归分析进行简要的回顾和拓展,以便我们进一步了解多元线性回归、回归系数的统计推断等内容。

1. 线性相关与回归直线

在高中数学统计部分我们已经学过,两个变量之间可能存在着多种多样的相关关系,而线性相关是其中最常见的相关关系之一。我们不必对线性相关下一个严格的定义,只需通过简单的图形就可以直观地理解什么是线性相关。如果我们在直角坐标系中用轴表示自变量的值(如父亲身高),轴表示因变量的值(如孩子身高),将每个样本用坐标轴里的一个点(父亲身高,孩子身高)来表示,那么我们就可以得到散布着若干个样本点的散点图(scatterplot)。如果散点图中的点大致分布在一条直线周围,那么我们就可以认为两个变量存在着线性相关关系。我们称这条直线为回归直线(regression line)。如果这条直线的斜率为正,我们称两个变量正相关;如果这条直线的斜率为负,我们称两个变量负相关。另外,除了可视化的方法,两个变量的线性相关关系强弱还可以通过一些定量的统计指标来衡量,如Pearson相关系数、Spearman相关系数等。

既然我们发现,对于一些具有线性相关关系的变量,它们的样本点大致分布在一条直线附近,那么我们接下来当然会关心如何求得这条直线,以便让我们更加精准地得到两个变量定量的线性相关关系。事实上,我们求回归直线方程,就是想找到一条直线,距离所有样本点越近越好,也就是“从整体来看,各点与直线的距离最小”。那么,我们面对的问题是:如何衡量距离?如何考虑所有点的距离?这些问题在高中数学中已经给出了答案,我们可以用普通最小二乘(Ordinary Least Square,简称OLS)法求得回归直线方程。普通最小二乘的思想就是将每个样本点与回归直线偏差的平方值加总,作为整体偏差的衡量。为了找到最优的直线,我们当然希望所有样本点相对于回归直线的整体偏差越小越好,于是我们将求解回归方程的问题转化为了求整体偏差最小值的问题。通过微积分的方法,我们可以解决这个求最小值的问题,并显式地写出回归系数的计算表达式。

那么有的同学可能会问,衡量单个样本点距离回归直线的偏差为什么要用平方,而不能将单个点的偏差直接加总,取绝对值,或者是取更高次幂吗?直接加总当然不可行——正的偏差和负的偏差都是偏差,但在直接加总的过程中会相互抵消;取绝对值是有道理的,事实上我们也可以用最小绝对偏差的方法去求解回归方程,由此得到和普通最小二乘不一样的回归方程。然而,由于绝对值之和的最值问题求解更为复杂,没有很好的显式解,因此实际应用并不方便;而如果我们将单个点的偏差取更高次幂,那么计算也会变得更加复杂。因此,综合来看,将每个点相对于回归直线的偏差取平方后加总作为整体偏差的普通最小二乘法是一个较好的选择。当然,我们也可以看到,整体偏差的取法并不唯一,我们完全可以根据实际问题的需要规定不同形式的整体偏差,只不过普通最小二乘法是一个最常用的方法。


2. 误差项与残差

我们找到回归直线后,可以观察到这么一个现象:尽管样本点大致分布在回归附近,但一般情况下,我们几乎找不到一个样本点正好落在回归直线上。对于样本点而言,它们相对回归直线多多少少存在着一定的偏误。因此,我们的回归方程不仅要包括解释变量和截距项,还要包括一个表示这个“偏误”的项。一般地,我们的回归方程可以表示为

这里的 μ 正是上面所说表示“偏误”的项,我们将其称为随机误差(random error)或是误差项(error term)。误差项是一个随机变量(如果忘记了什么是随机变量,可以翻一下数学教材)。尽管误差项看起来变幻莫测、不可捉摸,但在一定情况下,我们还是可以把握它的性质。比如,我们可以直接规定服从正态分布;又如,在满足一定条件的情况下,如果样本量足够大,近似满足正态分布。这样,我们就将一个貌似神秘的“黑箱”变成了性质明确可以研究的对象,进而可以借此研究回归方程的其他课题。

与误差项相关的一个概念是残差(residual)。事实上,残差与上一节提到的“单个样本点相对回归直线的偏差”本质上是同一个东西,也即一个样本点的横坐标对应真实值(这个点本身的纵坐标)与横坐标对应的回归方程拟合值之差。

线性回归的残差

未完待续,请期待下一期

作者 | 李剑雄

审核 | 王宇 雍政祺

排版 | 念思辰 江垚伶

特别鸣谢光华本科研究生项目办公室


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存