其他
只懂线性回归?来看看贝叶斯回归和高斯过程回归
作者丨Young Zicon@知乎,转自丨极市平台
来源丨https://zhuanlan.zhihu.com/p/350389546
目录
一、线性回归
1.1 最小二乘估计的矩阵推导 1.2 最小二乘估计的概率视角 1.3 正则化最小二乘估计的矩阵推导 1.4 正则化最小二乘估计的概率视角 1.5 总结 二、贝叶斯线性回归
2.1 inference 2.2 prediction 三、高斯过程回归
3.1 高斯过程 3.2 权重空间角度看高斯过程回归 3.3 函数空间角度看高斯过程回归 3.4 高斯过程回归的补充说明 四、参考链接
注:本文仅做数学上的推导,具体python代码实现后续有空再补上。
一、线性回归
1.1 最小二乘估计的矩阵推导
1.2 最小二乘估计的概率视角
1.3 正则化最小二乘估计的矩阵推导
正则化一般有L1正则和L2正则,这里仅以L2正则为例。
直观上理解,当特征数量 很多的时候,很容易存在冗余的情况,因此 , 不可逆。
1.4 正则化最小二乘估计的概率视角
当先验是高斯分布时,推导的结果是 L2 正则; 当先验是拉普拉斯分布时,推导的结果是 L1 正则。
当 先验是高斯分布时,推导的结果是 L2 正则;当先验是拉普拉斯分布时,推导的结果是 L1 正则。
二、贝叶斯线性回归
上面提到的线性回归,是从点估计的角度出发,将 都当作未知的常数,进而将问题转化为优化问题;这一节所提到的贝叶斯线性回归,将 都当作未知的随机变量。贝叶斯推断往往分为两步:inference 和 prediction,inference 阶段是基于贝叶斯公式,推导出参数 所服从的分布;prediction 阶段是基于推断出来的参数分布 ,对目标分布 进行预测。
2.1 inference
若不考虑噪声,即模型为 ,则由高斯分布的性质,有 ;若考虑噪声,即模型为 ,则由高斯分布的性质,有 。
三、高斯过程回归
3.1 高斯过程
定义在连续域(时间/空间)上的无限多个随机变量所组成的随机过程:[0,100]这个区间对应无数个时刻,每个时刻对应一个随机变量,因此“人生”这一随机过程由无限多个随机变量构成; 每个随机变量都服从高斯分布:单独看每一个时刻,其对应的随机变量都服从高斯分布,如上图的绿色线所示; 若干个随机变量的联合分布仍然是高斯分布: 的联合分布仍然是高斯分布。
一个高斯过程由一个均值函数和协方差函数(也称为核函数)唯一确定。 从时间域看高斯过程:时间轴上的每个时间点 对应一个随机变量 ,该随机变量服从高斯分布,若干个这样的随机变量的联合分布仍服从高斯分布,所有的这些随机变量的联合构成了高斯过程;从空间域看高斯过程:空间中的每个点 对应一个随机变量 ,该随机变量服从高斯分布,若干个这样的随机变量的联合分布仍服从高斯分布,所有的这些随机变量的联合构成了高斯过程;即
3.2 权重空间角度看高斯过程
inference 阶段:
prediction 阶段(仅以无噪声的预测为例): 我们通过 Woodbury Formula 计算出 ,并代入分布\(4\)得到: 注意 ,因此上面公式中下划线的部分其实都是 的形式,而且由于 是正定矩阵,因此有 ,因此下划线的部分都可以写成 Kernel Function 的形式: 也就是说,我们通过核方法的思想将低维空间中的非线性问题转化为高维空间中的线性问题,并通过核函数避免了上述复杂的转化,这就是 Kernel Trick + 贝叶斯线性回归 ,从权重空间的角度看,这其实就是高斯过程回归了(虽然明面上跟高斯过程没有什么明显的联系),在这个过程中,我们主要的研究对象是 ,因此这是高斯过程回归的权重空间视角。
我们假设模型为 ,且 ,则对于训练集 ,其服从高斯分布 ,因此 。假设现在待预测的预测集为 ,则其服从高斯分布 。由高斯分布的性质可知, 的联合分布仍然是高斯分布:
3.4 高斯过程回归的补充说明
高斯过程回归是一种非参数模型,没有训练模型参数的过程,一旦核函数确定,训练数据给定,则模型被唯一确定。但是核函数本身是有超参数的,通常通过最大化边缘对数似然来找到核函数超参数的最优值。 高斯过程回归的流程:
确定数据点为一个高斯过程的采样点 确定均值函数,通常选择零均值函数 确定协方差函数/核函数 根据后验概率确定预测点的表达式,如公式(5)所示 最大化边缘对数似然求解最优超参数 预测数据代入,得出结果