最大似然估计法拟合logistic回归曲线
引言:在前面的学习中,我们了解到logistic回归与线性回归很很多共同的特征。但是我们也知道logistic回归有一个显著不同的特征,即logistic回归中的y轴坐标轴经过logit函数转换。在这一小节中,我们来了解在logistic回归中如何拟合一条最佳直线。
1. 最小二乘法与线性模型回顾
线性模型基于残差平方和最小拟合最佳回归直线,参考:最小二乘法与线性回归。
2. 最大似然估计与logistic回归
2.1 为什么不能使用最小二乘法拟合最佳直线
在案例中使用logistic回归探究体重对肥胖的影响。目标是对原始数据拟合一条最佳曲线。
在logistic回归中,将y轴数据(肥胖的概率)转换成log(odds of obesity,肥胖的优势),在新坐标轴中可以绘制候选最佳拟合直线。经转换后,原始数据的范围由[0,1]变成(-∞,+∞),意味着残差的取值区间也将变为(-∞,+∞)。故不能使用最小残差法求解最佳拟合曲线,而应该选择使用最大似然估计法。
2.2 最大似然估计法求解最佳logistic回归直线
第一步:坐标轴转换。将y轴(概率)转换成新y轴(log(odds),即优势的对数)。
第二步:将转换坐标轴后的数据投射到一条候选拟合直线上,得到数据对应的log(odds)。
第三步:新坐标轴的逆转换。使用数学公式转换(如下),将候选log(odds)转换为log(probabilities),并将其投射到原始坐标轴中,用平滑曲线连接各点。
坐标轴逆转换的公式如下:
p=
例如在logit坐标轴中的1号红色圆圈,经公式向右转换成logit曲线上的1号红色圆圈。将logit转换坐标轴中的1号红色圆圈值(纵坐标=-2.1)代入公式得到:
p= =0.1
同样的方法,可将余下的样本数据投射回logit曲线上,求出该数据对应的p值。
第四步:计算该曲线对应的似然值(likelihood)。肥胖的小鼠的似然值为其被判定为肥胖的似然值,非肥胖的小鼠的似然值为(1-肥胖的似然值)。将所有数据对应肥胖或非肥胖的似然值相乘,得到该曲线的似然值。
在实际工作中,统计学家们喜欢用似然值的对数值。不论选择哪种方法,最大似然值对应的曲线与最大似然值对数值对应的曲线是同一条曲线。通过计算,似然值对数值为-3.77,代表该曲线和原始直线的似然值对数值为-3.77。
第五步:旋转新坐标轴后中的候选直线,重复以上步骤......得到新候选直线的似然值为-4.15,小于-3.77,说明第二条候选直线的拟合效果劣于第一条候选直线。
第六步:继续旋转新坐标轴中的候选直线,重复以上步骤......计算新候选直线的似然值,直至找到似然值或似然值对数最大时对应的拟合直线。
2.3 求解最佳拟合直线的R2和P值
因为在logistic回归中无残差,故我们不能基于残差计算R2和P值。相反,我们应该使用其他方法求解R2与P值。接下来,在下一小节学习求解logistic回归中的R2与P值。
参考视频:https://www.youtube.com/watch?v=BfKanl1aSG0&t=209s
编辑:吕琼
校审:罗鹏