多重线性回归假设条件:残差正态性
作者:穿羽绒服的芒果 审核:X 封面:自己想吧
进行线性回归分析一个重要的前提条件是:残差近似正态性,那么什么是残差呢?残差即因变量的观测值Yi与利用回归模型求出的预测值^ Y之间的差值,反映了利用回归模型进行预测引起的误差。
2.怎么测量残差是否符合正态性?例子:分析住院费用与医院级别、地区、患者年龄、住院天数等的关系。
数据展示:
通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。
Step1 因为多重线性回归要求因变量符合正态分布,因此先利用直方图检验因变量“住院总费用”是否服从正态分布,结果如下:
结果:住院总费用不服从正态分布,需进行数据转换,可使用对数转换。在【转换】→【计算变量】中对“住院总费用”进行对数转换,新变量命名为“stan”。再重新绘制直方图,如下:
结果:经过转换后,因变量符合正态分布。
方法一 标准化残差直方图&正态概率图(PP图)
Step1 【分析】→【回归】→【线性】
Step2 将“stan”移入“因变量”中,地区等变量移入“自变量”中。【绘图】→勾选“直方图”和“正态概率图”→“继续”。
Step3 【保存】
Step4 结果输出与解读
结果:标准化残差的直方图,符合正态分布。
结果:标准化残差的正态概率图(P-P图),近似一条直线,符合正态分布。
方法二 学生化残差绘制正态QQ图
Step1 【分析】→【描述统计】→【Q-Q图】
Step2 将学生化残差SRE_1选入“变量”(注:SRE_1在上面的步骤中通过“保存”选项卡计算出来。)
Step3 结果输出与解读
结果:所有点近似一条直线,学生化残差符合正态性。
结果:所有点基本均匀分布于两侧,呈正态性。
3.P-P和Q-Q图P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。
Q-Q图由标准正态分布的分位数为横坐标、样本值为纵坐标的散点图。利用QQ图可鉴别样本数据是否近似于正态分布,若QQ图上的点近似地在一条直线附近,则样本数据符合正态分布。而且该直线的斜率为标准差,截距为均值。
P-P图和Q-Q图的用途基本相同,只是检验方法存在差异。
4.小结P-P图和Q-Q图可定性判断数据是否符合指定分布,例如正态分布等。值得注意的是,若利用P-P图和Q-Q图判断残差是否符合正态分布,因为原始数据一般没有直接提供残差,所以需先计算出残差,再绘制P-P图和Q-Q图。
欢迎添加
数据分析服务微信号: LYJ_312
加入社群添加微信号: spss_shequn