多元线性回归
Multiple Linear Regressoin
Y,X——直线回归
Y,X1,X2,…Xm——多元回归(多重回归)
例:欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。
一、多元回归模型
多元回归方程的一般形式
β0为回归方程的常数项(constant),表示各自变量均为0时y的平均值;
m为自变量的个数;
β1、β2、βm为偏回归系数(Partial regression coefficient)
意义:如β1 表示在X2、X3 …… Xm固定条件下,X1 每增减一个单位对Y 的效应(Y 增减β个单位)。
e为去除m个自变量对Y影响后的随机误差,称残差(residual)。
由样本估计而得的多元回归方程:
为y的估计值或预测值(predicted value);
b0为回归方程的常数项(constant),表示各自变量均为0时y的估计值;
b1、b2、bm为偏回归系数(Partial regression coefficient)
意义:如 b1 表示在X2、X3 …… Xm固定条件下,X1 每增减一个单位对Y 的效应(Y 增减 b 个单位)。
适用条件:
线性(linear)、独立性(independent)、正态性(normal)、等方差(equal variance)——“LINE”。
线性——自变量与应变量的关系是线性的。用散点图判断。
独立性——任意两个观察值互相独立。常利用专业知识判断。
正态性——就自变量的任何一个线性组合,应变量y均服从正态分布。即要求残差服从正态分布。常用残差图分析。
等方差——就自变量的任何一个线性组合,应变量y的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。
(回归模型前提假设示意图)
多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):
(1)因素筛选:(因素分析)
例如影响高血压的诸多因素中:
1)哪些是主要因素?
2)各因素的作用大小?
(2)提高回归方程的估计精度
多元回归比只有一个自变量的简单直线回归更能缩小应变量Y对其估计值的离差,在预测和统计控制方面应用的效果更好。
(3)控制混杂因素
二、多元回归分析步骤
(1)用各变量的数据建立回归方程
(2)对总的方程进行假设检验
(3)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。
对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。
【举例】
27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。
1、建立回归方程
由上表得到如下多元线性回归方程:
2、回归方程的假设检验——F检验
结果无显著性
1)表明所观察的自变量与应变量不存在线性回归关系;
2)也可能由于样本例数过少;
结果有显著性
表明至少有一个自变量与应变量之间存在线性回归关系。
H0:β1=β2=…=βm= 0
H1:β1、β2、…βm不等于0或不全等于0
3、各个偏回归系数的假设检验——t检验
将总胆固醇(X1) 剔除。
注意:通常每次只剔除关系最弱的一个因素。
对于同一资料,不同自变量的t值可以相互比较,t的绝对值越大,或P越小,说明该自变量对Y所起的作用越大。
重新建立不包含提出因素的回归方程
注意:表中偏回归系数已变化。
对新建立的回归方程进行检验
检验结果有显著性意义。
对新方程的偏回归系数进行检验
检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)三个因素。
最后获得回归方程为:
三、回归方程的评价
1、确定系数(R2):
意义:在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。 0~1,越大越优。
特点:R2是随自变量的增加而增大。
因此,在相近的情况下,以包含的自变量少者为优。
2、R——复相关系数(multiple correlation coefficient)
表示m个自变量共同对应变量线性相关的密切程度。0≤R≤1。即Y与的相关系数。
3、校正确定系数(adjusted R-square,R2a )
越大越优。 R2a不会随无意义的自变量增加而增大。
是衡量方程优劣的常用指标。
校正确定系数的计算:
p 为方程中包含的自变量个数,p≤ m。
R2一定时, p ↑→ R2a↓
四、各自变量的评价
1、偏回归平方和
是指将某自变量xj从回归方程中剔除后所引起的回归平方和的减少量——间接反应了自变量xj对应变量的贡献大小。
各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。
回归分析的部分中间结果
2、标准化偏回归系数(standardized partial regression coefficient)
消除测量单位影响后的偏回归系数——标准化偏回归系数。
意义:用以比较各自变量对应变量的影响程度大小 (即相对贡献大小)。
计算:
若将各变量先经标准状态化处理后,再进行多元回归,则所得到的偏回归系数即为标准偏回归系数。
比较各个自变量对血糖的贡献大小比较。
对血糖影响大小的顺序依次为:糖化血红蛋白(X4)、胰岛素(X3) 、甘油三酯(X2)。
比较糖化血红蛋白和甘油三酯的标准偏回归系数:
0.413 / 0.354 =1.17(倍)
糖化血红蛋白对血糖的影响强度约为甘油三酯的 1.17倍。
五、自变量的筛选
基本思路:尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。
(1)全局择优法(最优子集回归)(all possible subsets selection):
有m个自变量就有2m-1个自变量子集。在各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。
(2)逐步选择法:
前进法(Forward selection)
事先给定一个入选标准,即α(通常α =0.05),然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。
局限性:后续变量的引入可能会使先进入方程的变量变得不重要。
后退法(Backward elimination)
首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。
优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。
缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。
逐步法(Stepwise)
给出入选标准(通常 α1 =0.05)和剔除标准( 通常α2 =0.10),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。
实际工作中,多采用逐步法。 用上述方法对上例资料进行分析。
六、应用多元线性回归分析时需注意的事项
(1)样本量要求:无精确的计算公式。据经验,样本量应是自变量数的5~10倍以上。
(2)做预报时,只能在自变量X的观察值范围内进行;
(3)在资料要求上,应变量Y服从正态分布;
(4)注意资料的特异点(outlier);
(5)观测值重新量化问题
二项分类资料:用X表示分类变量,阴性为0,阳性为1。
有序多项分类资料:用一个X 作为分类变量,以自然数0,1,2,…赋值。如将病情分为轻中重三类时,用X表示病情,赋值方法为:
无序多项分类资料:
上述以职员作为对比水平(基础水平)。哑变量X1、 X2、 X3分别代表了工人、农民、干部与职员相比的系数。
哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。
(6)自变量筛选过程中引入和剔除变量时检验水准的确定
1)引入变量检验的水准小于或等于剔除变量时检验的水准
2)通常引入变量检验的水准为0.05,剔除变量时0.10,但不绝对。
(7)自变量的联合作用分析
若要考虑X3、X4对应变量 y 的联合作用,可设置一个新变量X5= X3X4。若b3、b4和b5都有统计学意义,则说明X3、X4对应变量既有单独作用,又有交互作用。
说明X3、X4对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。
(8)自变量的共线性
当自变量之间存在较强的相关关系时,称之为共线性。
后果——偏回归系数的估计值容易失真。
当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:
1)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。
2)偏回归系数的符号与医学专业知识不一致。
3)参数估计的标准误变得很大,使t值变得很小,P值很大。
判断方法:
利用自变量间的相关系数阵。
(r>0.9,共线性可能性大)
处理方法:
最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。
(9)残差分析——模型诊断
通常以标准化残差(standardized residual)为纵坐标,以
为横坐标,作残差图。
声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。