查看原文
其他

值得收藏!细谈小包公法律实证分析平台多元线性回归模型

小包公 小包公 2022-10-02


多元线性回归模型用于什么场景?


说到多元线性回归模型,相信大家多多少少都听说过这个东西,很多教授、学生等都用这个模型做过法律实证研究,那么这个模型具体用在哪些研究场景里面呢?我们给大家举两个例子来看看:


非法学研究场景:颜值(高和低)、身高(高和矮)、体重(数值)、办公技能(好和坏)等因素是否会影响个人的收入情况(数值)?如果有影响,哪个因素的影响程度最高,哪个因素的影响程度最低?哪个因素会产生正向的影响(增加收入),哪个因素又会产生反向的影响(拉低收入)?


法学研究场景:被告人是否犯罪既遂(是和否)、被告人犯罪数额(数值)、被告人是否自首(是和否)、被告人是否退赃退赔(是和否)等因素是否会影响到法院对被告人所判的刑期(数值)?如果有影响,哪个因素的影响程度最高,哪个因素的影响程度最低?哪个因素会产生正向的影响(增加刑期),哪个因素会产生反向的影响(降低刑期)?


多元线性回归模型能够用于研究某些因素(自变量)对另一个因素(也就是因变量,或者说结果等)是否会产生影响,如果有影响,其影响程度如何,是正向的还是反向的影响,如你所见,生活中的很多社会现象都能用它来进行研究!


什么是多元线性回归模型?


所谓“多元”,在这个模型中大意是“多种”、“多重”、“非单一”,而“线性”则指的是变量之间的关系形状。在实际的研究场景中,一个变量往往会受到多个变量的影响。例如,刑量的轻重,除了受犯罪分子所犯罪行的轻重外,还受到犯罪分子犯罪后的认罪、悔罪态度和补救行为等多种因素的影响。


要深入理解这个模型,我们就不得不了解这四个名词:自变量、因变量,数值变量、哑变量(又称虚拟变量)


数值变量、哑变量——数值变量就是数值类的变量,如犯罪数额、自然人年龄、审理时长等,是一个具体的数值;而哑变量的取值通常是0和1,如:自首(1=被告人存在自首现象,0=被告人不存在自首现象)。


自变量、因变量——我们需要把自己所研究的指标区别为自变量和因变量两个阵营,因变量会随着自变量的改变而改变,会被自变量所影响,它们之间的关系也可以看成我们通常所说的“因”和“果”的关系,此处的“因”就是自变量,“果”就是因变量。在多元线性回归模型中,因变量必须是一个数值变量,自变量可以是数值变量也可以是哑变量。


如何通过小包公实证分析系统进行多元线性回归的建模?


第一步:确定自己的自变量和因变量标签,如:确定“有期徒刑”为因变量,确定“受贿数额”、“自首”、“退赃退赔”为自变量。


第二步:点击【添加标签】,先查询小包公实证分析系统的预置标签中有无自己的目标标签,如果没有目标标签,则点击【新建自定义标签】来添加自己的目标标签。


(如输入“自首”来检索目标标签)

(选中目标标签)

(系统无目标标签的情况下,新建自定义标签后自行打标) 

第三步:进入数据清洗页面打标或者验证目标标签的正确性。


第四步:返回研究点页面,将目标标签拖拽到相应的位置上,生成多元线性回归分析。


第五步:根据相关指标分析结果。


1.显著性检验


Sig值就是概率值是一个显著性检验指标,大多情况下用来判断显著性的临界值是0.05(因为一般都是选取95%的置信水平,在这个置信水平下,显著性以0.05为界限)。

 (注:先看F检验的Sig值,后看T检验的Sig值;因为F检验如果不显著的话,T检验的Sig值无意义)


F检验的Sig值是用来判断从整体上看,模型中研究的自变量对因变量的影响是否显著(至少有一个自变量对因变量的影响显著,则F检验的Sig值就小于0.05);


T检验的Sig值是用来判断各自变量对因变量的影响是否显著(如果影响显著,则T检验的Sig值小于0.05;等于0.05的情况极少,如果发生,则也被视为影响显著)。


如上图所示,F检验的Sig值 =0.000<0.05,所以自首、退赃退赔、受贿数额这三个因素对判处有期徒刑的影响显著(也就是说,至少存在一个能够影响到有期徒刑的因素)。


自变量自首,T检验的Sig值=0.000<0.05,表明自首情节的存在能够影响到对被告人判处有期徒刑的刑期;自变量退赃退赔,T检验的Sig值=0.000<0.05,表明退赃退赔情节的存在能够影响到对被告人判处有期徒刑的刑期;自变量受贿数额,T检验的Sig值=0.000<0.05,表明被告人的受贿数额能够影响到对被告人判处有期徒刑的刑期。

 

2.相关性检验


标准化系数是减均值除方差后的数据计算出来的系数,非标准化系数则是在未作处理的情况下用原始数据计算出来的系数;我们一般采用标准化系数;而标准化系数占比,顾名思义,用百分数表示出来的标准化系数。(标准化系数有正负值的区分,标准化系数占比无此区分)。


自变量的标准化系数为正值时,表明该自变量对因变量的影响是正向的;反之,则表明该自变量对因变量的影响是反向的。自变量的标准化系数和标准化系数占比的值越大,表明该自变量对因变量的影响越大;反之,则表明该自变量对因变量的影响越小。

 

标准误差是用来衡量回归方程代表性的一个指标,表示实际值与估计值之间的偏离程度;标准误差越小越好;当标准误差接近0时,说明实际情况与预估情况几乎完全一样,代表性极强。


如图所示,自变量受贿数额的标准化系数占比最大,标准化系数为正值,因而受贿数额在这三个自变量中对判处被告人多久的有期徒刑而言影响是最大的,且该自变量对因变量(有期徒刑)的影响是正向的,也就是说,受贿数额越大,判处的有期徒刑的刑期就越多。


自变量退赃退赔的标准化系数占比最小,标准化系数为负值,因而退赃退赔情节相对其他两个自变量来说,对判处被告人多久的有期徒刑而言影响最小,且该自变量对因变量(有期徒刑)的影响是反向的,也就是说,退赃退赔情节的存在会降低被告人被判处的有期徒刑。


受贿数额的标准误差是0.000,表明自变量受贿数额对因变量(有期徒刑)的实际影响情况与预估情况完全一致;而其他两个自变量的标准误差相较于受贿数额而言,实际对因变量的影响情况与预估情况存在一些出入,代表性较弱。

 

3.可靠性检验


DW值是自相关性检验指标

用来判断随机误差项之间是否存在相关性而使研究结果失真(失真就是结果不准确的意思);如果存在的话,是存在正相关性还是存在负相关性。DW取值在0-4之间;DW值越接近2,随机误差项之间越不存在相关性(这是最好的情况);DW值越接近0,随机误差项之间正相关性越强;DW值越接近4,随机误差项之间负相关性越强


R方(就是R的平方,学名:“可决系数”),是拟合优度指标

衡量的是回归方程整体的拟合程度,用来检验样本数据点聚集在回归线周围的密集程度,该指标的取值范围是0到1(R方越大越好,R方越大,表明样本数据点聚集在回归线周围的密集程度越高,预测情况与实际情况几乎一致)。


VIF值是多重共线性检验指标(学名:“方差膨胀系数”)

用来判断各个自变量之间是否存在相关性而使研究结果失真(失真就是结果不准确的意思);如果存在,其程度如何。VIF<10,表明不存在多重共线性,10=<VIF<100,表明存在较强的多重共线性,VIF>=100,表明存在严重的多重共线性。


如上图所示,整体的DW值=1.886,接近2,表明随机误差项之间不存在相关性,研究结果可用;R方=0.219(21.9%),表明回归方程的整体拟合程度不高;自变量自首的VIF值=1.055<10,退赃退赔的VIF值=1.031<10,自变量受贿数额的VIF值=1.024<10,表明研究所用的自变量之间不存在多重共线性,研究结果可用。

 

附小包公多元线性回归模型的文字说明部分:


多元线性回归分析的指标全为空,出不了分析结果,为什么?




一般多元线性回归分析无结果,下方会提示F检验的Sig值大于0.05,有可能是我们选择的自变量对因变量的影响确实不显著;也有可能是我们选择的变量(尤其是因变量),可提取到具体数值的案例过少,不宜进行多元线性回归分析。

 

扫码体验小包公法律实证分析平台


或上电脑端登录

www.xiaobaogong.com

干货|手把手教你用法律实证分析工具写文章
细讲小包公法律实证分析系统计算公式(一),手把手教会!
“小包公”司法大数据深度挖掘经验分享会 ——从原理到实现
七夕特辑|那些值得你收藏的婚姻财产知识,早看早知道!


喜欢小包公的文章?
欢迎分享,点赞,点在看⬇⬇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存