查看原文
其他

【连载干货】中国人民大学统计数据挖掘中心专题报告资料之线性判别、Logistic回归

人大数据挖掘中心 量化投资与机器学习 2022-07-01

谢谢大家支持,可以让有兴趣的人关注这个公众号。让知识传播的更加富有活力,谢谢各位读者。

很多人问我为什么每次的头像是奥黛丽赫本,我只能说她是我女神,每天看看女神也是不错的嘛!

查看之前博文点击右上角关注且查看历史消息


今天是共享第二天,每天为大家分享一篇中国人民大学数据挖掘中心(DMC)的统计专题报告,内容很丰富,专业性和学习行都很强,希望大家有所收获。所有版权均属中国人民大学数据挖掘中心,请勿用作商业用途!!!


本期主题:线性判别、Logistic回归

先从一个案例分析开始,然后在阅读原文里有Python和R关于梯度上升法和logistic的代码。


  1. 数据说明

本案例所用的数据为ISLR中自带的数据heart.data,样本是462个南非人的身体健康状况指标,用来研究哪些因素对是否患心脏病有影响。变量描述见表1

1 变量说明

变量名

含义

解释

y

coronary heart disease

冠心病

sbp

systolic blood pressure

血压

tobacco

cumulative tobacco

累计烟草量

ldl

low density lipoprotein cholesterol

低密度脂蛋白胆固醇

adiposity

--

肥胖

famhist

family history of heart disease

是否有心脏病家族史

typea

type-A behavior

A型表现

obesity

--

过度肥胖

alcohol

current alcohol consumption

当前饮酒

age

age at onset

发病年龄


  1. 描述性统计

1是变量的散点矩阵图,可以看出adiposity obesity线性相关性较强。

2是因变量与定性自变量famhist的列联表分析,卡方检验p值为0,在0.05的显著性水平下,famhisty有显著影响。

3是连续自变量与因变量的箱线图分析。

2定性变量与因变量列联表分析

famhist

y

0

1

P

0

206

96


1

64

96

0.000


2连续自变量与因变量间的箱线图

  1. Logistic回归

随机抽取80%的样本作为训练集,剩下的20%样本作为测试集,用所有变量建立二元logistic回归模型。之后用AIC和BIC对模型做逐步回归。模型拟合结果分别如图3-5所示

  1. 模型预测

3是模型预测结果的列联表符号示意。

3预测结果列联表符号示意

预测值 实际值

0

1

0

TN

FN

1

FP

TP


真阳性率TPR=TP/(TP+FN) 假阳性率FPR=FP/(FP+FN

敏感性Sensitivity=TP/(TP+FN);特异性Specificity=TN/(FP+TN)

约登指数Youden=Sensitivity+Specificity-1

正确率R=(TN+TP)/(TN+FN+FP+TP)


为了比较三个模型的效果,用ROC曲线以及约登曲线来选择最优的模型,如图6所示。

4logit-AIC模型预测效果如下表所示。

4最优预测模型预测效果

y预测值 y实际值

0

1

行和

0

62

13

75

1

3

15

18

列和

65

28

93


TPR=0.536FPR=0.046,正确率R=0.828


量化投资与机器学习

知识、能力、深度、专业

勤奋、天赋、耐得住寂寞


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存