其他
Logistic回归分析——以良/恶性乳腺癌肿数据集为例
本文作者:陈 鼎,中南财经政法大学统计与数学学院
本文编辑:任 哲
技术总编:张馨月
爬虫俱乐部云端课程
一、代码实现
(一) 读取数据集
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import pandas as pd
import numpy as np
#1.获取数据
column_list = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
dataset = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data"
,names = column_list)
pd.set_option('display.max_columns',None)
dataset.head()
(二) 特征工程
1.处理缺失值
dataset = dataset.replace("?",np.nan)
dataset = dataset.dropna()
2.划分数据
y = dataset['Class']
x = dataset.iloc[:,2:10]
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)
3.数据标准化
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
(三) 进行Logistic回归
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_predict = lg.predict(x_test)
print("预测模型的系数为:",lg.coef_)
print("测试集的预测结果为:",y_predict)
print("准确率为:",lg.score(x_test,y_test))
print("查准率与查重率:",classification_report(y_test, y_predict, labels=[2,4], target_names=["良性","恶性"],))
二、源码
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import pandas as pd
import numpy as np
def logistic():
#获取数据
column_list = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
dataset = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data"
,names = column_list)
pd.set_option('display.max_columns',None)
print(dataset.head())
#删除缺失值
dataset = dataset.replace("?",np.nan)
dataset = dataset.dropna()
#进行数据分割
y = dataset['Class']
x = dataset.iloc[:,2:10]
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)
#进行标准化
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
#进行logistic预测
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_predict = lg.predict(x_test)
print("预测模型的系数为:",lg.coef_)
print("测试集的预测结果为:",y_predict)
print("准确率为:",lg.score(x_test,y_test))
print("查准率与查重率:",classification_report(y_test, y_predict, labels=[2,4], target_names=["良性","恶性"],))
if __name__ == '__main__':
logistic()
对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!往期推文推荐用stack取代excel的数据重整操作吧
Seminar | 委托贷款:打开中国影子银行的黑匣子
Seminar | 电话会议中的"non-answer"
Python 爬虫必杀技:XPath
面对相对路径和绝对路径的分岔口,你选对了吗? 空间数据可视化之spmap命令朴素贝叶斯算法——以20Newsgroups数据集为例
【爬虫实战】利用scrapy框架爬取豆瓣图书信息
《我和我的家乡》影评高频词原来是这些!
Seminar | JPX400指数的公司治理效应Seminar | 企业社会责任披露如何影响企业绩效?【爬虫实战】恒大的底气?--恒大楼盘数量爬取Python遇上Stata--IPyStata介绍变量类型转换之encode&decode命令Seminar | 主动型基金:我还行吗?关于我们微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。