Python机器学习随笔之非线性分类的logistic回归拟合及正则化
作者:博观厚积
简书专栏:
https://www.jianshu.com/u/2f376f777ef1
编者注:本文采用梯度下降法来求解的logistic回归,关于其思想以及编程原理见本人之前文章《梯度下降法求解线性回归的python实现及其结果可视化》(https://zhuanlan.zhihu.com/p/30562194),在这里不再赘述。
01 非线性决策边界的logistic回归拟合
常规的logistic回归在解决分类问题时,通常是用于线性决策边界的分类(如下图-左图),因为logistic回归可以视为线性回归的一种转化,其回归模型为 (sigmoid函数):
式中的z=θTx(i)就是不同x的线性表达式f(x) = g(w0+w1x1+w2x2)。那么,对于线性决策边界的分类,如何用logistic回归预测、拟合呢?这时候就需要将f(x) = g(w0+w1x1+w2x2)的线性函数式转化成多项式:f(x) = g(w0+w1x1+w2x2+w3x12+w4x22+w5x1x2)去拟合(如下图-中图)。
但是,这种处理方式相比较于线性函数表达式会产生很多的项数,因而其变量(特征)也比较多,如果我们没有足够的数据集(训练集)去约束这个变量过多的模型,那么就会发生过拟合。如上图中的最右边图形,其分类结果完全正确,但这个分类模型似乎太过完美了吧?连交叉部分的类别也划分出来了。过拟合就是表示它的分类只是适合于自己这个测试用例,对需要分类的真实样本(例如测试集)而言,特别是针对新的数据样本,实用性反倒可能会低很多。
02 正则化优化logistic回归过拟合
正则化(Regularized)是解决过拟合问题的一种方法,它将保留所有的特征变量,但是会减小特征变量的数量级(参数数值的大小θ(j)),当我们有很多特征变量时,其中每一个变量都能对预测产生一点影响,每一个变量都是有用的,因此我们不希望把它们删掉,但是我们可以通过正则化方式增加它们的成本cost,来减小我们的函数中的一些项的权重,其意义在于平滑函数曲线,使得预测函数相对简单一些,避免过度复杂函数的过拟合问题。
其处理方法为:对某些θ(j)加入惩罚项:
在这里λ称作正则化参数,它通过平衡拟合训练的目标和保持参数值较小的目标。从而来保持假设的形式相对简单,来避免过度的拟合。
03 Regularized Logistic Regression实例
(1)假设有这样一个非线性决策边界的分类数据,(数据来自
https://github.com/jdwittenauer/ipython-notebooks/tree/master/data 中的ex2data2.txt):
import numpy as np import pandas as pd import matplotlib.pyplot as plt path = 'D:\python\ml data\ex2data2.txt' #路径要设置为你自己的路径 data2 = pd.read_csv(path, header=None, names=['Test 1', 'Test 2', 'Accepted']) data2.head()
(2)其数据可视化为:
positive = data2[data2['Accepted'].isin([1])] #Accepted列中的1设定为positive negative = data2[data2['Accepted'].isin([0])] #Accepted列中的0设定为positive fig, ax = plt.subplots(figsize=(12,8)) ax.scatter(positive['Test 1'], positive['Test 2'], s=50, c='b', marker='o', label='Accepted') ax.scatter(negative['Test 1'], negative['Test 2'], s=50, c='r', marker='x', label='Rejected') ax.legend() ax.set_xlabel('Test 1 Score') ax.set_ylabel('Test 2 Score') plt.show()
(3)构建多项式特征值
上图的可视化结果可以看到该数据类别是明显的非线性决策边界,对此我们首先构建变量'Test 1', 'Test 2'的多项式特征值,如下:
degree = 5 x1 = data2['Test 1'] x2 = data2['Test 2'] data2.insert(3, 'Ones', 1) for i in range(1, degree): for j in range(0, i): data2['F' + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j) data2.drop('Test 1', axis=1, inplace=True) #删除Text1列并进行替换 data2.drop('Test 2', axis=1, inplace=True) #删除Text2列并进行替换 data2.head()
其中degree表示多项式的幂数,range(1, degree)表示了从1次到4次,即由data2['F' + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j)命令可知,每一列列名的F第一个数代表了x1的幂值,第二个数代表了x2的幂值,如F31则表示x13x2,以此类推。
(4)构建加入惩罚项的cost函数
def sigmoid(z): return 1 / (1 + np.exp(-z)) #构建sigmoid函数 def costReg(theta, X, y, learningRate): theta = np.matrix(theta) X = np.matrix(X) y = np.matrix(y) first = np.multiply(-y, np.log(sigmoid(X * theta.T))) second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T))) reg = (learningRate / 2 * len(X)) * np.sum(np.power(theta[:,1:theta.shape[1]], 2)) return np.sum(first - second) / (len(X)) + reg
reg就是惩罚项,构建思路参考正则化优化logistic回归过拟合部分的惩罚项设置规则。
(5)采用梯度下降法求解
def gradientReg(theta, X, y, learningRate): theta = np.matrix(theta) #转化为矩阵 X = np.matrix(X) y = np.matrix(y) parameters = int(theta.ravel().shape[1]) #计算参数theta的个数 grad = np.zeros(parameters) error = sigmoid(X * theta.T) - y for i in range(parameters): term = np.multiply(error, X[:,i]) #两矩阵相乘 if (i == 0): grad[i] = np.sum(term) / len(X) #一般来说第一个参数不需要正则化 else: grad[i] = (np.sum(term) / len(X)) + ((learningRate / len(X)) * theta[:,i]) return grad
具体的梯度下降法思路可以参考之前本人写的关于梯度下降法求解线性回归的文章,只是在这里加了一个惩罚项的梯度下降求解,其构造思路如下图所示。
(6)将变量代入进行拟合
基于表格数据构建x、y变量并转化成数组,这部分内容可以参考之前本人写的关于梯度下降法求解线性回归的文章。然后用梯度下降法函数求解并计算cost。
# set X and y (remember from above that we moved the label to column 0) cols = data2.shape[1] X2 = data2.iloc[:,1:cols] y2 = data2.iloc[:,0:1] # convert to numpy arrays and initalize the parameter array theta X2 = np.array(X2.values) y2 = np.array(y2.values) theta2 = np.zeros(11) learningRate = 1 #设置学习率 gradientReg(theta2, X2, y2, learningRate) costReg(theta2, X2, y2, learningRate)
得到的cost值为0.6931471805599454。
值得注意的是,在这里我们并没有在这个函数中执行梯度下降,而是基于梯度下降计算结果加入梯度项来实现的一个渐变步骤,因此,在这里我们还可以调用octave的内建函数fminunc();来获得最优的theta和最小的cost。在Python,我们可以使用SciPy的优化API来完成
import scipy.optimize as opt result2 = opt.fmin_tnc(func=costReg, x0=theta2, fprime=gradientReg, args=(X2, y2, learningRate)) result2
(7)计算预测结果精度
def predict(theta, X): probability = sigmoid(X * theta.T) return [1 if x >= 0.5 else 0 for x in probability] theta_min = np.matrix(result2[0]) predictions = predict(theta_min, X2) correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y2)] accuracy = (sum(map(int, correct)) % len(correct)) print 'accuracy = {0}%'.format(accuracy)
首先构建预测值函数,然后将该值与原始类别值0,1比较,计算其正确的精度,结果为91%。
写作不易,特别是技术类的写作,请大家多多支持,关注、点赞、转发等等..
参考文献:
Machine Learning Exercises In Python, Part 1,
http://www.johnwittenauer.net/machine-learning-exercises-in-python-part-1/
(吴恩达笔记 1-3)——损失函数及梯度下降
http://blog.csdn.net/wearge/article/details/77073142?locationNum=9&fps=1
斯坦福机器学习视频笔记 Week3 逻辑回归与正则化 Logistic
https://www.cnblogs.com/yangmang/p/6352118.html
详解机器学习中的“正则化”(Regularization)
http://makaidong.com/baimafujinji/1/5017_10306169.html
赞赏作者
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
小编的Python入门视频课程!!!
崔老师爬虫实战案例免费学习视频。
丘老师数据科学入门指导免费学习视频。
陈老师数据分析报告制作免费学习视频。
玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。
丘老师Python网络爬虫实战免费学习视频。