查看原文
其他

【他山之石】神经网络学习 | 鸢尾花分类的实现

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。

作者:知乎—闪电霸王龙

地址:https://www.zhihu.com/people/lou-xia-xiao-hei-49-69


01

问题
鸢尾花分为:狗尾草鸢尾、杂色鸢尾、弗吉尼亚鸢尾。
通过测量:花萼长、花萼宽、花瓣长、花瓣宽,这四个参数得出鸢尾花的类别。

02

问题解决思路
if 语句 case 语句 ——专家系统:把经验告诉计算机,计算机执行逻辑判别,给出分类
神经网络:采集大量(花萼长、花萼宽、花瓣长、花瓣宽、对应的类别)数据对构成数据集。其中(花萼长、花萼宽、花瓣长、花瓣宽)称为输入特征;(对应的类别)称为标签,需要人工标定。
把数据集喂入神经网络结构->网络优化参数得到模型->模型读入新输入特征->输出识别结果。

03

神经网络理论准备

鸢尾花神经网络简要模型
输出y=x*w+b ,即所有的输入x乘以各自线上的权重w求和加上偏置项b得到输出y。其中,输入特征x形状应为(1,4)即1行4列,输出y形状应为(1,3)即1行3列,w形状应为(4,3)即4行3列,b形状应为(3, )即有3个偏置项。

鸢尾花神经网络展开模型
这种x和y每每相连的,称之为全连接网络。
线上的权重w和偏置b会被随机初始化为一些随机值。
前向传播:喂入一组特征值->根据线性y=x*w+b,利用随机初始化的w和b,算出输出y。
损失函数(loss function):预测值(y)和标准答案(y_)的差距。损失函数可以定量判断w和b参数选择的优劣。均方误差是一种比较常见的损失函数。
均方误差

引入损失函数的目的是寻找一组参数w和b使得损失函数最小。为达成这一目的,我们采用梯度下降的方法。损失函数的梯度表示损失函数对各参数求偏导后的向量,损失函数梯度下降的方向,就是是损失函数减小的方向。梯度下降法即沿着损失函数梯度下降的方向,寻找损失函数的最小值,从而得到最优的参数。梯度下降法涉及的公式如下:

其中,lr表示学习率,是一个超参数,表征梯度下降的速度。如学习率设置过小,参数更新会很慢,如果学习率设置过大,参数更新可能会跳过最小值。

学习率过小 学习率过大
梯度下降更新的过程为反向传播,下面通过例子感受反向传播。利用如下公式对参数w进行更新。

设损失函数为

则其对w的偏导数为2w+ 2。设w在初始化时被随机初始化为5,学习率设置为0.2。则我们可按上述公式对 w 进行更新。
在PyCharm中键入如下:
import tensorflow as tf w = tf.Variable(tf.constant(5, dtype=tf.float32))lr = 0.2epoch = 40 for epoch in range(epoch): # for epoch 定义顶层循环,表示对数据集循环epoch次, 此例数据集数据仅有1个w,初始化时候constant赋值为5, 循环40次迭代。 with tf.GradientTape() as tape: # with结构到grads框起了梯度的计算过程。 loss = tf.square(w + 1) grads = tape.gradient(loss, w) # .gradient函数告知谁对谁求导 w.assign_sub(lr * grads) # .assign_sub 对变量做自减 即:w -= lr*grads 即 w = w - lr*grads print("After %s epoch,w is %f,loss is %f" % (epoch, w.numpy(), loss))
经过40次迭代,找到损失函数最小值:-1,结果如下:
学习率过小:学习率设置为0.01(lr = 0.2),经过40次迭代,无法得到损失函数最小值,且不接近最小值:
修改迭代次数为750次(epoch = 750),可以得到接近但不等于最小值的结果,且继续增加迭代次数对结果没有影响:
学习率过大:学习率设置为0.01(lr = 0.2),经过40次迭代,无法得到损失函数最小值,且在最小值左右交错排列:

修改迭代次数为750次(epoch = 750),可以得到接近但不等于最小值的结果,且继续增加迭代次数对结果没有影响:


04

Tensor Flow编程基础
TensorFlow中的Tensor表示张量,是多维数组、多维列表,用阶表示张量的维数。0 阶张量叫做标量,表示的是一个单独的数,如123;1阶张量叫作向量,表示的是一个一维数组如[1,2,3];2 阶张量叫作矩阵,表示的是一个二维数组,它可以有i行j列个元素,每个元素用它的行号和列号共同索引到,如在[[1,2,3],[4,5,6],[7,8,9]]中,2 的索引即为第0行第1列。张量的阶数与方括号的数量相同,0个方括号即为0阶张量,1个方括号即为1阶张量。故张量可以表示阶到n阶的数组。
TensorFlow 中数据类型包括 32 位整型(tf.int32)、32 位浮点(tf.float32)、64 位浮点(tf.float64)、布尔型(tf.bool)、字符串型(tf.string)。
创建张量的方法:
(1)tf.constant(张量内容,dtype=数据类型(可选)),第一个参数表示张量内容,第二个参数表示张量的数据类型。
import tensorflow as tf a = tf.constant([1,5],dtype=tf.int64) #创建1阶张量[1,5],指定数据类型为64位整型print(a) #打印出aprint(a.dtype) #打印出a的数据类型print(a.shape) #打印出a的形状
输出张量内容、形状与数据类型,shape 中数字为 2,表示一维张量里有2个元素。打印结果为:

(2)tf.convert_to_tensor(数据名,dtype=数据类型(可选)):将 numpy 格式化为Tensor格式。
import tensorflow as tfimport numpy as np a = np.arange(0, 5)b = tf.convert_to_tensor(a, dtype=tf.int64)print("a:", a)print("b:", b)
(3)tf. zeros(维度)创建全为 0 的张量,tf.ones(维度)创建全为 1 的张量,tf. fill(维度,指定值)创建全为指定值的张量。其中维度参数部分,如一维则直接写个数,二维用[行,列]表示,多维用[n,m,j..]表示。
import tensorflow as tf a = tf.zeros([2,3])b = tf.ones(4)c = tf.fill([2,2],9)print(a)print(b)print(c)
输出:

(4)随机生成的初始化参数,要符合正态分布:
  • 生成正态分布的随机数,默认均值为0,标准差为1:tf.random.normal(维度,mean=均值,stddev=标准差)
  • 生成截断式正态分布的随机数:tf.random_truncated_normal(维度,mean=均值,stddev=标准差)
import tensorflow as tf d = tf.random.normal([2, 2], mean=0.5, stddev=1)print("d:", d)e = tf.random.truncated_normal([2, 2], mean=0.5, stddev=1)print("e:", e)
输出:

(5)生成均匀分布的随机数:tf.random.uniform(维度, minval=最小值, maxval=最大值):
import tensorflow as tf f = tf.random.uniform([2, 2], minval=0, maxval=1)print("f:", f)
输出:

Tensorflow的常用函数:
(1)tf.cast(张量名,dtype=数据类型) --> 强制转换为该数据类型;
(2)tf.reduce_min(张量名) --> 计算张量维度上元素的最小值;
tf.reduce_max(张量名) --> 计算张量维度上元素的最大值;
(3)axis可以指定操作方向:tf.reduce_mean(张量名,axis=操作轴)计算张量沿着操作轴的平均值,tf.reduce.sum(张量名,axis=操作轴)计算张量沿着操作轴的和;
不指定axis,则对张量所有元素进行操作。

axis=0 沿着纵向操作(经度方向),axis=1沿着横向操作(维度方向);
(4)tf.Variable(初始值) --> 将变量标记为可训练的;被标记的变量会在反向传播中记录梯度信息;神经网络训练中,常用该函数标记待训练参数;
(5)tf.add(张量1,张量2) --> 两个张量对应元素相加;
tf.subtract(张量1,张量2) --> 两个张量对应元素相减;
tf.multiply(张量1,张量2) --> 两个张量对应元素相乘;
tf.divide(张量1,张量2) --> 两个张量对应元素相除;
只有维度相同的张量才可以进行四则运算;矩阵也是如此,张量通常被理解为广义矩阵。
(6)tf.square(张量名) --> 计算某个张量的平方;
tf.pow(张量名,n次方数) --> 计算某个张量的n次方;
tf.sqrt(张量名) --> 计算某个张量的开方;
(7)tf.matmul(矩阵1,矩阵2) --> 实现两个矩阵的相乘;
(8)tf.data.Dataset.from_tensor_slives --> 生成输入/标签对,构建数据集;Numpy和Tensor格式都可用该语句读入数据;
(9)在with结构中,使用 tf.GradientTape 实现对指定参数的求导运算;with结构记录计算过程,gradient求出张量的梯度;
With tf.GradientTape( ) as tape: 若干计算过程grad = tape.gradient(函数,对谁求导)
运算示例如下:

import tensorflow as tf with tf.GradientTape() as tape: x = tf.Variable(tf.constant(3.0)) y = tf.pow(x, 2)grad = tape.gradient(y, x)print(grad)
结果:

(10)enumerate是枚举的意思,是python内置函数,用于遍历每个元素,常在for循环中使用,运行结果为索引+元素。使用方法enumerate(列表名):
seq = ['one', 'two', 'three'] #创建列表for i, element in enumerate(seq): #遍历元素 print(i, element)
结果:

(11)独热编码(one-hot encoding):在分类问题中,常用独热码做标签,标记类别:1->是,0->非;tf.hot(待转换数据,depth=几分类);
import tensorflow as tf classes = 3 labels = tf.constant([1, 0, 2]) # 输入的元素值最小为0,最大为2output = tf.one_hot(labels, depth=classes) #赋值3分类print("result of labels1:", output)print("\n")
结果:

(12)tf.nn.softmax(x):使前向传播的输出符合概率分布;前向传播的结果只有在符合概率分布后才能和独热码的标签进行比较;当n分类的n个输出通过softmax函数就符合概率分布了,且满足如下条件:

示例:
import tensorflow as tf y = tf.constant([1.01, 2.01, -0.66])y_pro = tf.nn.softmax(y) print("After softmax, y_pro is:", y_pro) # y_pro 符合概率分布 print("The sum of y_pro:", tf.reduce_sum(y_pro)) # 通过softmax后,所有概率加起来 和为1
输出:

(13)assign_sub:常用于参数的自更新,调用assign_sub前,先用tf.Variable定义变量为可训练的,示例如下:
import tensorflow as tf x = tf.Variable(4)x.assign_sub(1)print("x:", x) # 4-1=3
(14)tf.argmax(张量名,axis=操作轴) -> 返回张量沿着指定维度最大值的索引,示例如下:
import numpy as npimport tensorflow as tf test = np.array([[1, 2, 3], [2, 3, 4], [5, 4, 3], [8, 7, 2]])print("test:\n", test)print("每一列的最大值的索引:", tf.argmax(test, axis=0)) # 返回每一列最大值的索引print("每一行的最大值的索引", tf.argmax(test, axis=1)) # 返回每一行最大值的索引

结果:


05

鸢尾花分类神经网络实现
提供了 150 组鸢尾花数据,每组包括鸢尾花的花萼长、花萼宽、花瓣长、花瓣宽 4 个输入特征,同时还给出了这一组特征对应的鸢尾花类别。类别包括狗尾鸢尾、杂色鸢尾、弗吉尼亚鸢尾三类, 分别用数字0、1、2 表示。

5.2. 程序实现
神经网络实验鸢尾花分类的基本思路如图:

#-------------------第0部分 准备部分-------------------# -*- coding: UTF-8 -*-# 利用鸢尾花数据集,实现前向传播、反向传播,可视化loss曲线#tensor flow2.3 Python3.8#说明:代码思路来源于北大神经网络课程,此处仅做复现 # 导入所需模块import tensorflow as tffrom sklearn import datasets #从sklearn包detasets读入数据集,具体如1from matplotlib import pyplot as pltimport numpy as np #-------------------第1部分 数据集读入-------------------# 导入数据,分别为输入特征和标签x_data = datasets.load_iris().data #返回iris数据集所有输入特征y_data = datasets.load_iris().target #返回iris数据集所有标签 #-------------------第2部分 数据集乱序-------------------# 随机打乱数据(因为原始数据是顺序的,顺序不打乱会影响准确率)# seed: 随机数种子,是一个整数,当设置之后,每次生成的随机数都一样(为方便教学,以保每位同学结果一致)np.random.seed(116) # 使用相同的seed,保证输入特征和标签一一对应np.random.shuffle(x_data)np.random.seed(116)np.random.shuffle(y_data)tf.random.set_seed(116) #-------------------第3部分 数据集分割-------------------# 将打乱后的数据集分割为训练集和测试集,训练集为前120行,测试集为后30行x_train = x_data[:-30]y_train = y_data[:-30]x_test = x_data[-30:]y_test = y_data[-30:] # 转换x的数据类型,否则后面矩阵相乘时会因数据类型不一致报错x_train = tf.cast(x_train, tf.float32)x_test = tf.cast(x_test, tf.float32) #-------------------第4部分 配成对,分别喂入-------------------# from_tensor_slices函数使输入特征和标签值一一对应。(把数据集分批次,每个批次batch组数据)train_db = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32) #---------------第5部分 定义神经网络中的所有可训练参数---------------# 生成神经网络的参数,4个输入特征故,输入层为4个输入节点;因为3分类,故输出层为3个神经元# 用tf.Variable()标记参数可训练# 使用seed使每次生成的随机数相同(方便教学,使大家结果都一致,在现实使用时不写seed)w1 = tf.Variable(tf.random.truncated_normal([4, 3], stddev=0.1, seed=1))b1 = tf.Variable(tf.random.truncated_normal([3], stddev=0.1, seed=1)) lr = 0.1 # 学习率为0.1train_loss_results = [] # 将每轮的loss记录在此列表中,为后续画loss曲线提供数据test_acc = [] # 将每轮的acc记录在此列表中,为后续画acc曲线提供数据epoch = 500 # 循环500轮loss_all = 0 # 每轮分4个step,loss_all记录四个step生成的4个loss的和 #-------------------第6部分 嵌套循环迭代,显示当前loss-------------------# 训练部分for epoch in range(epoch): #数据集级别的循环,每个epoch循环一次数据集 for step, (x_train, y_train) in enumerate(train_db): #batch级别的循环 ,每个step循环一个batch with tf.GradientTape() as tape: # with结构记录梯度信息 y = tf.matmul(x_train, w1) + b1 # 神经网络乘加运算 y = tf.nn.softmax(y) # 使输出y符合概率分布(此操作后与独热码同量级,可相减求loss) y_ = tf.one_hot(y_train, depth=3) # 将标签值转换为独热码格式,方便计算loss和accuracy loss = tf.reduce_mean(tf.square(y_ - y)) # 采用均方误差损失函数mse = mean(sum(y-out)^2) loss_all += loss.numpy() # 将每个step计算出的loss累加,为后续求loss平均值提供数据,这样计算的loss更准确 # 计算loss对各个参数的梯度 grads = tape.gradient(loss, [w1, b1]) # 实现梯度更新 w1 = w1 - lr * w1_grad b = b - lr * b_grad w1.assign_sub(lr * grads[0]) # 参数w1自更新 b1.assign_sub(lr * grads[1]) # 参数b自更新 # 每个epoch,打印loss信息 print("Epoch {}, loss: {}".format(epoch, loss_all/4)) train_loss_results.append(loss_all / 4) # 将4个step的loss求平均记录在此变量中 loss_all = 0 # loss_all归零,为记录下一个epoch的loss做准备 #-------------------第7部分 计算前传准确率,显示当前acc------------------- # 测试部分 # total_correct为预测对的样本个数, total_number为测试的总样本数,将这两个变量都初始化为0 total_correct, total_number = 0, 0 for x_test, y_test in test_db: # 使用更新后的参数进行预测 y = tf.matmul(x_test, w1) + b1 y = tf.nn.softmax(y) pred = tf.argmax(y, axis=1) # 返回y中最大值的索引,即预测的分类 # 将pred转换为y_test的数据类型 pred = tf.cast(pred, dtype=y_test.dtype) # 若分类正确,则correct=1,否则为0,将bool型的结果转换为int型 correct = tf.cast(tf.equal(pred, y_test), dtype=tf.int32) # 将每个batch的correct数加起来 correct = tf.reduce_sum(correct) # 将所有batch中的correct数加起来 total_correct += int(correct) # total_number为测试的总样本数,也就是x_test的行数,shape[0]返回变量的行数 total_number += x_test.shape[0] # 总的准确率等于total_correct/total_number acc = total_correct / total_number test_acc.append(acc) print("Test_acc:", acc) print("--------------------------") #-------------------第8部分 acc/loss可视化-------------------# 绘制 loss 曲线plt.title('Loss Function Curve') # 图片标题plt.xlabel('Epoch') # x轴变量名称plt.ylabel('Loss') # y轴变量名称plt.plot(train_loss_results, label="$Loss$") # 逐点画出trian_loss_results值并连线,连线图标是Lossplt.legend() # 画出曲线图标plt.show() # 画出图像 # 绘制 Accuracy 曲线plt.title('Acc Curve') # 图片标题plt.xlabel('Epoch') # x轴变量名称plt.ylabel('Acc') # y轴变量名称plt.plot(test_acc, label="$Accuracy$") # 逐点画出test_acc值并连线,连线图标是Accuracyplt.legend()plt.show()
在运行过程中可能出现如下提示:

则点击Terminal,输入:pip install sklearn 以安装sklearn包;出现如下则表示安装完成:

安装完成后再次运行,出现其他包确实,按照此类继续安装即可。
最终程序运行如下:

损失函数曲线

准确率曲线

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“他山之石”历史文章


更多他山之石专栏文章,

请点击文章底部“阅读原文”查看



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存