TensorFlow 2.0 基础:张量、自动求导与优化器
文 / 李锡涵,Google Developers Expert
本文节选自《简单粗暴 TensorFlow 2.0》
在上一篇文章里,我们为大家详细介绍了 TensorFlow 2.0 的安装方式。在本篇文章,我们将带大家初窥 TensorFlow 2.0。
TensorFlow 2.0 最激动人心的特性之一,在于其引入的 Eager Execution 模式。这使得我们无需构建计算图后再执行计算,而可以做到直观的 “一经调用,立即执行”,从而让我们能够更为方便的构建和调试模型。在本文中,我们即使用 Eager Execution 模式为大家介绍 TensorFlow 的基础操作,包括张量的定义和操作、自动求导机制以及优化器的使用。
TensorFlow 1+1
我们可以先简单地将 TensorFlow 视为一个科学计算库(类似于 Python 下的 NumPy)。
首先,我们导入 TensorFlow:
1import tensorflow as tf
警告
在 TensorFlow 1.X 版本中, 必须在导入 TensorFlow 库后调用tf.enable_eager_execution()
函数以启用 Eager Execution 模式。在 TensorFlow 2.0 版本中,Eager Execution 模式为默认模式,无需额外调用tf.enable_eager_execution()
函数(不过若要关闭 Eager Execution,则需调用tf.compat.v1.disable_eager_execution()
函数)。
TensorFlow 使用 张量(Tensor)作为数据的基本单位。TensorFlow 的张量在概念上类似于多维数组,我们可以使用它来描述数学中的标量(0 维数组)、向量(1 维数组)、矩阵(2 维数组)等各种量,示例如下:
2random_float = tf.random.uniform(shape=())
3
4# 定义一个有2个元素的零向量
5zero_vector = tf.zeros(shape=(2))
6
7# 定义两个2×2的常量矩阵
8A = tf.constant([[1., 2.], [3., 4.]])
9B = tf.constant([[5., 6.], [7., 8.]])
张量的重要属性是其形状、类型和值。可以通过张量的shape
、dtype
属性和numpy()
方法获得。例如:
2print(A.shape) # 输出(2, 2),即矩阵的长和宽均为2
3print(A.dtype) # 输出<dtype: 'float32'>
4print(A.numpy()) # 输出[[1. 2.]
5 # [3. 4.]]
小技巧
TensorFlow 的大多数 API 函数会根据输入的值自动推断张量中元素的类型(一般默认为tf.float32
)。不过你也可以通过加入dtype
参数来自行指定类型,例如zero_vector = tf.zeros(shape=(2), dtype=tf.int32)
将使得张量中的元素类型均为整数。张量的numpy()
方法是将张量的值转换为一个 NumPy 数组。
TensorFlow 里有大量的 操作 (Operation),使得我们可以将已有的张量进行运算后得到新的张量。示例如下:
2D = tf.matmul(A, B) # 计算矩阵A和B的乘积
操作完成后,C
和D
的值分别为:
2[[ 6. 8.]
3 [10. 12.]], shape=(2, 2), dtype=float32)
4tf.Tensor(
5[[19. 22.]
6 [43. 50.]], shape=(2, 2), dtype=float32)
可见,我们成功使用tf.add()
操作计算出 tf.matmul()
操作计算出:
自动求导机制
在机器学习中,我们经常需要计算函数的导数。TensorFlow 提供了强大的 自动求导机制 来计算导数。以下代码展示了如何使用tf.GradientTape()
计算函数
2
3x = tf.Variable(initial_value=3.)
4with tf.GradientTape() as tape: # 在 tf.GradientTape() 的上下文内,所有计算步骤都会被记录以用于求导
5 y = tf.square(x)
6y_grad = tape.gradient(y, x) # 计算y关于x的导数
7print([y, y_grad])
输出:
这里x
是一个初始化为 3 的 变量 (Variable),使用tf.Variable()
声明。与普通张量一样,变量同样具有形状、类型和值三种属性。使用变量需要有一个初始化过程,可以通过在tf.Variable()
中指定initial_value
参数来指定初始值。这里将变量x
初始化为3.
[1]。变量与普通张量的一个重要区别是其默认能够被 TensorFlow 的自动求导机制所求导,因此往往被用于定义机器学习模型的参数。
tf.GradientTape()
是一个自动求导的记录器,在其中的变量和计算步骤都会被自动记录。在上面的示例中,变量x
和计算步骤y = tf.square(x)
被自动记录,因此可以通过y_grad = tape.gradient(y, x)
求张量y
对变量x
的导数。
在机器学习中,更加常见的是对多元函数求偏导数,以及对向量或矩阵的求导。这些对于 TensorFlow 也不在话下。以下代码展示了如何使用tf.GradientTape()
计算函数
2y = tf.constant([[1.], [2.]])
3w = tf.Variable(initial_value=[[1.], [2.]])
4b = tf.Variable(initial_value=1.)
5with tf.GradientTape() as tape:
6 L = 0.5 * tf.reduce_sum(tf.square(tf.matmul(X, w) + b - y))
7w_grad, b_grad = tape.gradient(L, [w, b]) # 计算L(w, b)关于w, b的偏导数
8print([L.numpy(), w_grad.numpy(), b_grad.numpy()])
输出:
2 [50.]], dtype=float32), array([15.], dtype=float32)]
这里,tf.square()
操作代表对输入张量的每一个元素求平方,不改变张量形状。tf.reduce_sum()
操作代表对输入张量的所有元素求和,输出一个形状为空的纯量张量(可以通过 axis 参数来指定求和的维度,不指定则默认对所有元素求和)。TensorFlow 中有大量的张量操作 API,包括数学运算、张量形状操作(如tf.reshape()
)、切片和连接(如tf.concat()
)等多种类型,可以通过查阅 TensorFlow 的官方 API 文档 [2] 来进一步了解。
从输出可见,TensorFlow 帮助我们计算出了:
基础示例:线性回归
考虑一个实际问题,某城市在 2013 年 - 2017 年的房价如下表所示:
现在,我们希望通过对该数据进行线性回归,即使用线性模型 a
和b
是待求的参数。
首先,我们定义数据,进行基本的归一化操作。
2
3X_raw = np.array([2013, 2014, 2015, 2016, 2017], dtype=np.float32)
4y_raw = np.array([12000, 14000, 15000, 16500, 17500], dtype=np.float32)
5
6X = (X_raw - X_raw.min()) / (X_raw.max() - X_raw.min())
7y = (y_raw - y_raw.min()) / (y_raw.max() - y_raw.min())
接下来,我们使用梯度下降方法来求线性模型中两个参数a
和b
的值 [3]。
回顾机器学习的基础知识,对于多元函数
求局部极小值,梯度下降的过程如下:
初始化自变量为
,
迭代进行下列步骤直到满足收敛条件:
求函数
关于自变量的梯度
更新自变量:
。这里 是学习率(也就是梯度下降一次迈出的 “步子” 大小)
接下来,我们考虑如何使用程序来实现梯度下降方法,求得线性回归的解
NumPy 下的线性回归
机器学习模型的实现并不是 TensorFlow 的专利。事实上,对于简单的模型,即使使用常规的科学计算库或者工具也可以求解。在这里,我们使用 NumPy 这一通用的科学计算库来实现梯度下降方法。NumPy 提供了多维数组支持,可以表示向量、矩阵以及更高维的张量。同时,也提供了大量支持在多维数组上进行操作的函数(比如下面的np.dot()
是求内积,np.sum()
是求和)。在这方面,NumPy 和 MATLAB 比较类似。在以下代码中,我们手工求损失函数关于参数a
和b
的偏导数 [4],并使用梯度下降法反复迭代,最终获得a
和b
的值。
2
3num_epoch = 10000
4learning_rate = 1e-3
5for e in range(num_epoch):
6 # 手动计算损失函数关于自变量(模型参数)的梯度
7 y_pred = a * X + b
8 grad_a, grad_b = (y_pred - y).dot(X), (y_pred - y).sum()
9
10 # 更新参数
11 a, b = a - learning_rate * grad_a, b - learning_rate * grad_b
12
13print(a, b)
然而,你或许已经可以注意到,使用常规的科学计算库实现机器学习模型有两个痛点:
经常需要手工求函数关于参数的偏导数。如果是简单的函数或许还好,但一旦函数的形式变得复杂(尤其是深度学习模型),手工求导的过程将变得非常痛苦,甚至不可行。
经常需要手工根据求导的结果更新参数。这里使用了最基础的梯度下降方法,因此参数的更新还较为容易。但如果使用更加复杂的参数更新方法(例如 Adam 或者 Adagrad),这个更新过程的编写同样会非常繁杂。
而 TensorFlow 等深度学习框架的出现很大程度上解决了这些痛点,为机器学习模型的实现带来了很大的便利。
TensorFlow 下的线性回归
TensorFlow 的 Eager Execution(即时运行)模式 [5] 与上述 NumPy 的运行方式十分类似,然而提供了更快速的运算(GPU 支持)、自动求导、优化器等一系列对深度学习非常重要的功能。以下展示了如何使用 TensorFlow 计算线性回归。可以注意到,程序的结构和前述 NumPy 的实现非常类似。这里,TensorFlow 帮助我们做了两件重要的工作:
使用
tape.gradient(ys, xs)
自动计算梯度;使用
optimizer.apply_gradients(grads_and_vars)
自动更新模型参数。
2y = tf.constant(y)
3
4a = tf.Variable(initial_value=0.)
5b = tf.Variable(initial_value=0.)
6variables = [a, b]
7
8num_epoch = 10000
9optimizer = tf.keras.optimizers.SGD(learning_rate=1e-3)
10for e in range(num_epoch):
11 # 使用tf.GradientTape()记录损失函数的梯度信息
12 with tf.GradientTape() as tape:
13 y_pred = a * X + b
14 loss = 0.5 * tf.reduce_sum(tf.square(y_pred - y))
15 # TensorFlow自动计算损失函数关于自变量(模型参数)的梯度
16 grads = tape.gradient(loss, variables)
17 # TensorFlow自动根据梯度更新参数
18 optimizer.apply_gradients(grads_and_vars=zip(grads, variables))
19
20print(a, b)
在这里,我们使用了前文的方式计算了损失函数关于参数的偏导数。同时,使用tf.keras.optimizers.SGD(learning_rate=1e-3)
声明了一个梯度下降 优化器(Optimizer),其学习率为 1e-3 。优化器可以帮助我们根据计算出的求导结果更新模型参数,从而最小化某个特定的损失函数,具体使用方式是调用其apply_gradients()
方法。
注意到这里,更新模型参数的方法optimizer.apply_gradients()
需要提供参数grads_and_vars
,即待更新的变量(如上述代码中的variables
)及损失函数关于这些变量的偏导数(如上述代码中的grads
)。具体而言,这里需要传入一个 Python 列表(List),列表中的每个元素是一个(变量的偏导数,变量)
对。比如这里是[(grad_a, a), (grad_b, b)]
。我们通过grads = tape.gradient(loss, variables)
求出 tape 中记录的loss
关于variables = [a, b]
中每个变量的偏导数,也就是grads = [grad_a, grad_b]
,再使用 Python 的zip()
函数将grads = [grad_a, grad_b]
和variables = [a, b]
拼装在一起,就可以组合出所需的参数了。
Python 的 zip() 函数
zip()
函数是 Python 的内置函数。用自然语言描述这个函数的功能很绕口,但如果举个例子就很容易理解了:如果a = [1, 3, 5]
,b = [2, 4, 6]
,那么zip(a, b) = [(1, 2), (3, 4), ..., (5, 6)]
。即 “将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表”。在 Python 3 中,zip()
函数返回的是一个对象,需要调用list()
来将对象转换成列表。
Python 的zip()
函数图示
在实际应用中,我们编写的模型往往比这里一行就能写完的线性模型y_pred = a * X + b
(模型参数为variables = [a, b]
)要复杂得多。所以,我们往往会编写并实例化一个模型类model = Model()
,然后使用y_pred = model(X)
调用模型,使用model.variables
获取模型参数。我们将在下一篇文章中介绍模型类的编写方式。
注释
[1]Python 中可以使用整数后加小数点表示将该整数定义为浮点数类型。例如 3. 代表浮点数 3.0。
[2] 主要可以参考 TensorFlow Python API 概览 和 Math 两个页面。可以注意到,TensorFlow 的张量操作 API 在形式上和 Python 下流行的科学计算库 NumPy 非常类似,如果对后者有所了解的话可以快速上手。
注:TensorFlow Python API 概览 链接
https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf
Math 链接
https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf/math
[3] 其实线性回归是有解析解的。这里使用梯度下降方法只是为了展示 TensorFlow 的运作方式。
[4] 此处的损失函数为均方差
[5] 与 Eager Execution 相对的是 Graph Execution(图执行)模式,即 TensorFlow 1.X 的默认模式,需要首先构建计算图,然后再将数据送入计算图进行计算。
福利 | 问答环节
我们知道在入门一项新的技术时有许多挑战与困难需要克服。如果您有关于 TensorFlow 的相关问题,可在本文后留言,我们的工程师和 GDE 将挑选其中具有代表性的问题在下一期进行回答~
在上一篇文章《TensorFlow 2.0 安装指南》中,我们对于部分具有代表性的问题回答如下:
Q1:使用 pip install tensorflow 安装的依然是 1.14 版本?
A:在写作本系列文章时 TensorFlow 2.0 正式版尚未推出,可以通过 pip install tensorflow==2.0.0-beta1 或 pip install tensorflow==2.0.0-rc0 尝鲜 TensorFlow 2.0 的 beta1 公测版或 RC0 候选版。待到正式版推出后,应该就可以使用 pip install tensorflow 直接安装啦。
Q2:TensorFlow 2.0 有 C 语言版吗?
A:TensorFlow 支持多种语言,当前发布的 C API 版本仍为 1.14 ,具体可参考 https://www.tensorflow.org/install/lang_c 。预计在 TensorFlow 2.0 正式发布时会有 2.0 版的 C API 发布。
Q3:清华的 Conda 源似乎不让用了?
A:清华大学的 Conda 源由于授权问题曾于今年短暂关闭过一段时间,但清华大学 TUNA 协会后来通过与 Anaconda 公司的沟通协商,获得了镜像授权,并恢复了 Conda 源的访问。可通过 https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 访问清华的 Conda 源。
Q4:为什么安装了 TensorFlow 2.0 的 GPU 版本会感觉卡顿?
A:目前的 TensorFlow 2.0 仍为 beta 版,尚在进行性能优化,因此目前版本的性能可能还不是最优的。当然,运行速度也与其他多方面因素有关,包括计算机的硬件配置及环境设置等。
《简单粗暴 TensorFlow 2.0 》目录
TensorFlow 2.0 基础:张量、自动求导与优化器(本文)