其他
基于OneFlow实现量化感知训练
本文介绍了量化感知训练的原理,基于OneFlow实现了一个量化感知训练Demo,并介绍了在具体实现中的各种细节。
1
后量化以及量化感知训练原理
这里说的量化一般都是指的Google TFLite的量化方案,对应的是Google 的论文 Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
。虽然TfLite这套量化方案并不是很难,但在实际处理的时候细节还是比较多,一时是很难说清楚的。
所以,这里推荐一系列讲解TFLite后量化和量化感知训练原理的文章,看一下这几篇文章阅读本文就没有任何问题了。
这里简单总结一下,无论是TFLite的量化方案还是TensorRT的后量化方案,他们都会基于原始数据和量化数据的数值范围算出一个缩放系数scale
和零点zero_point
,这个zero_point
有可能是0(对应对称量化),也有可能不是0(对应非对称量化)。然后原始数据缩放之后减掉零点就获得了量化后的数据。这里的关键就在于缩放系数scale
和zero_point
怎么求,Google的TFLite使用下面的公式:
scale
和zero_point
关键就是要精确地估计原始浮点实数的最大值和最小值,有了原始浮点实数的最大值和最小值就可以代入上面的公式求出scale
和zero_point
了。所以后训练量化以及量化感知训练的目的是要记录各个激活特征图和权重参数的scale
和zero_point
。scale
和zero_point
。而量化感知训练则在训练的过程中记录激活特征图和权重参数的最大和最小值来求取scale
和zero_point
。2
组件
scale
和zero_point
,以及模拟量化,量化这些操作。这对应着三个量化训练中用到的三个基本组件,即MinMaxObserver
,FakeQuantization
,Quantization
。下面我们分别看一下在OneFlow中这三个组件的实现。组件1. MinMaxObserver
oneflow.nn.MinMaxObserver
这个Module(Module在Pytorch中对应torch.nn.Module
,然后OneFlow的接口也在靠近Pytorch,也对应有oneflow.nn.Module
,因此这里将其封装为oneflow.nn.Module
)。这个Module的参数有:quantization_bit
表示量化Bit数quantization_scheme
表示量化的方式,有对称量化symmetric
和非对称量化affine
两种,区别就是对称量化浮点0和量化空间中的0一致quantization_formula
表示量化的方案,有Google和Cambricon两种,Cambricon是中科寒武纪的意思per_layer_quantization
表示对当前的输入Tensor是PerChannel还是PerLayer量化,如果是PerLayer量化设置为True。一般激活特征图的量化都是PerLayer,而权重的量化可以选择PerLayer或者PerChannel。
>>> import oneflow as flow
>>> weight = (np.random.random((2, 3, 4, 5)) - 0.5).astype(np.float32)
>>> input_tensor = flow.Tensor(
... weight, dtype=flow.float32
... )
>>> quantization_bit = 8
>>> quantization_scheme = "symmetric"
>>> quantization_formula = "google"
>>> per_layer_quantization = True
>>> min_max_observer = flow.nn.MinMaxObserver(quantization_formula=quantization_formula, quantization_bit=quantization_bit,
... quantization_scheme=quantization_scheme, per_layer_quantization=per_layer_quantization)
>>> scale, zero_point = min_max_observer(
... input_tensor, )
scale
和zero_point
。oneflow/user/kernels/min_max_observer_kernel.cpp
,核心实现是如下三个函数:template<typename T>
void GenQuantScaleSymmetric(const T* in_ptr, const int32_t quantization_bit,
const int64_t num_elements, T* scale, T* zero_point) {
T in_max = *std::max_element(in_ptr, in_ptr + num_elements);
T in_min = *std::min_element(in_ptr, in_ptr + num_elements);
in_max = std::max(std::abs(in_max), std::abs(in_min));
T denominator = static_cast<T>(pow(2.0, quantization_bit - 1)) - 1;
*scale = in_max / denominator;
*zero_point = 0;
}
// TFLite量化方案,非对称量化
template<typename T>
void GenQuantScaleAffine(const T* in_ptr, const int32_t quantization_bit,
const int64_t num_elements, T* scale, T* zero_point) {
T in_max = *std::max_element(in_ptr, in_ptr + num_elements);
T in_min = *std::min_element(in_ptr, in_ptr + num_elements);
T denominator = static_cast<T>(pow(2.0, quantization_bit)) - 1;
*scale = (in_max - in_min) / denominator;
*zero_point = -std::nearbyint(in_min / (*scale));
}
//寒武纪量化方案
template<typename T>
void GenQuantScaleCambricon(const T* in_ptr, const int32_t quantization_bit,
const int64_t num_elements, T* scale, T* zero_point) {
T in_max = *std::max_element(in_ptr, in_ptr + num_elements);
T in_min = *std::min_element(in_ptr, in_ptr + num_elements);
in_max = std::max(std::abs(in_max), std::abs(in_min));
*scale = std::floor(std::log2(in_max)) - (quantization_bit - 2);
*zero_point = 0;
}
per_layer_quantization
参数的处理了,逻辑如下:scale
和zero_point
。想了解更多PerLayer量化以及PerChannel量化的知识可以看这篇文章:神经网络量化--per-channel量化 。组件2:FakeQuantization
oneflow.nn.Module
。在上一节提到,量化感知训练和后训练量化的主要区别在于它会对激活以及权重参数做模拟量化操作,即FP32->INT8->FP32。通过这种模拟将量化过程中产生的误差也作为一个特征提供给网络学习,以期在实际量化部署时获得更好的准确率。这个接口有以下参数:scale
:由MinMaxObserver组件算出来的量化scale
zero_point
:由MinMaxObserver组件算出来的量化zero_point
quantization_bit
:量化比特数quantization_scheme
表示量化的方式,有对称量化symmetric
和非对称量化affine
两种,区别就是对称量化浮点0和量化空间中的0一致quantization_formula
表示量化的方案,有Google和Cambricon两种,Cambricon是中科寒武纪的意思
>>> import oneflow as flow
>>> weight = (np.random.random((2, 3, 4, 5)) - 0.5).astype(np.float32)
>>> input_tensor = flow.Tensor(
... weight, dtype=flow.float32
... )
>>> quantization_bit = 8
>>> quantization_scheme = "symmetric"
>>> quantization_formula = "google"
>>> per_layer_quantization = True
>>> min_max_observer = flow.nn.MinMaxObserver(quantization_formula=quantization_formula, quantization_bit=quantization_bit,
... quantization_scheme=quantization_scheme, per_layer_quantization=per_layer_quantization)
>>> fake_quantization = flow.nn.FakeQuantization(quantization_formula=quantization_formula, quantization_bit=quantization_bit,
... quantization_scheme=quantization_scheme)
>>> scale, zero_point = min_max_observer(
... input_tensor,
... )
>>> output_tensor = fake_quantization(
... input_tensor,
... scale,
... zero_point,
... )
scale
和zero_point
,这是由上面的MinMaxObserver组件获得的。template<typename T>
void FakeQuantizationPerLayerSymmetric(const T* in_ptr, const T scale,
const int32_t quantization_bit, const int64_t num_elements,
T* out_ptr) {
T upper_bound = static_cast<T>(pow(2.0, quantization_bit - 1)) - 1;
T lower_bound = -upper_bound - 1;
FOR_RANGE(int64_t, i, 0, num_elements) {
T out = std::nearbyint(in_ptr[i] / scale);
out = out > upper_bound ? upper_bound : out;
out = out < lower_bound ? lower_bound : out;
out_ptr[i] = out * scale;
}
}
// TFLite量化方案,非对称量化
template<typename T>
void FakeQuantizationPerLayerAffine(const T* in_ptr, const T scale, const T zero_point,
const int32_t quantization_bit, const int64_t num_elements,
T* out_ptr) {
T upper_bound = static_cast<T>(pow(2.0, quantization_bit)) - 1;
T lower_bound = 0;
uint8_t zero_point_uint8 = static_cast<uint8_t>(std::round(zero_point));
FOR_RANGE(int64_t, i, 0, num_elements) {
T out = std::nearbyint(in_ptr[i] / scale + zero_point_uint8);
out = out > upper_bound ? upper_bound : out;
out = out < lower_bound ? lower_bound : out;
out_ptr[i] = (out - zero_point_uint8) * scale;
}
}
// 寒武纪量化方案
template<typename T>
void FakeQuantizationPerLayerCambricon(const T* in_ptr, const T shift,
const int32_t quantization_bit, const int64_t num_elements,
T* out_ptr) {
T upper_bound = static_cast<T>(pow(2.0, quantization_bit - 1)) - 1;
T lower_bound = -upper_bound - 1;
T scale = static_cast<T>(pow(2.0, static_cast<int32_t>(shift)));
FOR_RANGE(int64_t, i, 0, num_elements) {
T out = std::nearbyint(in_ptr[i] / scale);
out = out > upper_bound ? upper_bound : out;
out = out < lower_bound ? lower_bound : out;
out_ptr[i] = out * scale;
}
}
std::nearbyint
函数,这个函数其实就对应numpy的round
操作。而我们知道round
函数中几乎每一处梯度都是0,所以如果网络中存在这个函数,反向传播的梯度也会变成0。weight
上。这样一来,由于卷积中用的weight
是经过伪量化操作的,因此可以模拟量化误差,把这些误差的梯度回传到原来的 weight
,又可以更新权重,使其适应量化产生的误差,量化训练也可以正常运行。dy
赋值给dx
,在OneFlow中通过identity
这个Op即可:组件三:Quantization
3
基于OneFlow量化感知训练AlexNet
https://github.com/Oneflow-Inc/models/pull/78
看到。在8Bit的时候无论是选用Google还是寒武纪,对称还是非对称,PerLayer还是PerChannel,量化感知训练后的模型精度没有明显降低。一旦将量化Bit数从8降到4,在相同的超参配置下精度有了明显下降。- quantization_ops 伪量化OP实现
- q_module.py 实现了Qparam类来管理伪量化参数和操作和QModule基类管理伪量化OP的实现
- conv.py 继承QModule基类,实现卷积的伪量化实现
- linear.py 继承QModule基类,实现全连接层的伪量化实现
- ...
- models 量化模型实现
- q_alexnet.py 量化版AlexNet模型
- quantization_aware_training.py 量化训练实现
- quantization_infer.py 量化预测实现
- train.sh 量化训练脚本
- infer.sh 量化预测脚本
由于量化训练时需要先统计样本以及中间层的 scale
、zeropoint
,同时也频繁涉及到一些量化、反量化操作,所以实现一个QParam基类封装这些功能。实现了一个量化基类 QModule
,提供了三个成员函数__init__
,freeze
。__init__
函数除了需要i指定quantization_bit
,quantization_scheme
,quantization_formula
,per_layer_quantization
参数外,还需要指定是否提供量化输入参数(qi
) 及输出参数 (qo
)。这是因为不是每一个网络模块都需要统计输入的scale
,zero_point
,大部分中间层都是用上一层的qo
来作为自己的qi
,另外有些中间层的激活函数也是直接用上一层的qi
来作为自己的qi
和qo
。freeze
这个函数会在统计完scale
,zero_point
后发挥作用,这个函数和后训练量化和模型转换有关。如下面的量化公式所示,其中很多项是可以提前计算好的,freeze
就是把这些项提前固定下来,同时也将网络的权重由浮点实数转化为定点整数。基于这个 QModule
基类定义QConv2d
,QReLU
,QConvBN
等等。
QConvBN
表示Conv和BN融合后再模拟量化。原理可以看第一节的第4篇参考资料。这里以QConv2d
为例看看它的实现:from quantization_ops.q_module import QModule, QParam
__all__ = ["QConv2d"]
class QConv2d(QModule):
def __init__(self, conv_module, qi=True, qo=True, quantization_bit=8, quantization_scheme='symmetric', quantization_formula='google', per_layer_quantization=True):
super(QConv2d, self).__init__(qi=qi, qo=qo, quantization_bit=quantization_bit, quantization_scheme=quantization_scheme,
quantization_formula=quantization_formula, per_layer_quantization=per_layer_quantization)
self.quantization_bit = quantization_bit
self.quantization_scheme = quantization_scheme
self.quantization_formula = quantization_formula
self.per_layer_quantization = per_layer_quantization
self.conv_module = conv_module
self.fake_quantization = flow.nn.FakeQuantization(
quantization_formula=quantization_formula, quantization_bit=quantization_bit, quantization_scheme=quantization_scheme)
self.qw = QParam(quantization_bit=quantization_bit, quantization_scheme=quantization_scheme,
quantization_formula=quantization_formula, per_layer_quantization=per_layer_quantization)
self.quantization = flow.nn.Quantization(
quantization_bit=32, quantization_scheme="affine", quantization_formula="google")
def forward(self, x):
if hasattr(self, 'qi'):
self.qi.update(x)
x = self.qi.fake_quantize_tensor(x)
self.qw.update(self.conv_module.weight)
x = flow.F.conv2d(x, self.qw.fake_quantize_tensor(self.conv_module.weight), self.conv_module.bias,
stride=self.conv_module.stride,
padding=self.conv_module.padding, dilation=self.conv_module.dilation,
groups=self.conv_module.groups)
if hasattr(self, 'qo'):
self.qo.update(x)
x = self.qo.fake_quantize_tensor(x)
return x
def freeze(self, qi=None, qo=None):
if hasattr(self, 'qi') and qi is not None:
raise ValueError('qi has been provided in init function.')
if not hasattr(self, 'qi') and qi is None:
raise ValueError('qi is not existed, should be provided.')
if hasattr(self, 'qo') and qo is not None:
raise ValueError('qo has been provided in init function.')
if not hasattr(self, 'qo') and qo is None:
raise ValueError('qo is not existed, should be provided.')
if qi is not None:
self.qi = qi
if qo is not None:
self.qo = qo
self.M = self.qw.scale.numpy() * self.qi.scale.numpy() / self.qo.scale.numpy()
self.conv_module.weight = flow.nn.Parameter(
self.qw.quantize_tensor(self.conv_module.weight) - self.qw.zero_point)
self.conv_module.bias = flow.nn.Parameter(self.quantization(
self.conv_module.bias, self.qi.scale * self.qw.scale, flow.Tensor([0])))
__init__.py
中,conv_module
是原始的FP32的卷积module,其它的参数都是量化配置参数需要在定义模型的时候指定,forward
函数模拟了FakeQuantization的过程,freeze
函数则实现了冻结权重参数为定点的功能。其它的量化Module实现类似。https://github.com/Oneflow-Inc/models/blob/add_quantization_model/quantization/models/q_alexnet.py
,完成量化感知训练以及模型参数定点固化等。4
注意,上面的实现只是Demo级别的
Eager Mode Quantization
def __init__(self, num_channels=1):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(num_channels, 40, 3, 1)
self.conv2 = nn.Conv2d(40, 40, 3, 1)
self.fc = nn.Linear(5*5*40, 10)
def forward(self, x):
x = F.relu(self.conv1(x))
x = F.max_pool2d(x, 2, 2)
x = F.relu(self.conv2(x))
x = F.max_pool2d(x, 2, 2)
x = x.reshape(-1, 5*5*40)
x = self.fc(x)
return x
def __init__(self, num_channels=1):
super(NetQuant, self).__init__()
self.conv1 = nn.Conv2d(num_channels, 40, 3, 1)
self.relu1 = nn.ReLU()
self.pool1 = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(40, 40, 3, 1)
self.relu2 = nn.ReLU()
self.pool2 = nn.MaxPool2d(2, 2)
self.fc = nn.Linear(5*5*40, 10)
self.quant = torch.quantization.QuantStub()
self.dequant = torch.quantization.DeQuantStub()
def forward(self, x):
x = self.quant(x)
x = self.relu1(self.conv1(x))
x = self.pool1(x)
x = self.relu2(self.conv2(x))
x = self.pool2(x)
x = x.reshape(-1, 5*5*40)
x = self.fc(x)
x = self.dequant(x)
return x
Conv
,Linear
这些含有参数的Module外,ReLU
,MaxPool2d
也要在__init__
中定义,Eager Mode Quantization才可以处理。ConV + BN、ConV + BN + ReLU、Conv + ReLU、Linear + ReLU、BN + ReLU
的折叠。modules_to_fuse = [['conv1', 'relu1'], ['conv2', 'relu2']] # 指定合并layer的名字
model_fused = torch.quantization.fuse_modules(model, modules_to_fuse)
model_prepared = torch.quantization.prepare(model_fused)
post_training_quantize(model_prepared, train_loader) # 这一步是做后训练量化
model_int8 = torch.quantization.convert(model_prepared)
FX Graph Mode Quantization
from torch.quantization.quantize_fx import prepare_fx, convert_fx
model = Net()
qconfig = get_default_qconfig("fbgemm")
qconfig_dict = {"": qconfig}
model_prepared = prepare_fx(model, qconfig_dict)
post_training_quantize(model_prepared, train_loader) # 这一步是做后训练量化
model_int8 = convert_fx(model_prepared)
理解
5
总结
其他人都在看
“我们决定去登月”| OneFlow开源这一年 对抗软件系统复杂性②:全局一致,统一隐喻 对抗软件系统复杂性①:如无必要,勿增实体 动态调度的“诅咒”| 原有深度学习框架的缺陷③ 再谈“去虚拟化”对深度学习系统的必要性