正则1. 显示正则1.1 Drop OutDrop out 应用在网络中的相邻层之间。关键思想是在每次迭代时,随机地从神经网络中丢弃一些连接。1.2 Data augmentation数据增强通过对原有的样本进行变换(放缩、裁剪等),这样虽然传达的语义信息是相同的,但它们在模型看来却是不同的。1.3 Noise一种常见的正则化是在训练过程中注入噪声:将噪声添加或乘以神经网络的隐藏单元。在训练深度神经网络时,通过允许一些不准确的情况,不仅可以提高训练性能,还可以提高模型的准确性。除了向输入数据本身加噪,还可以将噪声添加到激活、权重或梯度中。太少的噪声没有影响,而太多的噪声则会使映射函数的学习难度过大。2. 隐式正则2.1 Early StopEarly Stop 是一种交叉验证策略,我们保留训练集的一部分作为验证集。当我们看到验证集上的性能越来越差时,我们就会停止对模型的训练。2.2 Batch Normalization批量归一化(BN,Batch Normalization)是一种将网络输入标准化的技术,应用于前一层的激活或直接输入。这种方法可以让网络的每一层都能尽量独立于其他层进行学习。BN是通过调整和缩放激活来对输入层进行归一化。
Neelakantan A, Vilnis L, Le Q V, et al. Adding gradient noise improves learning for very deep networks. arXiv 2015.Zhang C, Bengio S, Hardt M, et al. Understanding deep learning requires rethinking generalization. ICLR 2017.Wang H, Wu X, Huang Z, et al. High-frequency component helps explain the generalization of convolutional neural networks. CVPR 2020.