查看原文
其他

【综述专栏】深度学习模型泛化性小结

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。

作者:知乎—joey chang

地址:https://zhuanlan.zhihu.com/p/361688783

泛化性指模型经过训练后,应用到新数据并做出准确预测的能力。一个模型在训练数据上经常被训练得太好即过拟合,以致无法泛化。

欠拟合、正常拟合以及过拟合

我们传统的统计学习理论(statistical learning theory)认为模型参数较多的时候,泛化能力应该会更差。而深度人工神经网络通常拥有比训练样本数量更多的模型参数,然而一些模型却能表现出更好的泛化能力。
因此,本文针对传统对于泛化能力的看法不能够解释不同神经网络之间泛化能力的本质区别。我们通过分析现有的一些关于深度学习泛化方面的研究,进行总结分类如下:
一、正则 (Regularization)
1. 显式正则 (Data augmentation,Noise 和 Dropout)
2. 隐式正则 (Early stop,Batch normalization)
二、模型优化 (Model Optimization)
三、对抗攻击(Adversarial Attack)

01

正则
1. 显示正则
1.1 Drop Out
Drop out 应用在网络中的相邻层之间。关键思想是在每次迭代时,随机地从神经网络中丢弃一些连接。
Drop Out 示例
1.2 Data augmentation
数据增强通过对原有的样本进行变换(放缩、裁剪等),这样虽然传达的语义信息是相同的,但它们在模型看来却是不同的。
1.3 Noise
一种常见的正则化是在训练过程中注入噪声:将噪声添加或乘以神经网络的隐藏单元。在训练深度神经网络时,通过允许一些不准确的情况,不仅可以提高训练性能,还可以提高模型的准确性。除了向输入数据本身加噪,还可以将噪声添加到激活、权重或梯度中。太少的噪声没有影响,而太多的噪声则会使映射函数的学习难度过大。
2. 隐式正则
2.1 Early Stop
Early Stop 是一种交叉验证策略,我们保留训练集的一部分作为验证集。当我们看到验证集上的性能越来越差时,我们就会停止对模型的训练。
训练集和测试集误差
2.2 Batch Normalization
批量归一化(BN,Batch Normalization)是一种将网络输入标准化的技术,应用于前一层的激活或直接输入。这种方法可以让网络的每一层都能尽量独立于其他层进行学习。BN是通过调整和缩放激活来对输入层进行归一化。
没有正则化和加入正则化层的网络对比

02

模型优化
Zhang 等人认为SGD的过程本身带有一个隐含的正则效果。换句话说,优化方法本身限制了模型的解空间,使得学到的模型就有一定的泛化能力。

03

对抗攻击
在机器学习模型中加入抗性数据,可以得到欺骗的识别结果。如果我们能增强模型的抗攻击能力,自然可以提升模型的泛化能力。
对抗攻击样例
Wang 等人从频域的角度对模型训练进行分析。在一个有限的数据集中,除了数据语义和 label 关联之外,还有一些与高频噪音的关联。因此,当训练一个模型的时候,如果没有指明模型应该学习数据语义还是这些高频信号,模型可能会两者都会去学,而这将对模型泛化能力产生很大的影响。更多资料:CMU团队解析CNN泛化能力:一切秘密都在数据中(https://zhuanlan.zhihu.com/p/248068207)
例如,BatchNorm 之所以能够如此有效地提高模型的准确率,可能是在鼓励模型大量使用高频信息。对抗攻击样本如果包含与label关联的高频信息,便会成功地欺骗模型。

参考文献:

Neelakantan A, Vilnis L, Le Q V, et al. Adding gradient noise improves learning for very deep networks. arXiv 2015.
Zhang C, Bengio S, Hardt M, et al. Understanding deep learning requires rethinking generalization. ICLR 2017.
Wang H, Wu X, Huang Z, et al. High-frequency component helps explain the generalization of convolutional neural networks. CVPR 2020.

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“综述专栏”历史文章


更多综述专栏文章,

请点击文章底部“阅读原文”查看



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存