【源头活水】T-PAMI 2021:换个损失函数就能实现数据扩增?
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://www.zhihu.com/people/wang-yu-lin-30-79
与传统数据扩增方法高度互补,有效地增进扩增多样性和进一步提升性能 巧妙地利用深度神经网络长于学习线性化表征的性质,在特征空间完成扩增过程,无需训练任何辅助生成模型(如GAN等),几乎不引入任何额外计算或时间开销 直接优化无穷扩增样本期望损失的一个上界,最终形式仅为一个全新的损失函数,简单易用,便于实现 可以广泛应用于全监督、半监督图像识别、语义分割等视觉任务,在ImageNet、Cityscapes等较大规模的数据集上效果比较明显
01
02
03
ImageNet 图像识别,在ResNet系列网络上的提升效果普遍在1%左右
与效果较佳的传统数据扩增方法有效互补(RA、AA分别代表RandAugment[4]和AutoAugment[5])
半监督学习实际效果,可在现有方法基础上有效提升
Cityscapes 语义分割,可以在PSPNet[6]和DeepLab-V3[7]的基础上将mIOU提升1%以上
为了证实我们的确实现了语义数据扩增,我们利用BigGAN[8]在ImageNet上进行了可视化实验,其结果如下图所示。其中 Augmented 中的图片为ISDA扩增的结果,Randomly Generated 中的图片为BigGAN随机生成的图片。可以看到,ISDA所改变的语义包括狗的动作、鸟的背景、帆船的远近及位置、车的视角、热气球的颜色等,并不改变类别标签,且可以显著地看出,这些扩增得到的样本分布与原图片更为接近,而与类内随机样本差距较大。这些观察与我们前文所述的假设是高度吻合的。
04
@inproceedings{NIPS2019_9426,
title = {Implicit Semantic Data Augmentation for Deep Networks},
author = {Wang, Yulin and Pan, Xuran and Song, Shiji and Zhang, Hong and Huang, Gao and Wu, Cheng},
booktitle = {Advances in Neural Information Processing Systems (NeurIPS)},
pages = {12635--12644},
year = {2019},
}
@article{wang2021regularizing,
title = {Regularizing deep networks with semantic data augmentation},
author = {Wang, Yulin and Huang, Gao and Song, Shiji and Pan, Xuran and Xia, Yitong and Wu, Cheng},
journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence},
year = {2021}
}
05
1. abcdUpchurch P, Gardner J, Pleiss G, et al. Deep feature interpolation for image content changes[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7064-7073.
2. Bengio Y, Mesnil G, Dauphin Y, et al. Better mixing via deep representations[C]//International conference on machine learning. 2013: 552-560.
3. Li M, Zuo W, Zhang D. Convolutional network for attribute-driven and identity-preserving human face generation[J]. arXiv preprint arXiv:1608.06434, 2016.
4. Cubuk E D, Zoph B, Shlens J, et al. Randaugment: Practical automated data augmentation with a reduced search space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 702-703.
5. Cubuk E D, Zoph B, Mane D, et al. Autoaugment: Learning augmentation policies from data[J]. arXiv preprint arXiv:1805.09501, 2018.
6. Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2881-2890.
7. Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.
8. https://github.com/ajbrock/BigGAN-PyTorch
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
Transformer in CV—— Vision Transformer
Inductive Biases for Deep Learning By Bengio
OneNet: End-to-End One-Stage Object Detection
基于认知图谱实现多跳阅读
A Little Introduction of Neural ODE
PDE遇见深度学习
Seesaw Loss:一种面向长尾目标检测的平衡损失函数
预测未来-随机视频生成
从Thinker到Evolver:对可演化AI芯片的探索
探讨旋转目标检测中anchor匹配机制问题
从频域角度重新思考注意力机制——FcaNet
NeurIPS 2020:一叶知秋 —— 基于“单目标域样本”的领域自适应方法
关于attention机制的一些细节的思考
Subgraph Neural Networks
Sparse R-CNN:简化版fast rcnn
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!