清华徐昆团队 | 基于合成数据的对比自监督表征学习
利用深度神经网络学习视觉表征往往需要大量的人工标记数据,从现实生活场景中获取这些数据代价较高。近年来,将输入本身作为监督信息的自监督学习因其在视觉表征学习(visual representation learning)方面的优异性能而备受青睐。清华大学徐昆副教授团队提出一种对比自监督框架(contrastive self-supervised framework)用以在合成数据中学习通用的视觉表征,合成数据具有完全可控且容易获取的特点,为了减小真实数据与合成数据间存在的领域差异问题,团队还采用了一种基于对抗训练的特征级域自适应技术。实验表明,该方法在多个视觉识别数据集上取得了良好效果。相关成果已发表于IJAC,全文开放获取!
图片来自Springer (点击上图下载全文)
卷积神经网络(Convolutional neural networks, ConvNets)在计算机视觉领域取得了巨大进展。然而,这些成就需要基于大量训练数据的网络监督学习的支撑。近期工作尝试从没有任何人工标记的大规模无标记数据中学习视觉表征。其中具有代表性的方法就是自监督学习,该类方法先定义一个无需人工标签的辅助任务,基于输入本身构造监督信号来训练网络。使其通过完成诸如推断几何构造或恢复图像缺失部分等任务学习到具有语义信息的表征。
不同学习模型(图片来自论文)
有别于现有从真实数据中学习表征的自监督学习工作,本文旨在利用合成数据及其自动获取的标签来学习视觉任务通用的表征。与从现实世界中收集和标记的照片相比,合成数据更易获取且成本较低。举例来说,实际拍摄一些物体(如鸟类)的照片较为费时且获取的视角信息有限,而合成场景的全景视图却很容易得到。人们可以完全控制和获取合成数据的属性,如光照、物理信息、位姿等,利用这些数据增强模型的鲁棒性。
本文提出一种多任务自监督框架,利用合成数据中的语义信息学习通用视觉表征。具体而言,在合成场景中,本文提出的框架通过对比损失使得同一场景中不同视角的一致性达到最大化,并同时预测自动计算得到的物理线索,包括深度、实例轮廓图和表面法向图。此外,为解决合成图片与真实图片之间的域差异,本文还采用了一种基于对抗训练的特征级域自适应技术。实验验证了该方法在自监督学习中的有效性,实验结果达到现有最好水平。
本文所提框架(图片来自论文)
本文的其余部分组织如下:第2节总结了自监督学习方法的相关工作。第3节介绍了本文提出的合成数据表征学习框架。在第4节中,我们给出了在常用基准数据集上的实验结果。最后,第5节对本文进行了总结。
Contrastive Self-supervised Representation Learning Using Synthetic Data
Dong-Yu She, Kun Xu
https://link.springer.com/article/10.1007/s11633-021-1297-9
http://www.ijac.net/article/doi/10.1007/s11633-021-1297-9
特别感谢本文作者对以上内容的审阅和修改!本文作者依次为清华大学计算机系折栋宇博士(第一作者)、清华大学计算机系徐昆副教授(通讯作者)。
特别推荐
专题征稿 | 智能系统的安全性 (12月10日截稿)中国科学院自动化研究所高层次人才招聘启事 | 长期有效【前沿】全球首个!自动化所研发图文音三模态预训练模型
重磅 | 全球计算机领域Top1000期刊 & 科学家榜单发布@全体科研人,"十四五"规划圈出了攻关重点!直播回放 | 公茂果主讲:深度神经网络的结构优化
回放 & PPT | 澳科学院院士Brian Anderson最新报告
IJAC 2020高被引论文 & 优秀审稿人重磅 | 2021年国际学术会议参考列表
全球前列!IJAC"世界期刊影响力指数(WJCI)"喜人
最新 | 《2020全球工程前沿》全文
最新 | 2020研究前沿及热点解读
好文聚焦
北航马帅团队 | 综述: 正则表达式正确性保证陈伟能团队 | 综述: 面向复杂网络中社会传播问题的演化计算方法韩清龙团队| 综述: 动态事件触发的控制与估计毋立芳团队 | 综述:视频中的群体行为识别基于神经架构搜索技术(NAS)的2D&3D掌纹和掌静脉识别
张笑钦团队 | 综述:基于深度学习的视觉跟踪方法进展
基于机器学习探秘神经科学,解码思想、记忆、情绪......高效+高精度 | 汽车尾气排放趋势预测新框架
综述 | 进化计算在大规模多目标优化问题中的进展公茂果团队 | 综述:计算智能在遥感图像配准中的应用新模型!模拟人眼预测图像质量,失真也不怕
点击"阅读原文"下载全文