Workshop 1:弱监督视觉理解(上) | | VALSE2019
01
—
引言
问题导读:
1.弱监督视觉理解简介?
2.Valse19报告中弱监督的新方法有哪些?
3.弱监督学习技术给你的启发?
本次valse19会议研究热点:
超分辨率super resolution、derain
图像编辑image attr edition
图像分割segmentation
image caption
3d重建3d reconstruction
zero shot learning
多模态、cross model
目标tracking
人脸检测
再识别re-identification
Auto ML (NAS)
基本术语:
co-localization,共定位;
凸正则化,用来对非凸函数寻找更优的极小值点的方法;
incremental learning,增量学习;
Fine-grained,细粒度,图像更细致的信息的研究,比如物种的分类,难点是类间差异大,类内差异小。
02
—
弱监督视觉理解简介
监督学习与弱监督学习:
监督学习技术通过学习大量训练样本来构建预测模型,其中每个训练样本都有一个标签标明其真值输出。
弱监督分类:不完全监督:只有一部分训练数据具备标签;不确切监督:训练数据只具备粗粒度标签;以及不准确监督:给出的标签并不总是真值;
弱监督的含义:弱监督给出的标签会在某种程度上弱于我们面临的任务所要求的输出。
具体指引详见<Valse2019 workshop 1: 弱监督视觉理解1>
03
—
Valse19报告-弱监督技术报告汇总
Valse19报告中弱监督技术有哪些亮点?
国内外优秀研究者的报告如下,Hugh将会分别介绍其重点;
04
—
面向开放环境的自适应视觉感知-程明明教授
程明明教授简介:
Motivation:
当前各种深度网络的进步得益于网络多尺度信息综合能力的提升;
报告主要内容:
富尺度空间神经网络架构:多任务协同求解,鲁棒性提高;
显著性物体检测:预设基元属性感知能力,减少数据依赖;
互联网大数据自主学习:减少人工标注,自动学习。
富尺度空间神经网络是什么?
网络结构:一个富尺度空间的深度神经网络通用架构,在每一个基础网络上,对图像进行深度层上的分割,然后通过不同尺度的处理再结合到输出。
学习目标:富尺度指代通过CNN学习图像的位移、平移、形变等特性;
设计基准:金字塔结构;空间池化;残差学习。
显著性物体检测分类:
RGBD显著性物体检测
边缘检测
视觉注意力机制若监督语义分割
通用视觉基元属性感知方法分类
互联网大数据自主学习:减少人工标注,自动学习。
05
—
Cost-Sensitive Active Learning-黄圣军老师
Active Learning:主动学习
为了能够使用较少的训练样本来获得性能较好的分类器,主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度; 制定标准是主动学习的重点。
关于标注代价
黄老师提到标注代价的定义,并说明标注代价并不等于标注的数据量的多少,因为不同数据的标注代价可能不同,比如标注一个蛋白质的功能的代价可能因为需要专业人才而很高;
label的标注代价和缺失feature的标注代价
通过在主动学习中设置一些query的机制,来实现标注代价的最小化的同时模型效果的最大化。
参考论文
【2018-KDD】Cost-Effective Training of Deep CNNs with Active Model Adaptation
【2018-KDD】Active Feature Acquisition with Supervised Matrix Completion
06
—
细粒度图像分析-魏秀参老师
魏秀参老师:就职旷视南京研究院,创作《解析卷积神经网络 ——深度学习实践手册 》
报告指引:
1)细粒度图像分析领域;
2)细粒度图像检索现状;
3)细粒度图像识别现状;
4)细粒度图像分析相关任务;
5)细粒度图像分析发展展望。
细粒度基础:
细粒度图像分析的关键:找到细粒度物体的Keypoints,可以利用这些关键部位的不同,进行检索、识别等针对性的细粒度分析。
Content Based Image Retrieval(CBIR)是计算机视觉领域中关注大规模数字图像内容检索的研究分支。
图像检索的两个场景:1)文字搜图;2)以图搜图。
细粒度图像分析经典数据如下:
类别
名称
图像数量
细粒度分类
鸟类数据集
CUB200-2011
11788
200
狗类数据集
Stanford Dogs
20580
120
花类数据集
Oxford Flowers
8189
102
飞机数据集
Aircrafts
10200
100
汽车数据集
Stanford Cars
16185
196
提出方法:Selective Convolutional Descriptor Aggregation-SCDA
SCDA与与Mask-CNN的不同
在图像检索问题中,SCDA不仅没有精细的Part Annotation,无从获取图像级别标记;
该算法目标:在无监督条件下依然可以完成物体的定位,根据定位结果进行卷积特征描述子的选择,对保留下来的深度特征,分别做以平均和最大池化操作,之后级联组成最终的图像表示。
相关论文
Deep Learning for Content Based Image Retrieval: A Com-prehensive Study
Neural Codes for Image Retrieval
Supervised Hashing for Image Retrieval via Image Repr-esentation Learning
07
—
Towards weakly supervised object recongnition and scene parsing-魏云超老师
报告重点:提出HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation(该论文研究意义大,建议深入研读)
论文链接:http://cn.arxiv.org/pdf/1904.04514.pdf
代码链接:https://github.com/HRNet/HRNet-Image-Classification
创新点:
1. 不是像大多数现有解决方案那样串行连接, HRNET并行连接高分辨率到低分辨率的子网络;
2. 大多数现有的融合方案都将低层和高层的表示集合起来。相反,HRNET使用重复的多尺度融合;
效果好:在语义分割、目标检测、人脸特征点检测,HRNet效果有明显提升;
08
—
从弱监督到自学习视觉目标建模-叶齐祥老师
叶齐祥老师简介
叶老师分享打标签方法,只给目标物体上画一条线,只在目标物体上打一个点,仅仅告诉模型一系列图片中包含什么而不给位置,让模型自己学习找到这些目标。
基于pre-trained model弱监督学习的主要方法:使用各种预训练模型的强大的特征提取能力,进行弱监督的目标检测。
一个有趣的思考:
作者尝试直接使用预训练模型,找原图使得预训练模型最后一个卷积层激活较大的区域,然后发现在Image-Net上预训练模型虽然有很好的分类能力,但最后的激活层往往来自于原图中最有判别能力的部分而不是全部物体。举例:虽然预训练模型能将狗分类成狗,但是使得最后输出“狗”这个维度的激活最大的可能仅仅是狗头、狗腿这些比较discriminative的区域,而不是整个狗的instance segmentation,于是作者提出,将原图中最disciminative的区域擦掉(erase),然后再训练模型,如此反复,直到模型最后的激活来源于整个狗。
Valse19内容原创首发,Workshop1-10随笔已经准备好,下期发布深度学习模型设计的中、后内容,其他内容正在排版。
更多精彩内容请关注Hugh的公众号,知识星球,Hugh正在进行技术研讨,感兴趣的同学可以加入。
限时优惠福利
《Hugh技术分享》知识星球
原价198元,限时优惠只需99元!
扫码即可加入学习!
有效期一年,平均每天不到0.3元,就能够和一群优秀的计算机视觉爱好者一起交流进步,通过公开课、在线研讨形式解决学习、工作中问题。Hugh技术分享,最好的投资就是提升自己的未来。