极市亮相VALSE2019:从技术报告中洞察计算机视觉最新进展和未来趋向
VALSE2019于4月11日在合肥成功举办,此次盛会邀请了各界青年学者,共同研讨计算机视觉的最新课题与发展方向,是一次视觉领域的交流会,一次学术课题的分享会,一次研究成果的展示会。在本届VALSE2019的大平台上,各高校与各企业分享了学术界与工业界的最新进展,共同商讨了计算机视觉的未来发展主题。这次大会在成果的交流与思想的碰撞中,擦出计算机视觉领域最新的火花。下文将会整理本次大会主题报告及workshop的技术总结~
本文技术总结部分转载自公众号:SIGAI
VALSE2019 极市亮相
大会现场
极市平台在这场高水平的视觉盛会中也展示了作为国内首家视觉算法平台的优势,吸引了众多计算机视觉方向的嘉宾,老师和学生,更有合作过的开发者前来交流,不仅收获了很多的支持和鼓舞,也让更多人了解到极市平台。
极市宣传视频
极市展位
不仅如此,我们还建立VALSE开发者交流群,为大家分享大会主题报告和workshop的实拍PPT图,以及poster实拍图和pdf下载,点击下方链接获得资料获取方式。
干货 | VALSE 2019 一键领取workshop、资源礼包、丰富奖品~
VLASE 2019 | Poster展示/主题报告/极市福利,精彩玩不停~
极市开发者平台(cvmart.net)是极视角旗下的视觉算法开发及算法应用变现平台。作为国内首家视觉算法平台, 极市 AI 训练系统为开发者预置真实场景标注数据集,业界学界前沿工具套件,强大云端算力支持,算法 SDK 化 自动化工具等,让开发者更快开发出更高质量的算法。同时,极市 AI 应用系统将开发者已实现的算法进行产品化落地到行业应用,并通过算法商城分发到规模化的渠道获取持续性的收益。
极市通过定期邀请业界和学界有经验有技术的算法工程师和博士硕士分享纯视觉的前沿技术干货,建立了开放性的CV 技术分享交流社区,并提供定制化项目需求实战等来帮助开发者迅速得成长并从技术中获取丰厚的收益。极市致力于与开发者一起打造视觉行业的开放生态圈,让智能化真正融入人们的日常生活。
VALSE2019 技术总结
本次大会涵盖的主题非常丰富,包含了计算机视觉领域的各个方面,从弱监督学习、迁移学习、元学习,到细粒度识别、三维视觉、模型结构搜索,再到医学影像智能分析,以人为中心的视觉理解、在线视觉跟踪。同时涵盖了计算机视觉的基本任务,与计算机视觉的最新应用,可以说本次大会是一次承前启后的计算机视觉盛筵。
首先,计算机视觉的热门研究方向越来越趋向少样本学习、迁移学习与自动化学习,这也正是VALSE2019很多 Workshop与Tutorial的主题。自深度学习方法兴起,CNN在计算机视觉各领域上都取得了相当优秀的成绩,CNN虽然可以从大量数据中提取有效的特征,但它对于数据数量与广泛性的依赖一直都是它的短板之一,尤其是最近一年,数据的获取与标注已陷入瓶颈,我们不仅需要大量的数据,更需要高精度的标注,这个问题越来越严重,成为限制CNN发展的一个问题之一。同时,如何加强CNN模型的泛化能力,让训练好的CNN模型更好地适应新的数据也是计算机视觉的研究热点。尽管我们可以使用万或百万量级的数据进行训练,但训练数据也仅仅是所有数据的一个小子集,其分布并不代表整体数据的分布,那么如何有效地在已知数据中挖掘出整体数据的共性,也是当前计算机视觉面临的困境。弱监督学习、迁移学习与元学习都是致力于解决这些问题的方法。本次VALSE2019大会的第一天当晚,与第二天的讲座详细介绍了当前弱监督学习与迁移学习的基本任务与难点,当前研究成果与应用。
此外,CNN的网络结构设计与训练需要大量的专家经验,如何自动地学习有效的网络结构,也是当前计算机视觉热门主题之一。从AlexNet将CNN重新被世人认可,再到VGG,GoogleNet,ResNet,DenseNet等越来越多人工设计的有效网络结构应用于计算机视觉领域,有效网络结构的探索耗时多年,倾注了大量研究者的心血。如今自动化地探索网络结构,设计出专用的或泛化能力更强的网络结构,成为计算机视觉方向的热点之一。本届VALSE2019关于深度模型设计的Workshop即着眼于网络结构搜索,各高校与企业的青年学者介绍了该方向的基本任务,研究进展,以及发展前景。
其次,计算机视觉是一个注重应用的学科,计算机视觉研究的根本目的之一也是助力于人类生活。本届VALSE大会的Workshop中包含了计算机视觉应用的诸多方向:医学成像、视频监控、三维建模与在线跟踪等,在这些讲座上,各高校与企业共同交流,探讨了计算机视觉领域的各应用场景,解决方案,以及实际成果,碰撞出更新的观点与思路。在本届大会讲座的同时,各企业在展厅中展示了相关工作的效果,这也正是计算机视觉与人工智能落地的成果。
最后,VALSE2019大会回顾了2018年度计算机视觉领域的关键进展,包括了图像语意分割、图模型、GAN理论算法,深度模型结构等学术问题,以及人脸表情识别,行人再识别等应用问题。这是对去年计算机视觉领域研究成果的一次汇报,同时也是对今年研究方向的启示。
VALSE2019研讨会紧跟计算机视觉研究的热点方向,各青年学者齐聚一堂,共同探讨科研进展与应用成果,为所有计算机视觉研究者提供了一个学习、交流、思考、合作的平台。
以下为几位参加VALSE大会的小伙伴分享其在VALSE的收获及见闻,仅供参考,也欢迎大家留言一起交流。
Workshop:以人为中心的视觉理解研讨会 参会记录
4月12日上午,笔者参见了VALSE2019的研讨会--以人为中心的视觉理解。研讨会现场座无虚席,为了能够抢到一个好位置,本人早上7点30就来到合肥国际会展中心的第五会场。各位大佬围绕视觉行为分析理解进行了长达4小时的报告:
一、基于视频的时序建模和动作识别方法 (王利民)
当前视频行为识别主要是在三种场景:
In the Lab
In TV,Movies
In web videos
视频动作识别的机遇和挑战:
机遇:视觉信息提供了大量、丰富的数据用于视觉理解;动作是运动感知的核心且能够衍生许多视频理解的应用。
挑战:复杂的动态时序变化,动作的定义不明确,噪声和行人的弱标记信息,昂贵的计算资源和存储代价。
由于视频在图像的基础上增加了一维时序信息,王利民老师从短期(Short Term)、中期(Middle Term)、长期(Long Term)三个角度对视频的时序信息进行建模。首先,回顾了基于深度学习的视频行为识别主流方法,比如two-stream,C3D,SlowFast Network。
然后,王老师重点分享了其本人在视频行为识别的一些工作。主要包括:
短期建模方法:Appearance-and-Relation Net(ARTNet)
中期建模方法Temporal Segment Network—TSN
长期建模方法(Untrimmed Net)
复杂视频的深度高效分析与理解方法(乔宇)
在报告中,乔老师首先回顾了深度网络的结构演化AlexNet、GoogLeNe、VGGNet、ResNet、DenseNet,给出深度网络发展的几个重要方法:
优化(optimization),主要包括ReLu、Batch Normalization、Stage-wise training(or better initialization)、Identity Connection in ResNet.
过拟合overfitting,包括Dropout,Data Argumentation
结构设计Architecture Design,包括3×3 Layer in VGG,Inception Module以及ResNet Block
轻量级Light parameter,包括3×3 Conv in VGG,1×1 Conv+Bottleneck。
乔老师作为国内视频行为识别的大佬,分享了自己视觉生涯的三个阶段,其谈到CV是一个长期充满挑战且十分具有前景的研究领域,希望广大学生脚踏实地的做研究。在第一阶段的山脚(~2011年),主要采用传统方法去处理视觉的难题(检测、分割等),效果不如人意;在第二阶段的爬坡期(2012年后的深度学习),深度学习方法极大地推动了视觉各项任务的发展;在第三阶段的登顶期(未来),将朝着超级视觉去发展(本人理解为多模态融合的视觉技术)。
随后,乔老师分享了人脸检测(MTCNN、ICC-CNN)和人脸识别的一些工作。重点从人脸识别的loss发展进行了分享,从早期的softmax Loss、Contrastive Loss、Tripetloss、Center loss的系列改进。
在视频行为识别与理解方面,乔老师分享了一系列他们实验室的工作,包括:2013年的视频中层表示与结构模型、2014年的轨迹卷积特征TPD以及视频特征编码学习、2016年的运动向量网络EMV-CNN和时序分割模型TSN,以及2017年后的姿态递归注意网络RPAN和非监督强化视频概要。
以人为中心视觉识别和定位中的结构化深度学习方法探索 欧阳万里
欧阳万里老师分析了传统的卷积网络的存在的问题:1)同一层的神经元没有连接;2)相邻层的神经元是全连接,没有保证局部区域的信息。从而引出每一层网络的各神经元具有结构化信息的。然后以人体姿态估计为例,分析了基于全连接神经网络的问题:在对人体节点的距离进行建模需要大的卷积核以及一些关节点的关系是不稳定。提出结构化特征学习的人体姿态估计模型(Bidirectional Tree)。
此外,为了统一利用像素级、区域级以及图像级任务的优势,欧阳万里老师提出了FishNet,FishNet的优势是:更好的将梯度传到浅层网络,所提取的特征包含了丰富的低层和高层语义信息并保留和微调了各层级信息。
面向监控视频的行为识别与理解 林巍峣
由于监控视频具有场景相对固定、目标较小、行为复杂等特点,对监控视频的行为识别和理解已成为计算机视觉领域的最新挑战。林老师在报告中介绍了行为识别技术的发展和主要类别,然后介绍了其课题组的一些工作进展,主要包括多目标轨迹鲁棒提取,基于轨迹信息的行为识别,基于时空序列的行为识别以及密集场景行为理解等。
在目标检测方面,介绍了三个在真实场景应用的工作:
1)一种轻量级的目标检测网络(tiny DSOD)
2)一种更加准确的基于AP-loss的One-stage目标检测框架。
在研讨会的结束的时候,进行了长达20分钟的pannel。各专家针对视频行为识别的问题进行了探讨,重点对视频行为的计算资源和数据标注问题进行了探讨,并对真实监控视频场景下的空时定位和异常行为进行了简要分析。
NAS(Nueral Architecture Search): 未来之匙,大有可为
以深度学习为基础的各种算法实现了自动从数据中提取特征,逐步改变了传统算法手工设计特征的局面。然而,目前的神经网络设计仍然需要领域内专家花费很长时间才能进行设计调整才能得到高效精巧的模型。神经网络结构搜索实现了自动化结构搜索以及权重调整。
目前NAS发展仍然处于初级阶段,但其对于未来神经网络设计的研究是具有重大影响的。来自美国约翰霍普金斯大学的谢凌曦提出神经网络搜索所处的研究阶段大致相当于2011年前神经网络研究相同,目前没有一个处于绝对统治地位的实现方式。另外,受限于数据集,目前的NAS研究仍然使用传统的CIFAR10,CIFAR100抑或ImageNet 数据集进行训练,这在某种程度上限制了下一代神经网络设计所能达到的效果。如何设计适应于NAS研究所使用的数据集是一个亟需解决的开放的研究话题。另外,谢凌曦组针对目前NAS训练时间长,需要使用小数据集作为Proxy的缺陷,他们在DARTS上进行改进,提过了多阶段逐步加深的训练方法,使用了搜索空间近似以及搜索空间约束等方法,使用了大大减少了模型搜索的时间。
来自旷视的张祥雨则从实际工业应用出发,针对在模型部署阶段关于模型复杂度以及计算效率的要求出发,讲解了旷视在高效轻量级深度模型领域的研究成果,从ShuffleNet到ShuffleNet V2的设计,然后到Single Path One- Shot Neural Architecture Search with Uniform Sampling在NAS领域的探索。张提出产品线上有很多对于模型在不同设备上进行模型适配的的需求,NAS可以作为一种新型的模型适配方案,将部署设备的运算能力等特性作为NAS搜索等限制条件来搜索高效的网络模型,实现精度,效率以及灵活性的权衡。
众所周知,2015年提出的ResNet目前已经被广泛使用在分类,检测,分割等各个方向当中。在深度学习模型设计的Panel时间,张翔雨分享了在设计ResNet的历程。ResNet的设计源于对于GoogleNet的研究。在GoogleNet的论文中,作者将网络的取得的效果归功于不同大小的卷积核所提取的多尺度特征。而张等人在研究过程中发现,在删除不同大小卷积核的对比实验中,卷积核的影响是非常大的,这成为了他们设计shortcut的灵感来源。而他们关于GoogleNet的研究前前后后持续了一年左右。考虑到目前NAS所搜索出网络所达到的结果和时间,这进一步让我们更加期待NAS的未来。
VALSE2019舞动合肥
虽然VALSE已经成功举办8届,虽然已经关注VALSE 5年之久,但是这还是笔者第一次参会。以往只能在paper中看到的名字,这次真的可以见到真人了,笔者化身迷妹,仔细品位各位大牛带来的学术盛宴。由于时间冲突,笔者不能一一听取每一位讲者的报告,只能选择感兴趣的以及与自己强相关的报告来消化吸收。
本次workshop或者tutorial几乎所有的报告都是深度学习相关,在大数据、集群GPU等的大力发展和支撑下,深度学习在计算机视觉领域全面产业落地,这次参会明显感受有以下几点:
1. 缺乏训练数据是产业和学术界的普遍问题,工业界应用产品落地很大程度上取决于有监督学习,但是在实际的场景中,标注数据的获取成本太高,一个检测目标框标注虽然只有几毛钱,但是标注几万张、几十万张图片需要耗时大量的人力和时间,因此在数据匮乏的情况下,如何进行弱监督学习甚至是无监督学习称为学术界普遍关心的问题,迁移学习也是研究的热点之一,毋容置疑监督学习目前是成熟度最高的,已经成功商用,有学者指出下一走上商用的技术将会是迁移学习。
2. 深度学习在很多领域都取得了不错的效果,但调参对于模型训练者来说是一件非常痛苦的事情,超参数和网络结构参数的调整确实会对模型精度提升带来一定的效果,但常规的random search和grid search效率非常低下,因此网络结构搜索(Neural Architechture Search, NAS)成为研究热点之一。AutoML更加简单快速和智能,只需要训练数据即可让AutoML独立完成网络设计,深度学习领域的自动化正在席卷而来。
3. 移动端的深度学习风起云涌,在展台上看到很多手机上应用深度学习的demo,虽然目前只是互动娱乐,相信在不远的将来会深度学习会对我们的日常生活带来更大的影响。为了使得深度学习模型可以跑在移动端,轻量化的模型必不可少,模型剪枝和压缩势在必行。
截止到12日晚,所有的workshop和tutorial已经分享完毕,相信跟我一样慕名来参会的所有计算机视觉同行朋友会感到不虚此行,非常感谢主办方与承办方以及协办方、志愿者学生的辛苦和付出。
VALSE 2019 见闻
第一天晚上6点开始两场workshop,一场是关于弱监督视觉理解,一场是关于三维视觉和深度学习的,我选择去听了三维视觉的workshop。
首先主持人讲了三维视觉的研究问题,主要说了一下深度学习能够如何帮助3D视觉,以及深度学习在3D视觉中的挑战,3D视觉如何帮助深度学习等等。接下来介绍了几位讲者的信息,都是该领域深耕的大牛。
第一位给talk的是百度的杨睿刚老师,他主要讲的是百度无人驾驶如何模拟3D的感知和导航。
首先他讲到通过lidar,我们可以得到很多3D点云的信息,但是标注成本特别高,除此之外,无人驾驶没有办法收集到无穷无尽的数据,所以能够通过模拟生成仿真的数据有利于我们在这些仿生场景中测试无人驾驶的安全性。
然后整个talk的核心就是在讲他们通过仿真和3D的技术,可以实现数据的生成,首先将场景中的车全部拿掉,然后再用3D重建和合成的技术,在这个场景下生成他们需要的车,接着在视频层面生成运动的车辆,这样就能够生成无穷无尽的任意场景的数据,同时因为这些车都是合成的,所以自动就有了标注信息,根据这些生成的数据,就能一直做无人驾驶的仿真和模拟,比CARLA和AirSim的效果都要好很多,这个数据最后应该会开源。
最后总结一下,因为在真实场景中收集,标注,测试代价非常大,所以通过模拟仿真的方式生成数据是一个比较好的解决方法,最后提出从仿真场景到真实场景之间存在domain gap,抛出一个问题,是不是能够用 transfer learning 去解决这个问题。
第二位讲的老师是国防科技大学的徐凯老师,他主要讲的就是通过 hierarchical 信息来有效地进行3D的重建。
核心insight就是每个物体的3D信息能够被每个部分之间的层次信息有效的组织起来,这能够反映它们内部的联系,比如之间是连接关系还是对称关系等,通过auto-encoder来构建一个递归的神经网络,将任意的无标签的布局映射到一个隐含向量,这个隐含向量能够有效的捕获任意人造的3D物体的结构化信息。接着他讲到了3D场景理解,其核心还是在于场景中物体之间的hierarchical organization和layout。
第三位主讲老师是清华大学的刘烨斌老师,主要聚焦在3D人体重建上,能够应用在影视和广告特效上。
首先介绍了一下基于统计模板的人体动态重建方法,其中最为代表性的工作就是2015年马普所的SMPL,之后有很多基于2D图像生成3D人体的工作都是基于SMPL这个人体参数模型。这一类方法的优点就是无任何人工预处理,同时具有语义信息。缺点就是难以重建复杂的几何拓扑,比如裙子等纹理结构。
接着讲到了他们的一个工作,利用单深度相机进行语义化实时人体三维动态重建,SimulCap。人只需要在深度相机前面转一圈,就能够使用DoubleFusion的方法重建衣服的表面,接着利用颜色信息对衣服的表面进行语义分割。
考虑到深度相机的信息并不能在实际中获取,所以需要用RGB图像进行人体的重建,所以有了他们接下来的一个工作,利用单RGB图像进行人体动态三维重建 DeepHuman。整个框架由一个image encoder,volume-to-volume的网络,和一个refinement网络构成。
最后,因为通过RGB图像生成的3D人体模型仍然缺少语义信息,所以有了最近的一个工作,只利用单RGB视频进行人体的语义化建模,MulayCap。这个工作应该是他们正在做的工作,目前在网上找不到相关的论文。
最后,刘老师总结了整个内容,基于单图像和单视频是人体重建未来几年的热点,因为不需要引入额外的深度信息等,有利于实际应用。第二就是结合语义的信息重建可以丰富人体重建的应用,同时也需要更好的三维数据集,结合深度学习和传统优化算法。通过这个talk,刘老师将他们的一连串工作和motivation都非常好地展现给了听众。
下一个talk是自动化所申抒含老师讲的基于图像的大规模重建,整个发展方向是由稀疏点云重建,到稠密点云重建,到点云网络重建,再到三维语义重建,三维矢量重建,最后到语义地图重定位。
最后,场景的三维重建计算量非常大,主要还是基于几何方法进行重建,如何使用深度学习的方法也是一个非常好的研究方向。
最后一位是香港科技大学的沈劭劼老师,他是无人机领域的大牛,主要讲的3D视觉在无人机中的应用,听得不是很明白。
通过这一次的workshop,还是了解了很多关于3D视觉方面最新的研究方向和研究成果,而且感觉3D方向还是存在着一定的门槛,不像深度学习比较好进入,国内做3D视觉的组也不是很多,每年的paper也不算多,可能3D视觉在未来会成为一个热点问题。
迁移学习的前沿讨论环节
1、为什么迁移学习这么热?
龙明盛老师:
迁移学习关注的是学习模型的泛化能力,而在我们当前这个时代模型的泛化能力是一个永恒的话题。迁移学习从1995年提出,从05年到10年做了很多奠基的工作。从实验科学上说:当今迁移学习的火热主要是因为深度学习的发展,主要是证明了在大规模数据集上训练出来的模型有非常好的迁移能力,是迁移学习又热起来的关键。这些模型不只在自己领域上表现比较好,而且在相似领域上表现也比较好。从理论上说,对抗学习原理的引入也带来了很大的进展,因为这两个原理的理论是无缝衔接的。
段立新老师:
应用上:在传统工厂环境的监控设备,各个工厂的场地、使用的流水线也都不相同。这些图像就会有一些差异,如何把以前已经训练好的模型,更好的迁移到新的场景上来,也是非常重要的。瑕疵检测,不同物体,体现出的瑕疵不同。如不同的手机壳,这些瑕疵类型和采集的数据也有差异。工业界迁移学习可以用的场景特别多。
聂飞平老师:
可以举一反三。深度学习起了很大推动作用,深度学习也是受了人脑的启发所得到的模型。未来一些对人脑的思考可能也会带动迁移学习的发展。
黄老师:
迁移的本质问题是得到泛化性能好的表达,而这些工业界恰恰是最需要的。
邓成老师:
怎么样把人的先验引进来,迁移学习在不同的场景产生了很多的分支,这些需求也是带动迁移学习火热的原因。怎么样在迁移方向下,利用人的知识,尽小量的去标注数据,来提高迁移学习的性能。
左旺孟老师:
怎么获取数据和怎么标注数据还是个难题。迁移学习可以把这个问题分解开,如果一个域获取数据和训练模型相对容易,那就可以在这个域学一些模型,把这个域上的模型迁移到另外较难获取数据的域上去使用。在一些场景,如无人车,并不会真实去撞车来制造场景,而是会采用仿真模拟的方法去制造数据,深度学习加迁移学习会降低解决问题的成本。而且仿真数据和互联网数据获取相对容易,也推动了迁移学习。
2、迁移学习和GAN网络两者本身到底有什么区别?
左旺孟老师:
迁移学习是GAN的具体应用。GAN在刚提出时使用并不多,反而到了16年人们感觉GAN可以和迁移学习做结合以后,使用越来越多。
黄老师:
GAN是大迁移概念下实现的工具,用GAN去减小域之间的差异,但是有时候不知道在什么情况下,域和域之间的差异可以比较好的减小,并没有比较好的原则去定义,现在也在尝试使用GAN的方式看是否能够给不同域之间的转化做一些方便。
段立新老师:
两者可以互补相辅相成。迁移学习本身的理论体系还不是特别完善,如果能够把GAN的一些理论放到迁移学习理论里来,指导迁移学习指导怎么去迁移,可能会使迁移学习的理论更完善。
龙明盛老师:
从历史看,两者没有任何联系,并且迁移学习是监督学习,而GAN是无监督学习。大概是因为学科融合,这两者就体现了学科交叉和融合的趋势。但是两个领域研究的根本问题还是不一样的,GAN更多在分布的逼近,而迁移学习在做的是两个分布之间的匹配。
3、什么时候需要迁移适配,什么时候不需要?
段立新老师:
最后还是要以实验结果说了算。如何在事前就知道迁移是否能给我们带来比较好的结果,即通过两个数据集可以提取的数据分布去判断一个源域会不会给目标域带来一个比较好的应用效果,可能是接下来一个比较好的研究方向。
极市,期待与各位的下次再会~