ECCV 2018 | 10篇论文+5项世界第一,记旷视科技ECCV之旅
当地时间 9 月 14 日,欧洲计算机视觉顶级学术会议 ECCV 2018 在德国慕尼黑圆满落幕。据悉,ECCV 2018 规模空前,有近 3200 人参加,接收论文 776 篇;另有 43 场 Workshops 和 11 场 Tutorials。旷视科技研究院在院长孙剑博士的带领下远赴盛会,用心用力,推动全球范围计算机视觉的技术交流与产品落地。
长期以来,计算机视觉三大学术顶会 CVPR、ECCV 和 ICCV 一起发挥着举足轻重的平台担当作用,帮助产学研各方代表展示技术实力,增进学术交流。旷视科技作为全球人工智能独角兽代表,是计算机视觉三大 “C 位”会议的积极参与者,ICCV 2017 旷视科技打破谷歌、微软垄断,成为第一个问鼎 COCO 冠军的中国公司;CVPR 2018 旷视科技全面进击,论文、Demo、挑战赛、酒会,一个不少,掀起一股产学研交流热潮。
这次的 ECCV 2018,旷视科技同样保持着较高的参与度并收获颇丰:
ECCV 2018 共收录 10 篇旷视科技研究院涵盖多个 CV 子领域的论文;
赢得 2018 COCO+Mapillary 挑战赛四项世界第一,成为 ECCV 夺冠最多的企业;
基于深厚的人脸识别技术积淀,旷视摘得 2018 WIDER Face Challenge 世界冠军。
下文将一一呈现旷视科技 ECCV 之行的点滴瞬间。
10 篇接收论文全面展现技术硬实力
据 ECCV 2018 官网信息,旷视科技共有 10 篇接收论文。从内容上看,论文涵盖 CV 技术的多个层面,小到一个新表示的提出,大到一个新模型的设计,乃至神经网络设计原则和新任务、新方法的制定,甚至弱监督学习的新探索,不一而足。
具体而言,旷视科技在以下技术领域实现新突破:网络架构设计(1 篇)、通用物体检测(2 篇)、语义分割(3 篇)、场景理解(1 篇)、文本识别与检测(2 篇)、人脸识别(1 篇)。
神经网络架构设计领域,ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design 不仅授之以鱼,还授之以渔,针对移动端深度学习提出
通用物体检测方面,旷视科技通过设计 1)新型骨干网络 DetNet 和 2)目标定位新架构 IoU-Net 推动该领域的发展。
DetNet: A Backbone network for Object Detection 的设计灵感源自图像分类与物体检测任务之间存在的落差。详细讲,DetNet 针对不同大小和尺度的物体而像 FPN 一样使用了更多的 stage;即便如此,在保留更大的特征图分辨率方面,它依然优于 ImageNet 预训练模型。但是,这会增加神经网络的计算和内存成本。为保证效率,旷视研究员又引入低复杂度的 Dilated Bottleneck,兼得较高的分辨率和较大的感受野。DetNet 不仅针对分类任务做了优化,对定位也很友好,并在 COCO 上的物体检测和实例分割任务中展现了出色的结果。
Acquisition of Localization Confidence for Accurate Object Detection (IoU-Net)实现了作为计算机视觉基石的目标检测技术的底层性原创突破。具体而言,通过学习预测与对应真实目标的 IoU,IoU-Net 可检测到的边界框的“定位置信度”,实现一种 IoU-guided NMS 流程,从而防止定位更准确的边界框被抑制。IoU-Net 很直观,可轻松集成到多种不同的检测模型中,大幅提升定位准确度。MS COCO 实验结果表明了该方法的有效性和实际应用潜力。研究员同时希望这些新视角可以启迪未来的目标检测工作。
旷视科技语义分割领域的论文占比最高:1)实现实时语义分割的双向网络 BiSeNet;2)优化解决语义分割特征融合问题的新方法 ExFuse;以及 3)通过实例级显著性检测和图划分实现弱监督语义分割的新方法。
BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation 的提出基于三种主流的实时语义分割模型加速方法,并在特征融合模块和注意力优化模块的帮助下,把实时语义分割的性能推进到一个新高度。
ExFuse: Enhancing Feature Fusion for Semantic Segmentation 针对语义分割主流方法直接融合高低特征不奏效的问题而提出,创新性地在低级特征引入语义信息,在高级特征嵌入空间信息,优化解决特征融合的问题。
Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation 通过整合显著性检测和图划分算法,提出一种新型弱监督学习方法,加速语义分割发展,其最大亮点是既利用每个显著性实例的内在属性,又挖掘整个数据集范围内不同显著性实例的相互关系。
旷视科技借助统一感知解析网络 UPerNet 来优化场景理解问题。Unified Perceptual Parsing for Scene Understanding 提出名为统一感知解析 UPP 的新任务,要求机器视觉系统从一张图像中识别出尽可能多的视觉概念;又提出多任务框架 UPerNet ,开发训练策略以学习混杂标注。UPP 基准测试结果表明,UPerNet 可有效分割大量的图像概念。
在文本识别与检测方面,旷视科技贡献了 1)新型端到端可训练网络 Mask TextSpotter 和 2)检测任意形状文本的灵活表征 TextSnake 两个技术点。
Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 受到 Mask R-CNN 启发,通过分割文本区域检测文本,可胜任任意形状的文本;另外,相比其他方法,Mask TextSpotter 还可借助语义分割实现精确的文本检测和识别。
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 可以拟合任意形状的文本,就像蛇一样改变形状适应外部环境;基于这一表示,出现了一种有效的场景文本检测方法,在包含若干个不同形式(水平、多方向、曲形)的文本数据集上做到当前最优。
GridFace 是旷视科技人脸识别领域的一项新突破。GridFace: Face Rectification via Learning Local Homography Transformations 可通过学习局部单应变换减少人脸变形,先校正,再识别,过硬的校正技术大幅提升了人脸识别的性能。相关实验结果已证明该方法的有效性和高效性。
2018 COCO+Mapillary 包揽四冠成最大赢家
ECCV 2018 最受瞩目的 COCO+Mapillary 联合挑战赛,中国战队夺获全部冠军。旷视科技参战 3 项 COCO 比赛和 1 项 Mapillary 比赛,分获 3 项 COCO 第一和 1 项 Mapillary 第一,四战皆胜,揽下了挑战赛的“大半江山”,在实例分割、全景分割和人体关键点检测上进行了迭代式新探索。
实例分割
实例分割是当前器视觉物体识别最前沿的技术之一,也是计算机视觉最核心的任务之一。旷视科技夺冠的关键是在模型的核心组件 Head 上做功夫,提出一种名为 Location Sensitive Header(LSH)的新方法。
传统 Mask R-CNN 方法借助 RoI Align 提高实例分割定位精度,但对 RoI Align之后的组件 Head 无暇顾及。旷视研究员发掘出一个对实例分割友好,对定位精度敏感的 Head。概括来说,LSH 重新设计了任务之间的组合,把分类和分割 combine 起来,这样做不仅可以优化开发实例分割定位能力,还可有效避免定位和分类之间的冲突。最终,旷视科技以 mmAP 0.486 的成绩拿下并列第一。
全景分割
全景分割是这次挑战赛的一项全新任务,代表着当前计算机视觉识别技术最前沿,没有之一。从任务层级看,全景分割会比实例分割更进一步。针对这次大赛,在端到端框架探索折戟之后,旷视研究员选定一种 two-fold 方案:整合语义分割和实例分割算法的输出。
这一做法需要克服两个问题:1)Stuff 的特殊性;2)Thing 的遮挡。首先,旷视研究员针对 Stuff 设计试验了更强的 Encoder Network,又针对 Stuff Context 设计专门的 Object Context Network,保证 Stuff 的性能;其次,由于放弃端到端框架,在图像融合之时会出现遮挡问题,旷视研究员给出了专门的 Spatial Hierarchical Relation 方法,根据不同物体的重叠面积排定图像理解的层级。旷视科技高歌猛进,最终在 COCO+Mapillary 实例分割两项任务中分别以 PQ 0.538 和 0.412 的成绩实力夺魁。
人体关键点检测
人体关键点检测需要在多角度、多目标、多尺寸等不受限条件下检测人体,同时精确定位人体关键点,自 2016 年第二届 COCO 挑战赛以来一直保留,目前是第三次迭代。COCO 2017,旷视科技曾夺得第一,这次乘胜追击,背后支撑的依然是“旷式”突破性技术。
由于当前主流的人体姿态估计网络都遭遇了瓶颈问题:增大骨干网络 Backbone 对精度提升的作用趋近于饱和,旷视研究员设计了新型 Cascade Backbone Network(CBN),可采用多层次跨阶段连接和由粗到细的监督策略,实现大幅的精度提升。CBN 采用小网络、多阶段、多层中间监督,跨阶段连接实现检测结果逐阶段精细提升,最终在 COCO 2018 人体关键点挑战数据集中获得 mmAP 0.764 的精度,顺利卫冕。
2018 WIDER Challenge 人脸识别挑战赛勇夺第一
ECCV ChallengemmAP
这项比赛中,旷视科技基于 RetinaNet 提出一种新型级联检测器,既吸取了 Cascade R-CNN 不断提高阈值 refine 检测框的 insight,又保证了inference 时依然是单阶段检测器,取长补短,兼得性能与速度。这一原创方法在单模型单尺度下 mmAP 超过第二名 1.4 个点,最终 mmAP 超过第二名 2.5 个点,以较大领先优势夺得第一名。
以上是旷视科技 ECCV 2018 之行的一些掠影。
作为全球计算机视觉独角兽参加计算机视觉顶会,是对自身实力的一个验证和砥砺,也是一次相互交流和学习的好机会。旷视科技始于计算机视觉,深耕计算机视觉,人工智能的爆发与深度学习的发轫也在计算机视觉,从机器之眼开始,正如五亿四千万年之前,寒武纪生物大爆发的一个主要诱因是眼睛的出现。
能看的机器之眼,是计算机视觉技术与应用的共同目标,只不过技术是第一步。ECCV 2018,旷视科技交上了一份满意的答卷,踏出、踏实、踏稳了 AI 技术第一步,那么下一步,以非凡科技在全球范围内铸成 AI+IoT,旷视科技正在飞奔而来。