查看原文
其他

冠军拍了拍你——揭秘CVPR 2020 竞赛经验分享会上的冠军队伍

陈立婷 滴滴科技合作 2021-09-05

CVPR 2020竞赛经验分享会将于7月4日早上8:50准时开始,届时将有八支大牛队伍来与我们分享他们的胜者之悟。


我们邀请了哪些挑战赛的冠军呢?

这些挑战赛都是什么方向的呢?

冠军队伍们又都使用了什么方法取胜的呢?


想知道答案的话,快快往下看吧!


竞赛一

The 4th Look Into Person (LIP) Challenge

Look Into Person (LIP) Challenge已经成功举办了四届,今年北京邮电大学和华为诺亚实验室组成的小组在其中两个赛道——实例多人像解析和视频实例多人像解析——拿得冠军。实例多人像解析是指将人群场景图像划分为身体部位或衣服,同时区分不同人的身份,从而为图像中的每个像素分配一个语义部位标签(身体部位或衣服),并判断该像素属于哪个人。在多人像解析的基础上可以建立虚拟现实,视频监视和小组行为分析等应用,是其他视频合成技术的基础。北京邮电大学联合华为诺亚实验室团队获得上述两个赛道冠军。

https://vuhcs.github.io/

获奖团队成员

杨录[1]、宋晴(指导老师)[1]、王智慧[1]、许松岑[2]

[1]北京邮电大学;[2]华为诺亚实验室


主讲人:

杨录 | 北京邮电大学

分享题目QANet for Multiple Human Parsing


摘要:本方法针对多人体解析任务中的质量评估问题,提出了QANet(Quality Aware Network)。QANet可以预测人体解析结果的质量,并且综合检测得分、交并比得分、像素得分得出能够代表解析质量的质量分,大幅度提升了多人体解析的AP指标。



竞赛二

Image Matching Challenge

图像匹配是计算机视觉的基础步骤,在图像检索和三维重建中有着广泛应用。Image Matching Challenge旨在加快图像匹配领域的研究。该挑战赛鼓励与传统方法不同的图像匹配的新策略,并着重于针对3D重建和姿态估计的大规模、宽基线匹配的图像匹配技术。本次比赛提供的数据集包含超过 2.5 万幅图像,数据里包括了大量的大型建筑物在不同角度和各种光线下拍摄的图像。最终根据宽基线匹配与多视图重建两个任务的平均精度决定竞赛奖项归属。滴滴地图视觉计算团队在本次竞赛的Prize1中取得了第一名的好成绩。

https://vision.uvic.ca/image-matching-challenge/

获奖团队成员

沈忱[1]、王智鹏[1, 2]、张军[1]、陈众坤[1, 3]、阮志伟[1]、周景超[1]、许鹏飞(指导老师)[1]

[1]滴滴出行;[2]北京大学;[3]厦门大学


主讲人:

沈忱 | 滴滴出行

分享题目A Collection of Architectural and Data Wise Improvements to Image Matching Pipeline


摘要:融合视觉几何和深度学习方法,构建低噪声低冗余的数据集,在卷积描述子生成方法中提出了基于困难样本挖掘的二次合页损失函数优化策略,并在基于深度学习的图像匹配外点剔除算法中进行了一系列优化,显著地提升了相对位姿估计的准确性,形成一套完整、领先的图像匹配方法。



竞赛三

NTIRE 2020 Challenge on Image Demoireing: Methods and Results

数年来,随着图像去噪、图像去马赛克、超分辨率、去模糊、去雾等领域的进展,数码摄影已经趋于成熟。而莫尔条纹混叠是一个较少被关注的图像处理的基本问题。当相机的彩色滤波阵列(CFA)干扰了内容接近CFA分辨率的高频场景时,就会出现莫尔条纹。高频区域会导致传感CFA上的采样不足,并且在去马赛克时会产生破坏性的彩色图案,从而使图像质量下降。Image Demoireing挑战赛旨在推动该领域的研究。在Single Image(单图像)赛道中,参赛者需要从单幅图像中恢复原有图像。该赛道共吸引了142支队伍参与,最终厦门大学的曲延云老师团队夺得该赛道的第一。

https://data.vision.ee.ethz.ch/cvl/ntire20/

获奖团队成员

罗小同[1]、张江涛[1]、洪铭[1]、曲延云(指导老师)[1]、李翠华[1]、谢源[2]

[1]厦门大学;[2]华东师范大学


主讲人:

罗小同 | 厦门大学

分享题目Deep Wavelet Network with Domain Adaptation for Single Image Demoireing


摘要

1. 结合数据集的特点,采用全局上下文模块来学习图像的自相似性依赖。

2. 针对网络计算复杂度大,采用DWT和IDWT对特征图进行变换,减少信息丢失。

3. 针对训练集和测试集存在的差异,通过对齐源域和目标域特征的二阶统计量来进行网络微调。



竞赛四

WebVision Image Classification

WebVision Image Classification(网络视觉图像分类挑战赛)旨在推动从网络数据学习知识和表示的发展。网络数据不仅包含大量的图像信息,而且还包含有关这些视觉数据的丰富的元信息(例如周围的文本,标题,标签等)。这些信息可以被用来学习表示形式和模型。在本次挑战赛中,主办方提供了WebVision数据集,这个数据集包括了超过240万张从网路中爬取的图片以及这些图片的元信息。参赛者使用该数据集来训练他们的模型,最终以测试数据集的分类结果决定胜负。华为赢得今年挑战赛的第一名。

https://data.vision.ee.ethz.ch/cvl/webvision/challenge.html

获奖团队成员

杜泽伟[1]、陈航[1]、杨昭[1]、刘炳成[1]、魏龙辉[1]、迟亚雄[1]、陈政苏[1]、何建忠[1]、张晓鹏[1]、谢凌曦[1]、白小龙[1]、司宏杰[1]、田奇[1]

[1]华为


主讲人:

谢凌曦 | 华为

分享题目WebVision大规模网络数据分类竞赛的解决方案


摘要:WebVision竞赛要求从网络爬取的大规模数据集中训练一个5000类分类器。这是一个非常困难的问题,因为其中存在大量容易混淆的类别和带有强噪声的训练图片。在这次竞赛中,我们在带噪数据上训练了若干不同大小的模型,并且利用训练过程中的统计量来筛除不合适的训练样本,最后在不同尺度和不同精度上融合了大量模型。我们的方法为大规模网络数据学习提供了新的思路。



竞赛五

NightOwls Detection Challenge

使用RGB摄像机在夜间进行行人检测是一个非常重要的问题,然而当前最新视觉算法在此方面表现不佳。尽管夜间行人检测是许多系统(例如安全可靠的自动驾驶汽车)的关键组成部分,但应用于夜间检测的计算机视觉方法并未受到太多关注。这项竞赛旨在利用NightOwls数据集来弥合这一差距,该数据集由符合行业标准的相机在三个国家/地区实时交通中捕获的279k完全注释夜景图像组成,从而使数据尽可能真实。深兰科技团队夺得桂冠。

https://www.nightowls-dataset.org/nightowls-competition-2020/

主讲人:

徐之禹 | 深兰科技

分享题目NightOwls Pedestrian Detection Challenge 2020 夜间行人检测的解决方案


摘要:使用常规检测器,应用特征融合算法对多个同结构不同参数的backbone网络并列,横向地沿一个方向对相邻backbone的各个阶段特征进行整合。并与普通行人检测常用技巧相融合。



竞赛六

ActivityNet Challenge-Task 2 Dense-Captioning Events in Videos

大多数自然视频包含许多事件。例如,名为“男人在弹钢琴”的视频可能还包含另一个“男人在跳舞”或“人群鼓掌”。ActivityNet Challenge-Task 2 Dense-Captioning Events in Videos研究了“dense-captioning”事件任务,该任务包括检测和描述视频中的事件。这项挑战赛使用了ActivityNet Captions数据集,该数据集包含了2万个视频,视频时长总计849个小时,总共有10万个描述,每个视频都有其独特的开始和结束时间。此挑战赛最终根据参赛者模型定位和描述事件的能力来决定冠军的归属。中国人民大学金琴老师团队赢得本次任务排行榜第一。

http://activity-net.org/challenges/2020/tasks/anet_captioning.html

获奖团队成员

宋宇晴[1]、陈师哲[1]、赵一达[1]、金琴(指导老师)[1]

[1]中国人民大学


主讲人:

宋宇晴 | 中国人民大学

分享题目Exploring Sequential Events Detection for Dense Video Captioning


摘要:团队充分考虑了视频中可描述事件的时序关系,提出了一种新的简单且有效的视频时序动作检测方法来提取视频中的事件。随后充分利用事件前后的上下文信息对所检测出来的事件序列生成密集描述。



竞赛七

Cross-Domain Few-Shot Learning (CD-FSL) Challenge

当前深度学习方法通常依赖于每种训练类别下大量标记的训练数据和足够的样本覆盖率来实现高性能。然而,收集和标注如此大的训练数据集通常是昂贵且费时的,并且在许多情况下是不切实际的,因为对于某些新的任务(医学成像、卫星图像等),只有很少或根本没有可用的实例。这就引出了跨域的小样本学习的问题(Cross-Domain Few-Shot Learning,CD-FSL),并成为当今计算机领域备受关注的一大难点。针对这一问题,CVPR2020举办了首个针对跨域小样本学习问题的挑战赛——CD-FSL挑战赛。它使用ImageNet作为容易收集和标注数据的源域,而目标域分别有CropDisease(植物病害图像)、EuroSAT(卫星图像)、ISIC(皮肤病变图像)和ChestX(X光胸片),这些数据集反映了用于小样本学习的实际用例。此外,它们与ImageNet数据集具有很大的域偏移,这对参赛方法的有效性提出了更高的要求。该挑战赛包括了 Cross-domain few-shot learning 和Cross-domain few-shot learning with unlabeled data两个赛道,滴滴出行取得了这两个赛道的第一。

https://www.learning-with-limited-labels.com/challenge

获奖团队成员

赵震[1],刘炳宇[1],李振鹏[1],姜佳男[1],郭玉红(指导老师)[1]

[1]滴滴出行


主讲人:

赵震 | 滴滴出行

分享题目跨域小样本学习挑战的解决方案


摘要:针对数据集收集难、标注困难的情况下,提出了FTEM_BSR方法实现任务目标。采用分批谱正则化,以减小在不同域上对卷积神经网络进行微调时产生的负迁移问题。提出基于特征变换的集成模型,以多种视角下学习进一步提高模型鲁棒性。以标签传播算法和数据增广策略进一步优化结果。针对track2的一定量的无标签数据,提出数据融合策略参与模型训练。



竞赛八

MOTS (Multi-Object Tracking and Segmentation) Challenge

多目标跟踪与实例分割挑战赛由德国慕尼黑大学、德国亚琛工业大学、ETH联合举办,是多目标跟踪方向的权威竞赛。多目标追踪(MOT)是视频理解和分析领域的核心技术之一,广泛应用于智慧城市、智能交通等实际场景。MOTS挑战赛在上年基础上,进一步结合实例分割与多目标追踪两大挑战性任务,要求参赛者在追踪场景中人与车的同时进行像素级解析,竞赛难度极大提升。KITTI-MOTS是自动驾驶权威数据集KITTI中多目标跟踪任务的扩展,包括21段训练视频以及29段测试视频,每一段视频均提供了所有物体(人和车)的实例分割标注,成为首个同时提供实例分割以及多目标跟踪标注的公开数据集。百度团队取得该赛道的冠军。

http://www.cvlibs.net/datasets/kitti/eval_mots.php

获奖团队成员

徐振博[1,2]、张伟[1]、谭啸[1]、杨威[2]、苏翔博[1]、袁宇辰[1]、章宏武[1]、文石磊[1]、丁二锐[1], 黄刘生[2]

[1] 百度;[2] 中国科技大学


主讲人:

张伟 | 百度

分享题目PointTrack++ for effective online multi-object tracking and segmentation


摘要:PointTrack/PointTrack++包括视频实例分割、掩膜特征提取以及多目标关联跟踪等技术,突破性地把3D点云分析融入2D MOTS任务之中,首次实现实时在线的MOTS算法,并取得了KITTI-MOTS竞赛的冠军。


想知道更多冠军队伍挑战赛方法的介绍,敬请关注7月4日周六早上冠军之路,胜者之悟 CVPR 2020 竞赛经验分享会!

活动报名

扫码添加滴滴科技合作小助手,回复“CVPR 2020”,小助手即将拉你进入直播群。

转发有奖

7月4日早上8:50之前不设分组转发本推送至朋友圈,将朋友圈截图给小助手,小助手将抽取十个人送上精美礼品一份哦~

互动有礼

本次分享会,8支CVPR 2020冠军队伍&5位特邀专家,将与大家进行一线分享交流。

大家快来留言区提问,你的提问将有机会被抽中,被嘉宾现场解答哦~

PS:被抽中同学将获得精美礼品一份,快来文末留下你的提问吧!


推荐阅读



点击阅读原文,查看活动详情。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存