其他
CVPR2021竞赛结果出炉,阿里淘系多媒体算法包揽3项国际冠军
在刚刚落下帷幕的计算机视觉与模式识别领域顶级会议 CVPR 2021 上,各项国际挑战赛的竞赛结果已全部揭晓。
🏆 冠军 🏆
▐ 参赛者
宏黎,宏吉,咏亮,玉琦,少麟,定人
▐ 技术领域
▐ 比赛背景介绍
▐ 我们的成绩
▐ 任务难点
图像质量较差:含各种室内、室外的场景,同时由于拍摄者视觉障碍,拍摄图像会出现失焦模糊、拍摄不全、遮挡等问题; 许多图像描述需要理解图像中的文字,不同物体,颜色等信息,需要OCR,物体检测等细节理解能力。
▐ 我们通过以下途径解决这些困难
针对VizWiz数据图像特性,采用swin-transformer抽取图像的grid feature替换object feature,以充分表征不同图像区域的特性; 考虑到OCR及物体信息会对image caption生成产生正向引导,我们抽取了OCR及目标检测类别信息,作为特征补充; 并不是所有的图像都含有OCR信息,我们采用多种模型互补融合,用视觉模态模型强化那些不含OCR的数据,用视觉+文本(OCR+物体类别)多模态模型强化含有OCR信息较丰富的数据; 针对多种模型生成的结果,考虑到最终的衡量指标是CIDEr,我们通过self-cider、ocr maximization 多种策略融合的方式进行结果融合。
▐ 可应用的场景
▐ 赛事链接
workshop: https://vizwiz.org/workshops/2021-workshop/ challenge: https://eval.ai/web/challenges/challenge-page/739/overview
🏆 冠军 🏆
▐ 题目
▐ 参赛者
▐ 技术领域
▐ 比赛背景介绍
▐ 我们的成绩
▐ 任务难点
植物种类多、类别细,不同植物间视觉非常相似,而同一植物的不同样本存在差异,导致类间易混淆,区分难度大; 数据集的样本分布不均衡,存在长尾分布,样本数目最少的类别仅有3张样本,如何提升长尾类别准确率至关重要。
▐ 我们通过以下途径解决这些困难
▐ 可应用的场景
▐ 赛事链接
Workshop: https://sites.google.com/view/fgvc8/home Challenge: https://sites.google.com/view/fgvc8/competitions/herbariumchallenge2021 Kaggle leadboard: https://www.kaggle.com/c/herbarium-2021-fgvc8/leaderboard
▐ 题目
▐ 参赛者
▐ 技术领域
▐ 比赛背景介绍
▐ 我们的成绩
▐ 任务难点
数据集的日常家居场景复杂,人体和物体的目标检测难度大 人物关系包含动作关系和空间关系,关注不同的视觉特征 每一组人体和物体都存在多个人物关系,评估时必须完全正确才计一次正确
▐ 我们通过以下途径解决这些困难
采用更好的检测模型:我们采用Swin-Transformer和ResNeSt为backbone的性能SOTA的检测模型,并通过多种数据增强策略训练和多尺度融合推理,提升目标检测的准确率。 强化人物关系的视觉特征:我们设计了融合两阶段和一阶段关系检测网络的方案,首先将Swin-Transformer融入两阶段关系检测网络进行端到端训练,然后改进一阶段关系检测网络,直接提取<人,物>二元组,再通过cascade结构判定关系,给出<人,物,关系>三元组。策略上,我们通过视觉特征判定动作关系,空间位置作为输入辅助判定空间关系。 基于统计偏置的生成策略:我们在生成最终的人物交互关系组时,采用了融合<人,物,关系>三者共生概率和统计偏置加权的多种策略。
▐ 可应用的场景
▐ 赛事链接
Challenge: https://homeactiongenome.org/results.html Workshop: http://activity-net.org/challenges/2021/challenge.html