1秒钟打造智能化视频内容生产利器
文娱妹导读
MEDIA AI阿里巴巴文娱算法挑战赛冠军方案分享
视频目标分割是目前视频算法领域的前沿话题,越来越多的应用在了各个行业场景里。本次由英特尔与阿里云联合举办、与优酷战略合作的“新内容 新交互“全球视频云创新挑战赛算法赛道,也将目光聚焦于这一个领域。大赛自开赛以来,已经吸引了2000多支队伍参赛,汇聚了全球算法精英。
本文将以“Media AI 阿里巴巴文娱算法挑战赛”为例,精选出由优酷人工智能部算法团队提出的冠军方案,为本届大赛选手提供成功的参赛经验和技术解读。
除传统分割算法需要解决的视角光照变化、目标尺度变化、目标间遮挡等难点之外,面向视频智能生产的人物分割算法还需要关注如下特殊难点:
视频场景内容丰富多样:要求算法在复杂背景干扰下正确发掘场景显著主角
复杂衣着/手持/附属物:要求算法充分描述目标丰富和复杂的外观语义
目标人物快速剧烈动作:要求算法解决运动模糊、剧烈形变带来的误分割、漏分割
Media AI大赛的数据集面向高精度-实例级-视频人物分割任务,提供了1700段逐帧精细标注视频数据,其中初赛和复赛各800段训练集和50段测试集,对上述难点都有体现。
相比于学术/工业界标准的DAVIS和YouTube-VOS数据集,本数据集含有业界最多人体目标标注标签(18万帧,30万标注人体目标),且在标注精度、内容广度等方面均处于行业领先地位。这次数据库依托优酷站内海量资源,囊括古装剧集、现代剧集、街拍、街舞、运动(跑酷、球类、健身)等丰富内容,更加符合智能化视频内容生产的现实需求。经过精细化人工标注,数据集真值掩码图精准勾勒视频人物的边缘细节,为训练以及测试分割算法的准确性和精确性提供了依据。
此外,该数据集还针对人物手持物/附属物进行了标注,有助于算法对人物与物品从属关系进行学习。
冠军方案算法详解
在初赛阶段,优酷人工智能部算法团队以STM(Video Object Segmentation using Space-Time Memory Networks)为基础,进行了彻底的模型复现和以及算法改进。在复赛阶段,以初赛半监督模型为骨干,配合以目标检测、显著性判别、关键帧选择等模块,实现高精度无监督视频分割链路。
监督视频人物分割
1 基本框架
提出Spatial Constrained Memory Reader以解决STM空间连续性不足问题
图1. Spatial-contrained STM
图2. Kernelized-memory STM
图3.Spatial-contrained Mmeory Reader示意图
增加ASPP & HRNet post-refinement以解决STM解码器对多尺度目标分割精细度较差问题
通过ASPP增加多尺度信息的捕获能力,利用HRnet对STM的初始分割结果进行refine,优化物体细节的分割效果。
2 训练策略
在比赛中采用了两阶段训练的方法。第一个阶段,采用MS-COCO静态图像库成视频序列进行预训练。第二个阶段,将公开数据库(DAVIS,Youtube-vos)和比赛训练集进行合并训练,来保证有足够的数据量。具体训练细节如下:
Crop相邻3帧图像patch进行训练,尽可能增加augmentation。crop时需要注意一定要保证在第2和第3帧出现的物体都在第一帧出现了,否则应该过滤;
将DAVIS,Youtube-vos和比赛训练集以一定比例融合效果最好;
训练过程指标波动较大,采用poly学习率策略可缓解;
训练比较吃显存,batch size比较小的话要fix所有的bn层。
3 其他
Backbone:更换resnest101
测试策略:使用Multi-scale/flip inference
4 结果
优酷算法团队的模型,在测试集上取得了95.5的成绩,相比原始STM提高将近5个点。
2. 无监督视频人物分割
无监督VOS的任务目标是在不给定任何标注信息的前提下,自主发掘前景目标并进行连续的分割。无监督VOS方法链路较为复杂,通常不是由单一模型解决,其中涉及到目标检测、数据关联、语义分割、实例分割等模块。
2.1算法框架
我们复赛所采用的算法流程具体分为如下四步:
a. 逐帧做实例分割
采用DetectoRS作为检测器,为保证泛化能力,没有在比赛训练集上finetune模型,而是直接使用在MS COCO数据集进行训练。此阶段只保留person类别。阈值设为0.1,目的是尽可能多地保留proposal。
b. 对实例分割的mask进行后处理
如下左图所示,现有instance segmentation的方法产生的mask分辨率低,边缘粗糙。我们采用语义分割模型对DetectoRS产生的结果进行refine(image+mask ->HRnet -> refined mask), 结果如下图。可以看出掩码图中的物体边缘以及细节都有了明显的改善。
图4. 检测器(DetectoRS)输出掩码图(上)与refine后掩码图(下)
利用STM将t-1帧的mask warp到t帧,这样就可以利用warp后的mask和第t帧的分割结果进行匹配。通过这个过程,补偿了运动等问题产生的影响,稳定性更高。具体的,对于首帧物体,我们保留置信度大于0.8的proposal。对第t-1帧和第t帧做数据关联时,首先利用STM将第t-1帧的结果 warp到第t帧。然后用匈牙利算法对warp后的mask和第t帧由DetectRS生成的proposal进行二部图匹配。
d. 筛选分割结果较好的帧作为key frames进行迭代优化
经上述数据关联以后,我们已经得到了初步的无监督VOS结果,其中每帧的mask是由DetectRS生成,id是由数据关联决定。但是这个结果存在很多问题,还可以进一步优化。比如说视频开始处出现的漏检无法被补上。如下图所示,左侧的人在视频开始处不易被检测,直到第10帧才被检测出来。另外,视频中人体交叠严重处分割质量要远低于人体距离较大处。
视频目标(人物)分割(Video Object Segmentation,简称为VOS)算法是业界公认的技术重点难点,同时又有着最为广泛的落地场景和应用需求。相信参与本届“新内容 新交互“全球视频云创新挑战赛算法赛道的选手,将以视频目标分割为起点,利用计算机视觉算法领域的诸多技术,为行业和大众打造更加智能化、便捷化、趣味化的视频服务。
END
以下文章你可能感兴趣