这些综艺是挺好看,就是弹幕有点…
本文创作:腾讯视频智能弹幕团队
弹(dàn)幕:21世纪互联网颠覆性发明之一。各类网络视频中从右到左横向飘过的评论性语句即为弹幕。不受时间约束,可随意在屏幕上与网友隔空喊话。
新时代有点儿社恐的青年,要怎么解决倾诉欲?——弹幕。弹幕更改了新青年们看电视的方式,“前方高能”+“弹幕护体”是新一代的刷屏暗号。
举个栗子:当你的爱豆唱出“明知这是一场意外你要不要来”的时候,用弹幕回答就是这样的:
弹幕作为用户与视频,用户与用户之间沟通的桥梁,是一个非常有趣并且有意义的存在。
然而弹幕对于视频内容的遮挡在一定程度上影响了用户的观影体验,很多用户经常会陷入到是否打开弹幕的两难境地。
为了缓解这一问题,我们选取了视频内容中出现最多,并且最重要的部分之一的“人”作为视频内容的主体,利用语意分割技术将人体所在的区域标注出来,让弹幕无法对该区域造成遮挡。
我们称之为:“腾讯视频·智能弹幕方案”
通过该方案,既保持了用户能够观看与发送弹幕,同时又将弹幕对用户观看体验的影响大幅度降低。
智能防遮挡弹幕技术,通过对视频内容的分析,分割出视频中的人体区域,当弹幕经过人体区域时将被遮挡。
该技术一方面保留了弹幕在视频画面中的出现,另一方面又减小了弹幕对于视频中主体区域的遮挡,从而在很大程度上缓解了用户对于是否打开弹幕的“纠结”。
=智能弹幕的创新之处=
▼
1.基于深度学习的语意分割技术与弹幕处理相结合
语意分割作为计算机视觉处理中的一个基本问题,已经有了长足的发展,尤其在深度学习技术出现之后,分割的效果有了巨大的进步。
这里我们将基于深度学习的语意分割技术引入到弹幕处理中,将视频内容中的关键区域分割出来,作为弹幕无法遮挡的区域,大幅度减小了弹幕对于用户视频观看体验的影响。
2.实时多人体/小人体人体分割网络
视频人体分割面临非常多的挑战,主要包括分割速度要求、多人体/小人体分割、大运动人体分割以及非重要人体分割等等。针对这些问题,我们采取了以下的解决方案。
分割速度:由于部分视频从拿到片源到上线时间很短,因此需要较快速的生成对应的人体分割蒙板同时保证分割的精度。
考虑到分割的效果和输入图像的分辨率有关,往往分辨率更高的输入能够得到更精细的分割效果,但是相应的处理时间会变长。
这里我们采用高分辨率图像作为CNN输入,在浅层特征提取过程中进行多次下采样(等同于多个尺度图像共用浅层特征),利用低分辨率深层特征提供的语意信息进行粗“定位”,再利用高分辨率图像的浅层特征对粗分割结果进行结构优化。最终的分割网络在单块GPU上可以达到实时分割,同时保证非常高的精度。
多人体/小人体:由于视频内容中一般不只有一个人,同时人体的大小也不定,多人体分割、小人体分割也成为了一个需要解决的问题。
由于多人体分割的数据集数量有限,这里我们通过现有的多人体分割数据集,将数据集内图像中的人体“移植”到无人的背景中从而构造更多的数据,有效的提升了多人体分割网络的分割效果。
针对画面中比较小的人体,由于我们的网络输入分辨率较高(1024*1024),因此保留了更多的小人体细节信息、同时在网络的深层融合了浅层的结构信息,因此对于小人体轮廓的恢复也有非常好的效果。
大运动人体:当视频中的人体产生较大运动的时候,人体的部分轮廓会变的非常模糊(比如高速甩手中的手臂部分),此时直接对解码帧进行分割会有一定的部位缺失。为了缓解这一问题,我们采取了一种前后帧间平滑的策略,在一定程度上缓解了这一问题。
非重要人体:视频中可能存在这样一些人体区域,这些人体不包含重要的人体部件,从而需要被遮挡的重要性较低。针对这样一些区域,我们在human segment的基础上进一步增加了human parsing的处理,即对于人体不同部件进行分割。对于各个不同的人体实例,分析该人体存在于当前场景下的部件是否“需要”防遮挡(目前采取的策略为必须包含有人头部分的人体)。
=智能弹幕的实现?=
▼
1)整体框架
2)数据
由于目前人体分割的数据集较少,而基于深度学习的算法往往对于数据量的依赖性很强。为了构建更大的人体分割数据,我们利用现有的人体分割数据集,从图像中抠出人体区域,通过随机裁剪和组合后加入到任意的没有人体的自然场景图像中,并同时生成对应的标签数据。
在训练过程,我们对数据采取随机大小缩放(等比例和非等比例)缩放、裁剪以及随机噪声影响等方式进行数据增广。同时我们往数据集中添加了一部分无人的数据(等同于增加非人体区域类别的样本个数),大幅度降低了错分割概率。
3)实时分割网络
特征提取部分采用:
resNet101/resNet50/Xception基础网络
并在训练过程中对网络进行逐步裁剪,在保证结果精度的前提下减少网络复杂度。特征提取部分的最后我们添加了16个不同尺度的池化层进行多尺度特征提取并融合,作为最终的分类特征。
网络的输入采用大尺度的输入,这样能够比较好的保留图像的信息。随着网络的深入进行多次下采样,浅层网络保留了大尺度输入的结构信息,深层网络提取了小尺度的语意信息。 最终我们利用浅层网络提供的结构信息融合深层网络的语意信息,并加入attention机制,得到最终的分割结果。
网络同时训练了人、非人的前后景分割和人体部件parsing两种输出,并最终融合两者的结果得到人体mask。同时利用parsing的结果,对不重要个体进行去除。
=聊一聊其他idea=
目前智能弹幕已经在部分影视剧、综艺节目上有了非常不错的效果,接下来,我们希望在以下方面有进一步的研究:
1、显著性目标(人体 / 非人体)防遮挡
2、固定位置弹幕(出现 / 不出现)
3、针对古装 / 动漫进行数据更新和优化
创作团队--腾讯视频智能弹幕团队
taowwu(吴韬)
evanxyxu(徐叙远);
brucefan(范文昊);
komahu(胡皓);
lomoliang(梁小豪);
warmywang(王敏);
oscarjiang(姜凡);
adawswang(王文帅);
carinwang(王林);
heohe(何超);
jayxiong(熊健);
chriszhu(朱子荣);
carloswong(黄嘉文);
russellye(叶鹏飞);
guopinggong(龚国平)
---今日份互动---
▼▼▼
【你们看视频时候会开弹幕吗?为什么?】
QQ“嘀嘀嘀嘀嘀嘀”的提示音正式成为首个经司法确认的声音商标