学术派 | 基于AI的视频精彩度分析技术
前 言
该方案融合了监督模型、弱监督模型和明星、用户片段截取等其他维度的信息,能够综合给出较为符合人为主观评价的视频精彩度评分。下面我们将详细介绍各个模块的具体技术解决方案。
视频精彩度分析技术方案
视频精彩度监督模型
我们的目标是对视频的精彩度进行较为准确的评分,而非简单的精彩/非精彩二分类,因而我们将精彩度建模为一个回归任务,而建立监督模型的前提是拥有高质量的标注数据集。我们的数据集来自5000多部爱奇艺影视剧和综艺长视频,每条数据为10s左右的视频切片,标注人员对切片根据精彩度进行打分0到10打分,并对精彩切片从场景、行为、情感、对话等多个维度上人工打出精彩看点标签,建立了包含超过36万切片的视频精彩度分析数据集。该数据集具有以下特点:
(1)数据集大,从头训练端到端的模型,训练成本高;(2)精彩度评分主观性较大,标注人员对同类型切片的打分可能有1-3分的差异;(3)精彩度评分与精彩看点标签高度相关,精彩切片一定包含看点标签;(4)看点标签为多标签,标签内部具有较大的相关性,如搞笑和大笑、鼓掌和欢呼等。针对数据集的以上特点,我们采用迁移学习,先提取多模态特征对视频切片进行表征,再进行后续训练,提高模型性能的同时大大降低了训练成本;对于精彩度分数,采用标签分布学习算法去学习分数标签的分布,而非传统的回归loss;对于看点标签,我们采用典型相关自编码器算法去学习标签内部的相关性;最后我们采用了多任务学习模型,同时训练精彩度分数和看点标签,获得了比单个任务更佳的性能。下图是我们的精彩度监督模型技术框架。特征提取
精彩度评分
采用DLDL方法能够有效建模精彩度分数标签的不确定性,大大降低了标注噪声的影响,相比使用常规的MSE回归loss,我们的精彩度评分准确性得到比较明显的提升。
精彩看点标签分类
多任务学习模型
2
视频精彩度弱监督模型
我们采用一个具有低通性质的图滤波器进行图卷积操作,它能够聚合高阶邻接节点的特征来表示当前节点的特征,经过G的作用,相似视频切片的特征更加聚合,相对的,不相似视频切片的特征更加分散,如下图所示:
1
2
3
融合更多维度信息的精彩度
总结和规划
我们的视频精彩度技术方案已在多个业务场景中实现落地和应用,如生成AI广告产品前情提要、辅助创作,筛选优质视频进行智能分发、自动生成精彩集锦等,明显提升了业务产出质量和效率。
在后续的研究中,我们会从特征提取、算法模型和融合更多维度的信息等方面继续进行优化,建立更加完备的视频精彩度分析系统,具体包括以下几方面:1)特征提取:目前我们的视频特征包括视觉和音频特征,后续我们将加入文本特征,也将进一步探索多模态特征的融合方式。2)算法模型优化:我们分别利用标注数据集和弱标签数据集训练了监督模型和弱监督模型,然后对两个模型预测的精彩度分数进行后融合。后续我们打算利用半监督的思想,将标注数据集和弱标签数据集联合进行训练,有望获得更好的模型性能。3)融合更多维度的信息:爱奇艺已经拥有多种标签识别模型,如行为识别、物体检测、场景分类、音频分类、台词分类等,我们可以融合这些模型对视频片段的分析结果,进一步修正精彩度分数,完善精彩看点标签。参考文献:
[1] https://ai.baidu.com/broad/introduction
[2] Gao B B, Xing C, Xie C W, et al. Deep label distribution learning with label ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838.
[3] Yeh C K, Wu W C, Ko W J, et al. Learning deep latent space for multi-label classification[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.
[4] Xiong B, Kalantidis Y, Ghadiyaram D, et al. Less is more: Learning highlight detection from video duration[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1258-1267.
[5] Zhao K, Chu W S, Martinez A M. Learning facial action units from web images with scalable weakly supervised clustering[C]//Proceedings of the IEEE Conference on computer vision and pattern recognition. 2018: 2090-2099.
[6] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
[7] Li Q, Wu X M, Liu H, et al. Label efficient semi-supervised learning via graph filtering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 9582-9591.
[8] Zhang X, Liu H, Li Q, et al. Attributed graph clustering via adaptive graph convolution[J]. arXiv preprint arXiv:1906.01210, 2019.
上线视频推理服务 使AI应用更高效
i技术会 | 如何用AI挖掘和生成视频广告点位