其他
爱奇艺短视频智能标签生成实践
随着网络的发展,每天有海量的UGC视频被用户上传到各大平台,如何高效的分发与使用这些视频是平台一直需要解决的问题。
视频的标签可以高效概括视频的主体内容,有利于推荐、搜索广告等业务对于海量短视频的精确使用。标签的生成是视频理解的产物,按照类型来分,可以分为类型标签和内容标签。类型标签主要是根据各业务的特点定制一套体系框架,将每个短视频映射到定制的框架中。而内容标签是用于描述视频主体内容的开放式词汇集,很难提前制定完备的体系枚举出每个词汇,更多的时候它是一个无穷的集合。本文详细介绍爱奇艺短视频场景下的内容标签。
01
背景
标签作为描述内容的词汇集,并没有客观的评定标准。不同业务因为业务关注点差异,有不同的标注规范。即便同一个业务有统一标注体系,但很多case不同的标注人员有不同的理解。 很多标签是对内容的抽象概况,需要算法真正理解视频的内容并予以总结。比如短视频【买鸡蛋,选大的好还是选小的好?养殖户说漏了嘴,以后别瞎买了】,其标签规范为“生活”,“鸡蛋”,“小窍门”。其中“小窍门”就是需要结合视频内容进行提炼的。再比如大部分人物闲聊类属于生活类目,但如果视频对于生活的某些方面做了总结,对于其他观看的人群有一定的借鉴作用,可能就会属于百科类目。 对未见过的新内容的理解。比如对于新上线的电视剧片段【赘婿】,希望有自动化打上“赘婿”、“郭麒麟”这样标签的能力。 标注规范的不断变更。比如某些活动类的标签,“暑期玩具大放送”、“美食达人成长计划”都是固定时期开展的短视频类活动,有一定的时效性。再比如影视剧集类的视频随着业务的深入,对于人物角色识别要求逐步增强等。
02
模型整体框架
03