i技术会 | 如何用AI挖掘和生成视频广告点位
【i技术会】2020.03.12
《常用视频广告算法经验谈》分享会
先来看一下,下图是我列举的关于物理世界和网络世界的广告对比,左边是我们经常可以看到的在真实世界的广告,比如说左上方在商场里的餐厅广告,在飞机上面针对商务人士的广告,在电梯里面,在公交车上都有各种各样的广告。
右边我们可以看到的是常见的网络产品,比如说社交信息流,资讯类的信息流,电商焦点图,我们很熟悉的这个搜索广告等。
我们把这两种广告放到一起对比的时候,会感觉到左边的广告实实在在融入了物理世界,跟周围的建筑、交通工具是融为一体的,是一些非常真实的点位。但是我们没有办法去凭空创造一个物理世界,我们要做的是把这些广告牌、海报放到物理世界当中,找到合适它出现的点位。
网络世界在不同的场景下,有不同的信息排列组合方式;针对不同的信息,也有它可以适应的相关广告形式,所以说在网络上面我们可以看到各种各样的广告。
物理世界加上网络世界,一定程度上可以代表在线视频的特点,就是它一半是真实的世界,一半是虚拟的,它真实的部分来自于视频本身(此处讨论的视频是指实景拍摄的视频,比如我们常见的电影、电视剧、综艺,包括用户用手机、用摄像机拍摄的一些UGC的视频),是真实世界的反映。
另一方面,虽然说记录了这些信息,是通过摄像头实景拍摄的,但是因为它通过网络在线播放,所以它跟真实世界是有很大的区别,比如说可以倍速播放、暂停、加弹幕,甚至可以把不清晰的视频变得清晰、在这个视频上面去增加各种信息。它具有了这样一个虚拟的性质,一半真实,一半虚拟,这可能是关于在线视频和广告相关的,我们需要一直记住的两个特点。在视频内的广告点位,我们也一直会针对这两个特点,去探索适合它的广告点位的生成和挖掘。
想一下,在视频里面什么地方可以出广告?从某种意义上说,广告是对内容的一个插入,不管是真实世界放入一个广告牌,还是在信息流里面插入一个原生广告,或者在视频的片头、片中插入一个广告,插入的位置我们给它一个名字,称之为点位,所以广告都是放在点位上的。那当大家在看视频的时候,可能会思考一般会在什么点位看到这些广告。
我所从事的工作主要是通过算法分析理解视频,然后这些结果可以去支持各种业务,包括在广告上的应用,我把一些比较主要的视频内的广告形式,大概分成这三类(这个分类可能和业内分类不严格一致)。
第一种是贴片,就是对视频的插入,一个全屏的展示,它没有空间概念,它是占据了整个空间,所以只会选择它插入的时刻,一般来说在片头、片中或片尾都可能插入。那这类广告它本身可能就是一个独立的广告素材,比如说广告商拍的tvc,那这类广告并不一定需要跟视频内容有任何关系,由于它是一个全屏展示它会非常的明显;此外因为跟视频没有关系,所以它的灵活性或者说虚拟性是非常强的,以贴片的方式可以去插入到任何的视频中。
上图中间这个广告,叫做浮层,它是浮在视频上面的一层广告,浮层广告的点位除了时间上的选择,还有空间上的选择,这个浮层它出现在什么位置,左上角?右下角?还是出现在正中间?还是在其它什么位置?此外,在时间上的选择,因为广告是出现在视频里面的,所以要考虑和这个视频是否有一种相关性,如果没有相关性,广告插入会不会太突兀,会不会引起用户的一些抵触?
上图最右边是植入广告,这里列举了在最前端的咖啡杯。植入广告,需要让这个广告和视频里面的世界融为一体,所以既要做时空上的选择,也要有一种合理性,比如说这个杯子会放在桌面上,而桌面上不会放一个汽车,也很少会放一个足球,这是它的一种合理性,同时还要保证一个融入的效果,就是要有一个符合物理世界的光照、阴影、透视关系等。
所以,我们看到上图的这个双箭头,越往右边,越让广告跟视频融为一体,它的真实感是越强的。越往左边,独立性越强,那它的虚拟性越充分,广告本身也会更加的显著。
贴片广告
贴片广告我们可以把它大致不严谨的再分成两类,第一类是一个纯粹的广告,只管把它放在片头、片中或者片尾,这个广告不用考虑跟内容有什么联系,这也是大家非常熟知的.可能自从有了视频广告模式,就一直看到这种广告。
近几年,一方面面对用户,需要考虑怎么让这个广告的体验更好,另一方面对品牌主,也希望怎么能够赢得用户更多的好感,来提升这个品牌的形象。整个行业开始有各种创新贴片广告,比如说请剧中的角色来录制一段大头贴,或者是用剧中的角色、剧中的形象、剧中的场景一起来拍摄一段比较有意思的短片,这类广告叫做原创贴。包括这一两年,开始做的前情提要贴,就是我们对于电视剧可以去生产前情提要,然后在前情提要上面可以加上广告。
可以看到,即使是对于相对比较传统的这种贴片,广告也开始跟内容有了一些结合,考虑到了如何去形成一种比较自然的融入。
关于浮层的点位
这个浮层可以看到它自由度是比较高的,可以出现在各种位置,但是最重要的是它有一个时间的选择,就是结合剧情出浮层,所以它比较好利用了在线视频的虚拟特点,可以在真实的物理世界视觉画面上,加入虚拟的一些信息。
那关于内容相关的浮层,其实主要考虑的是,我们怎么提供跟当前内容比较自然的场景化的一种广告。
植入广告
对于植入,大家应该非常熟悉,甚至有时候会觉得在看穿插在广告当中的电影和电视剧。当然在综艺上面这种植入也是非常普遍,因为对于综艺形式的节目来说,是比较容易做植入的。
视觉上可以做实物的植入,比如说摆放一个汽车、一个商品的模型,或者一张海报,只要能够在这个视频画面当中看得到,就能引起大家对这个品牌的关注。
其次是语音植入,下图中间这个画面,可以看到某主持人语速非常快的广告播报,本身就带有很好的话题性。
不管是实物植入还是语音植入,以前常见的都是在拍片的时候做植入,拍摄前期跟导演、演员商量好,跟品牌方一起去设计,在什么地方摆上一个什么样的商品,或者说口播什么样的广告内容。
现在我们也开始逐渐去做一些后期植入,当片子拍完之后,不管是通过算法还是人工去找到适合植入的点位,然后去利用算法,利用一些工具把商品的信息放置在这个视频画面上。
上图最右边就是爱奇艺之前播放的一个综艺节目,我们也是植入了这个广告主的一个海报。
这几年后期植入变的越来越多,虽然还不是非常普遍,但是后期植入是具有非常高的灵活性。虽然这个场景是完全真实的,它体现了物理世界的真实性这一面,但是因为是后期植入,也是把虚拟的信息放置进去,所以说带来了一个比较好的灵活性。一个片子已经开始火起来之后,可能有更多的广告主可以去做这样的后期植入。
如果要回答这个问题,首先得看什么样的广告是好的?当然一个好广告会有非常多的因素,比如要怎么吸引人的注意,要有创意,要有趣,还能体现品牌价值等等,这里列举了跟AI分析关系比较大的三个方面。
第一,有用。用户看到广告之后知道这个商品是有用的,尤其如果能知道对自己有用,就是达到个性化的分发,那这显然是非常好的效果。
第二,自然。广告的出现要合情合理,因为广告是对一个完整内容的插入,尽量避免一些非常生硬的插入,想要降低用户的抵触情绪,需要尽量把它做的自然。
第三,显著。显著跟自然也许有一些矛盾,如果广告太自然可能它不显著,如果比较突兀,那可能很容易引起人的注意。这确实是一个矛盾,这也是需要去权衡的点,既希望广告要被人看到,但同时也要保证必要的用户体验。
针对这三点诉求,那什么样的点位是好的广告点位呢?把这个视频想成一个持续不断的信息流,那到底在第几分几秒,画面中哪个位置,可以去放置这样一个广告,这是我们需要思考的。
从有用角度来说,广告出现的时间,最好能够体现消费或者使用广告商品的一种场景。为什么有这样的一种想法呢?在真实世界中出现广告的时候,比如户外广告,公交车上的广告,或者公交车站各种广告牌、灯箱的广告,其实很少会想到适用场景。因为真实世界广告出现的这些地方,缺乏故事情节,比如公交车上的广告,不太可能根据看广告的人或者公交车上正在发生什么,然后去给出相应的广告。
但在线视频广告中,它天然就具有可智能相关的条件,因为视频都是带有一定情节的,比如就像刚才看到的视频中的吃饭场景,吃饭的时候需要一些什么,需要饮料、餐具等等。所以,这是视频广告的天然优势,因为视频自带情节,它有很多广告商品的使用场景,所以我们也在思考,怎么能够找到这样的一些使用场景,把这些使用场景作为出广告的点位。
第二个诉求就是自然,怎么让广告出现的时候,让人觉得是有一定道理?这种道理既来自空间上的合理性,如果后期植入广告,那么展示的商品看起来光影、光照是要符合视觉规律的,同时能够具有相关性,能够让用户大概感受到;比如说,推荐一个衣服的商品,那正好是当前视频当中的一个同款,让大家觉得这是有道理的。
第三个就是显著,点位如果它能够大面积出现,同时它又不会去遮挡视频当中的关键内容,那是有价值的,如果这个点位出现的比较早,那可能也能够有更多的人看到,这也是有价值的。
对于广告点位AI能够做什么
第一,做识别;第二,做生成
识别就是要理解视频的内容,能够知道在什么地方找到这些有用、自然而且显著的广告点位。
生成是在我们能够找到的这些点位之外,还要创造一些点位。比如前情提要,可以用AI剪辑自动生成,然后把它安插在这个视频的前面。那这个前情提要本身就是一个广告点位,贯穿前情提要的这十几秒钟可以放置广告。
关于识别框架,下面这张图展现的是对于视频理解的简单示意,整体上可以认为,最左边是视觉音频文本信息,会对这些信息做从粗粒度到细粒度的识别分析;有了分析结果,把它做语义的推理,来得到更上层的结果。
视频理解算法是由很多类别组成。比如一个三元组,谁在什么地方做什么事情,这个地方是否有精彩情节,这个空间结构是什么样的,这都是考虑的类别。
在做算法时还有一些策略。比如说视频的时间连续性怎么去利用,这其中算法又有很多类别,类别之间的关系怎么利用,有助于提升每一个类别的精度或者召回?尤其是召回,就是怎么能够为广告业务提供尽可能多的点位,这个召回策略怎么做好。
有了算法输出之后,AI还需要一个系统来支持广告投放,通过这个系统把最后优质的点位输送给广告系统。这个系统在工程上面会有一些考量,比如怎么去考虑业务的时效性和资源之间的权衡,如何人机合作,怎么有效的通过Demo进行创新点位探索。
模态
一是视觉,视觉的信息量非常丰富,可以认为看视频,大部分的信息来自于视觉。同时视觉信息的识别难度也是比较大的。现在在某些视觉垂类上面,能够达到非常高的精度,还有很多的垂直类别都还在处于需要持续优化的阶段,同时在探索怎么以一个还不是特别完美的结果,能够应用在业务线上。
二是音频,音频能够表达很多视频无法表达的信息,比如音乐声,比如远方传来两声枪响,或者人物出现了一些争吵。所以大家也可以看到,音频和视频其实可以分别独立的提供有价值的信息。
三是文本,这里的文本,更多是指视频当中人物的对话,不管是对于台词做OCR,还是对人说话的声音做语音识别,最终需要转换成文本,就可以用自然语言处理的各种工具去对它进行分析。这些文本,除了人物对话,还有弹幕等信息,都能够成为加深对视频理解的信息来源。
对于这三种模态来说,需要思考怎么去利用这些模态,比如可以独立的去计算,在视觉上面做一个行为识别;同时在音频上分析人物可能正在唱歌;在文本上分析他唱歌的歌词内容是什么,每一个模态可以独立的去计算,得到的结果都有机会能够为广告提供点位。
另外还要考虑不同模态之间的融合,比如刚才视觉上面认为人物可能在唱歌,因为他的嘴正在做一个张合动作,而且从他的表情各方面,算法认为人物当前的视觉脸部动作更像是唱歌而非说话,这个时候如果通过音频识别到当前背景声音是音乐的概率有80%或者90%,那这个人物在唱歌的概率就会变得更大。
这种融合在算法上,有前融合或者后融合。前融合把它的一些特征、向量融合起来,然后再放到后面的分类器中。后融合就是分别识别出来了一些标签信息,然后在语义上面用一些策略或者一些相对简单的模型去训练,然后得到融合结果,这是面对各种模态时候的一些思路。
类别
一、三元组
策略
除了单一的算法,还需要考虑到策略,针对当前的这些数据,如何去利用这些算法。
框架
对于视频识别的是细粒度的物体或者属性,但是对资源消耗比较大,可以有从粗粒度到细粒度这样的一个结构。
系统
算法投入使用离不开系统的支持。
生成
以前情提要为例,生成是无中生有的产生点位,前情提要就是对上一集电视剧的内容,机器自动化的去生成一个十几秒到几十秒甚至几分钟的视频。前情提要需要包含重要或者精彩的情节,所以要从感官情节上面去找到这些精彩的地方。因为它是由几个片段组成,所以需要做转场点的识别,在镜头、场景包括人物的对话上找到适合切分的点。
总结
在性质上,视频它是一个一半真实、一半虚拟的信息。那广告点位的目标是要找出有用、自然、显著的广告点位。
在形式上,主要针对只考虑时间选择的贴片形式,考虑时空相关性的浮层形式,以及考虑如何跟视频非常真实的融为一体的植入形式,针对这几种形式,从识别和生成当中的各种细分的类别上面去做点位的识别、挖掘和生成。
最后可以看几个广告案列,下图中第一个是创可贴,画面中正在说买单的场景,演员说到“买单”的时候,出现了某支付app的广告。第二个是前情提要广告,剪辑的是一个浪漫高甜的场景,出现的广告是一个美容美颜的饮品类的广告。第三个是Video in后期的植入,黄色座椅上的饮料瓶是后期加上去的,因为这是一个运动的场景,所以植入了运动饮料广告。
也许你还想看
i技术会 | 爱奇艺品牌广告算法探索和实践
拥有AI「变声术」,秒杀了多年苦练的模仿艺能
扫一扫下方二维码,更多精彩内容陪伴你!