腾讯杰出科学家刘威:多媒体AI技术如何让广告系统更“智能”?
导语|秉承“技术提效”理念,探寻多媒体AI技术于广告业务的最佳应用实践。
本文由腾讯广告多媒体AI中心总监、杰出科学家刘威撰写,他和他的团队打造了以混元AI大模型为代表的广告多媒体AI技术矩阵,并应用于腾讯广告系统升级中。这一创举提升了广告系统的理解能力,让系统更加智能,从而提高用户体验以及广告转化效果与广告制作效率。
腾讯广告秉承“技术提效”理念,基于太极机器学习平台,凭借混元AI大模型和广告大模型,充分提升了广告系统的理解能力和运算能力,助力广告主达成起量、成本和稳定性三大效果指标,实现生意增长。
随着互联网广告系统的逐步进化,多媒体AI技术已经成为广告技术栈不可或缺的一环。尤其是在广告系统大变革中,多媒体AI技术也进行了诸多的技术升级。一条完整的广告链路包含的模块非常多,包括投放、定向、检索、粗排、精排、播放等等,每一个模块对于多媒体AI技术都有不同的需求。
在此背景下,我和团队系统性地研发了广告多媒体AI技术矩阵,为整个广告链路提供完善的、精准的、高效的广告多媒体AI技术。当前,该平台已经成为腾讯广告的AI基础建设,有力保障了腾讯广告的持续稳健发展。
(一)业务背景
(二) 系统架构/功能
商品理解:理解各行业广告的核心标的物,如电商行业中的商品类目、产品、品牌、属性等,服务全行业商品化; 创意理解:理解广告创意内容,如创意的基础属性、拍摄手法、营销卖点、视频元素(人物、LOGO、道具等)、场景、风格等; 落地页理解:理解广告落地页内容,如落地页的配色、主体类别、主体位置、屏数等。
(三)技术解析
广告内容理解涉及的技术能力非常繁多复杂,本文挑选部分典型场景能力做简要解析。
基于多模态预训练模型的商品类目识别
基于此,我们构建了一个适合广告数据场景的,兼容单模态/多模态/跨模态缺失or不匹配的多模态预训练大模型,采用千万级广告数据投入预训练,基于预训练模型在下游任务上进行迁移学习,在下游的商品类目分类、产品识别等任务中实现了采用更少的标注数据取得了更好的分类效果。
大规模广告logo检索识别系统
品牌是广告商品的一个重要维度,广告图片中通常都会携带品牌logo信息。但由于涉及行业众多,广告中的品牌通常会有至少几万类,而当前公开数据集最多的只有3K类,工业界最多的只有2W类。因此,针对广告场景下的logo识别,需要重点解决因类别庞大,无法人工标注导致的数据稀缺问题,以及新广告新品牌会不断涌现,已有品牌也会不断产生新变体而带来的模型的鲁棒性与增量学习能力的问题。
针对模型鲁棒性以及扩展性的问题,在模型结构上,将模型拆解为检测+识别两个独立阶段,识别阶段舍弃传统闭集分类框架,采用DML学习Embedding,构建logo检索库,用基于检索的方法做识别;可支持自动发现新logo后人工标注,快速提升新logo覆盖。
多模态QA式商品属性识别
基于上述问题,我们提出了一套多模态QA式属性提取框架:
Multi-Modal Transformer提取文本/图片多模态特征;
增加属性预测网络,提取属性proposal,极大缩小token目标分类范围;
将属性作为query作用于属性值提取网络,进行QA式NER提取。
创意视频时序化理解
当前视频创意广告越来越多,首先我们构建了一套完善的多维度创意内容理解体系,包括视频基础属性理解(尺寸、时长、镜头数、清晰度等)、视频框架理解(拍摄手法、视频场景、视频风格等)、视频元素理解(人物、LOGO、道具、营销卖点等),以对整个视频进行理解打标签。但同时,由于视频广告节奏、信息变化快,每个镜头都包含非常丰富的信息,因此需要更精细化的进行时序化、镜头化理解,助力创作编辑&精准推荐。
基于此,我们提出并研发了基于视频时序分割+视频时空检测定位的时序化理解能力:
视频时序分割打标签:适用于视频框架类标签,将视频分镜头分幕分割后进行分镜头分幕片段的理解;
视频时空检测定位打标签:适用于视频元素类标签,直接对视频进行时空时序定位,提取精彩片段关键元素。
(四)业务应用
目前已完成60+项特征理解能力建设,覆盖商品、创意、落地页等多个维度; 相关特征已广泛应用于召回/粗排/精排大模型,显著提升广告系统的消耗与GMV; 相关特征应用于创意风向标、创意排行榜、创意研报等多个创意分析产品,指导广告主优化创意制作,提升创意制作效率&效果。
(一) 业务背景
(二) 智能创作引擎
智能生成:包含多达几十项基础算法能力,涉及多模态视频标签、视频时序解析、视频封面图生成等原子算法能力。 渲染合成:依赖CPU和GPU双集群渲染,支持前端实时预览及批量化生成,具备模板视频工程化设计、特效定制支持、 稳定分布式高性能渲染等能力。 质量控制:系统规则、AI算法、人工运营有机结合,全链路保障视频质量。 元素库:积累视频元素数万个,包含视频模板、音乐、特效、贴纸、节日元素等。
(三) 典型技术解析
视频尺寸变换,降低投放门槛
图片衍生视频,提升制作能力
视频派生视频,延长跑量周期
我们提出创新的视频广告时序解析算法,结构化视频广告叙事框架,并识别每个视频片段四个维度的标签,将视频广告理解能力从整体粒度升维至时序粒度。实现镜头混剪、视频时长变换、视频强化、跑量素材混剪等多种能力。视频生成视频效率得到指数级提升。
虚拟特效,探索广告创意新玩法
针对广告新玩法的探索,我们打造了一条虚拟特效智能生产管线,实现批量化广告生成,包括虚拟人驱动引擎、特效生成等核心技术能力。实现输入一段文本or一段音频 + 一张广告图片,生成一条含有虚拟人或者特效的视频成片,达到提升广告效果、提升视频广告生产效率的作用。
(四)业务应用
(一)业务背景
(二) 系统架构/功能
自动判别:针对一些长期稳定的样式(包括合规广告&违规广告),训练多模态自动通过/拒绝模型,用于处理AI违规点能力无法覆盖的素材; 相似复用:广告主为了降低素材制作成本,通常会重复使用广告元素(如视频 or 图片等)构建广告进行投放,通过构建相似复用能力,能够以较低的相似检索成本来实现素材的精准审核; 负向检测:主要应用于高频违规点检测,例如违规词识别、素材模糊、涉暴涉恐等; 规则引擎:由于不同的流量、不同的行业对于审核规则都有差异,因此为了提高能力的通用性,在基础能力基础上构建了规则引擎,以适配业务需求。
(三)技术解析
多模态自动判别技术解析
广告审核的数据复杂而多样,在元素形态上可分为文本、图片、视频和落地页四种类型。我们将这四种类型进行归纳和拆解为视频、音频、图像和文字四种基础模态,采用多模态多标签分类的思想来进行自动审核判别模型的建模。
负向检测技术解析
在广告审核场景中,违规点数量多而杂,仅算高频违规点就多达数百个,如何高效且快速地实现机器自动审核是个巨大的挑战。针对这个难题,团队主要从两个方面入手,首先针对Top违规点,独立建模,累积开发了100多个负向违规点审核能力;其次针对重要关键的能力,例如OCR、人脸技术等,团队重点攻关、全面研发,始终保持技术处于行业领先。
(四)业务应用
(一) 业务背景
(二) 系统架构/功能
(三) 技术解析
视频方面,我们提出了多模态多尺度视频时空Transformer模型,引入了ASR文本信息辅助相似度计算,同时引入了文本模态Mask的数据增广以及ASR模态缺失损失函数,提升了模型泛化性;相比于业界竞品效果,算法在F1指标提升了12%。图像方面,我们使用多监督信息,并引入了多层空间特征,使得模型能够关注到除商品外的底层色彩、纹理等信息,以更好地反映图片对之间的全局相似度,较业界常用算法多解决了80% badcases。
(四)业务应用
广告内容理解中有各种各样的理解任务以及大量的无标注数据,如何利用这些大量的无标注数据产出一个通用的多模态内容理解预训练大模型,并提升下游各理解任务的迭代效率和效果,是我们重点要解决的问题。
基于此背景,我们设计了一个适合广告场景的多模态内容理解大模型。该模型基于单流的Transformer结构,提出多尺度视觉特征融合、层次化注意力交互、大规模对抗训练等诸多改进和设计:
多尺度视觉特征融合:视觉特征同时采用Region、Patch特征,以便获取更丰富的视觉语义信息;
层次化注意力交互:针对Embedding交互,设计了采用全局+局部注意力的方式,这样可以在不损失重要信息交互学习的情况下,节省计算开销,提升训练效率;
大规模对抗训练:针对大模型在下游任务中容易过拟合的问题,在预训练和下游任务finetuning中引入了对抗噪声训练的方式提升模型的鲁棒性。
(二) 多模态文案生成
为了解决上述问题,我们的模型基于双塔Transformer结构,提出了层级跨模态交互技术,通过自注意力机制将单帧特征聚合成帧-片段-视频的层级化视觉特征,同时针对文本模态得到单词-短语-句子的层级化文本特征,最后通过层级化的对比学习,实现从多粒度角度分析两种模态数据的相似程度。
除此之外,我们提出的自适应标签去噪技术和边缘样本增强技术通过挖掘潜在的噪声样本以及强化边缘样本,进一步提升了模型的检索精度。最终,我们的跨模态检索大模型在五个最权威的国际跨模态检索数据集榜单上都取得了Top 1的成绩,成为业界标杆。
腾讯广告多媒体AI技术团队聚焦腾讯广告场景,全力投入多媒体内容的分析、理解、检索、生成等全链路前沿AI技术研发,持续推进腾讯广告智能化进程。当前,我的团队已经构建了较为完善的多媒体AI能力矩阵,研发了【混元】AI大模型,并以此为底座支持【巨阙】广告内容理解、【乾坤】广告智能创作、【神针】广告智能审核、【天印】广告指纹系统等四大技术平台。我团队研发的这些技术处业界领先地位,已经成为腾讯广告技术基建中不可或缺的组成部分。
推荐阅读
点击下方空白 ▼ 查看明日开发者黄历
点赞|分享|在看,给小编加个鸡腿嘛🥹~~