腾讯杰出科学家刘威：多媒体AI技术如何让广告系统更“智能”？

Original 刘威腾讯云开发者 2023-03-08

收录于合集

点个关注👆跟腾讯工程师学技术

导语|秉承“技术提效”理念，探寻多媒体AI技术于广告业务的最佳应用实践。

本文由腾讯广告多媒体AI中心总监、杰出科学家刘威撰写，他和他的团队打造了以混元AI大模型为代表的广告多媒体AI技术矩阵，并应用于腾讯广告系统升级中。这一创举提升了广告系统的理解能力，让系统更加智能，从而提高用户体验以及广告转化效果与广告制作效率。

腾讯广告秉承“技术提效”理念，基于太极机器学习平台，凭借混元AI大模型和广告大模型，充分提升了广告系统的理解能力和运算能力，助力广告主达成起量、成本和稳定性三大效果指标，实现生意增长。

引言

随着互联网广告系统的逐步进化，多媒体AI技术已经成为广告技术栈不可或缺的一环。尤其是在广告系统大变革中，多媒体AI技术也进行了诸多的技术升级。一条完整的广告链路包含的模块非常多，包括投放、定向、检索、粗排、精排、播放等等，每一个模块对于多媒体AI技术都有不同的需求。

在此背景下，我和团队系统性地研发了广告多媒体AI技术矩阵，为整个广告链路提供完善的、精准的、高效的广告多媒体AI技术。当前，该平台已经成为腾讯广告的AI基础建设，有力保障了腾讯广告的持续稳健发展。

本文将系统介绍腾讯广告多媒体AI技术研究与应用，涵盖【巨阙】广告内容理解、【乾坤】广告智能创作、【神针】广告智能审核、【天印】广告指纹系统，以及【混元】AI大模型。

【巨阙】广告内容理解

（一）业务背景

计算广告的本质在于以合理的价格，将合适的广告推给适合的人，因此广告理解、用户理解是整个广告推荐链路的基础依赖。随着下一代广告系统的到来，对广告内容理解也提出了更加精细化、细粒度的要求；同时随着视频广告/多媒体广告日益增多，对广告内容理解中的AI技术也提出了更高的要求。

我团队研发的巨阙广告内容理解，目标在于建设多维度多粒度的广告语义理解系统，提高广告侧特征生产与应用效率，服务腾讯广告全链路。

（二）系统架构/功能

结合当前整个广告数据链路，我们逐步构建了一套广告精细化语义理解系统，从底层数据的接入预处理，到系统调度存储，再到上层的各种语义理解算法能力，最终服务于广告推荐、广告创意、广告投放等业务。具体来说，广告数据主要包括广告关联的商品、广告创意、广告落地页三大类，因此广告内容理解核心提供三大类的AI理解功能：

商品理解：理解各行业广告的核心标的物，如电商行业中的商品类目、产品、品牌、属性等，服务全行业商品化；
创意理解：理解广告创意内容，如创意的基础属性、拍摄手法、营销卖点、视频元素（人物、LOGO、道具等）、场景、风格等；
落地页理解：理解广告落地页内容，如落地页的配色、主体类别、主体位置、屏数等。

（三）技术解析

广告内容理解涉及的技术能力非常繁多复杂，本文挑选部分典型场景能力做简要解析。

基于多模态预训练模型的商品类目识别

由于全行业的商品类目体系非常庞大&驳杂，且会定期升级变动，采用有监督学习的模型对训练数据的标注需求非常大，而广告业务中存在大量的无标注数据，如何有效利用这些无标注数据快速提升商品理解的效率&效果非常关键。

基于此，我们构建了一个适合广告数据场景的，兼容单模态/多模态/跨模态缺失or不匹配的多模态预训练大模型，采用千万级广告数据投入预训练，基于预训练模型在下游任务上进行迁移学习，在下游的商品类目分类、产品识别等任务中实现了采用更少的标注数据取得了更好的分类效果。

大规模广告logo检索识别系统

品牌是广告商品的一个重要维度，广告图片中通常都会携带品牌logo信息。但由于涉及行业众多，广告中的品牌通常会有至少几万类，而当前公开数据集最多的只有3K类，工业界最多的只有2W类。因此，针对广告场景下的logo识别，需要重点解决因类别庞大，无法人工标注导致的数据稀缺问题，以及新广告新品牌会不断涌现，已有品牌也会不断产生新变体而带来的模型的鲁棒性与增量学习能力的问题。

针对数据稀缺的问题，我们采用机器数据合成的方式，具体包括：1.人工梳理万类品牌logo；2. 采用logo图增强（透明化分割、变色、缩放）+ 背景图景深分割算法合成训练样本，增强生成样本的多样性。

针对模型鲁棒性以及扩展性的问题，在模型结构上，将模型拆解为检测+识别两个独立阶段，识别阶段舍弃传统闭集分类框架，采用DML学习Embedding，构建logo检索库，用基于检索的方法做识别；可支持自动发现新logo后人工标注，快速提升新logo覆盖。

多模态QA式商品属性识别

商品属性是更细粒度的描述商品SPU/SKU的基础信息，目前电商中存在数千个属性，传统的NER任务直接预测多类别BIO，难以训练且效果很差，同时传统的NER任务只基于文本信息进行提取。而广告场景中，拥有丰富的商品图片信息，如何高效利用图片、文本多模态信息提升属性识别的效果是我们想要解决的问题。

基于上述问题，我们提出了一套多模态QA式属性提取框架：

Multi-Modal Transformer提取文本/图片多模态特征；
增加属性预测网络，提取属性proposal，极大缩小token目标分类范围；
将属性作为query作用于属性值提取网络，进行QA式NER提取。

创意视频时序化理解

当前视频创意广告越来越多，首先我们构建了一套完善的多维度创意内容理解体系，包括视频基础属性理解（尺寸、时长、镜头数、清晰度等）、视频框架理解（拍摄手法、视频场景、视频风格等）、视频元素理解（人物、LOGO、道具、营销卖点等），以对整个视频进行理解打标签。但同时，由于视频广告节奏、信息变化快，每个镜头都包含非常丰富的信息，因此需要更精细化的进行时序化、镜头化理解，助力创作编辑&精准推荐。

基于此，我们提出并研发了基于视频时序分割+视频时空检测定位的时序化理解能力：

视频时序分割打标签：适用于视频框架类标签，将视频分镜头分幕分割后进行分镜头分幕片段的理解；
视频时空检测定位打标签：适用于视频元素类标签，直接对视频进行时空时序定位，提取精彩片段关键元素。

（四）业务应用

巨阙广告内容理解目前已服务应用于广告全链路，助力下一代广告系统效果提升。

目前已完成60+项特征理解能力建设，覆盖商品、创意、落地页等多个维度;
相关特征已广泛应用于召回/粗排/精排大模型，显著提升广告系统的消耗与GMV；
相关特征应用于创意风向标、创意排行榜、创意研报等多个创意分析产品，指导广告主优化创意制作，提升创意制作效率&效果。

【乾坤】广告智能创作

（一）业务背景

视频广告数量增长趋势明显，引发对视频创作诉求的激增。针对广告投放门槛高，视频制作成本大，视频跑量周期短等实际业务问题，腾讯广告多媒体AI中心打造出智能创作引擎 - “乾坤”，助力视频产能提升，解决行业客户痛点，推动腾讯广告视频化进程。

（二）智能创作引擎

经过多年技术沉淀，腾讯广告智能创作引擎实现多项自动化视频创作能力，支撑多大项产品形态，日均生产数十万条量级视频广告。引擎持续打磨智能生成、渲染合成、质量控制、元素库四方面能力。

智能生成：包含多达几十项基础算法能力，涉及多模态视频标签、视频时序解析、视频封面图生成等原子算法能力。
渲染合成：依赖CPU和GPU双集群渲染，支持前端实时预览及批量化生成，具备模板视频工程化设计、特效定制支持、稳定分布式高性能渲染等能力。
质量控制：系统规则、AI算法、人工运营有机结合，全链路保障视频质量。
元素库：积累视频元素数万个，包含视频模板、音乐、特效、贴纸、节日元素等。

（三）典型技术解析

视频尺寸变换，降低投放门槛

针对腾讯广告流量特性，我们基于视频人像分割提取人物，视频OCR/ASR提取字幕，构建出一键视频智能拓展能力，实现3分钟自动化视频多规格拓展。此外，我们也实现了分镜联播、百叶窗、利益点填充等多达16种视频转尺寸方案，支持全规格互转。

图片衍生视频，提升制作能力

针对单图片生成视频场景，我们基于单目深度预估、图像填充等能力建设了单图3D微动能力，让图里的元素“动起来”，提升广告投放效果。此外，我们也实现了多图音乐卡点混剪，针对节假日匹配节日模板等方案，建设批量化视频生成能力。

视频派生视频，延长跑量周期

我们提出创新的视频广告时序解析算法，结构化视频广告叙事框架，并识别每个视频片段四个维度的标签，将视频广告理解能力从整体粒度升维至时序粒度。实现镜头混剪、视频时长变换、视频强化、跑量素材混剪等多种能力。视频生成视频效率得到指数级提升。

虚拟特效，探索广告创意新玩法

针对广告新玩法的探索，我们打造了一条虚拟特效智能生产管线，实现批量化广告生成，包括虚拟人驱动引擎、特效生成等核心技术能力。实现输入一段文本or一段音频 + 一张广告图片，生成一条含有虚拟人或者特效的视频成片，达到提升广告效果、提升视频广告生产效率的作用。

（四）业务应用

广告智能创作引擎每天生成的视频数量增长迅猛，支撑创意自动化衍生适配全流量广告版位，大幅降低广告投放门槛，提升投放效果。

【神针】广告智能审核

（一）业务背景

广告审核是广告商业变现的前提，也为公司的广告生态保驾护航。我们与腾讯广告联合建立了一套安全、精准、高效的广告智能审核平台 - “神针”，涵盖超100项AI审核能力，将以往的"人工审核"方式，进化到“机器主导+人工配合”的高效方式，实现广告审核的全面智能化。

（二）系统架构/功能

结合广告审核的特性，例如违规点众多、素材重复度高、违规点具有时间相似性等，构建自动判别、相似复用、负向检测、规则引擎等4大类能力。

自动判别：针对一些长期稳定的样式（包括合规广告&违规广告），训练多模态自动通过/拒绝模型，用于处理AI违规点能力无法覆盖的素材；
相似复用：广告主为了降低素材制作成本，通常会重复使用广告元素（如视频 or 图片等）构建广告进行投放，通过构建相似复用能力，能够以较低的相似检索成本来实现素材的精准审核；
负向检测：主要应用于高频违规点检测，例如违规词识别、素材模糊、涉暴涉恐等；
规则引擎：由于不同的流量、不同的行业对于审核规则都有差异，因此为了提高能力的通用性，在基础能力基础上构建了规则引擎，以适配业务需求。

智能广告审核系统可支持各类广告元素的审核，包括图片、文案、视频、落地页、广告主账户等的审核。

（三）技术解析

多模态自动判别技术解析

广告审核的数据复杂而多样，在元素形态上可分为文本、图片、视频和落地页四种类型。我们将这四种类型进行归纳和拆解为视频、音频、图像和文字四种基础模态，采用多模态多标签分类的思想来进行自动审核判别模型的建模。

整个算法pipeline划分为模态特征提取、模态内特征融合、多模态间特征融合以及多标签分类四个模块。首先，我们使用构建的多模态模型库提取视频、音频、图像和文字不同模态各自的特征表征，然后在各个模态内部进行特征的融合，如视频帧间特征融合的操作；再融合不同模态特征之间的特征对广告进行一个丰富的特征表征，最后输出通过/拒绝二分类标签和1000+细粒度违规点。

负向检测技术解析

在广告审核场景中，违规点数量多而杂，仅算高频违规点就多达数百个，如何高效且快速地实现机器自动审核是个巨大的挑战。针对这个难题，团队主要从两个方面入手，首先针对Top违规点，独立建模，累积开发了100多个负向违规点审核能力；其次针对重要关键的能力，例如OCR、人脸技术等，团队重点攻关、全面研发，始终保持技术处于行业领先。

（四）业务应用

广告智能审核系统集安全、精准、高效为一体，审核质检合格率处于业界领先，同时通过机器审核为腾讯广告节约人力超千人。智能审核系统有效提升了广告主投放效率，把控了平台的广告风险，也为用户带来良好的广告体验。

【天印】广告指纹系统

（一）业务背景

广告主为了减少广告创意制作成本，复用成功起量的广告创意，经常会创建相似广告进行投放。大量相似广告对广告生态造成诸多负面影响，在广告推荐方面导致大盘分配效率下降、冷启动速度慢、广告空耗严重、跑量不稳定等负面影响；在用户体验方面，大量相似广告重复曝光造成用户的反感与投诉。

【天印】广告指纹系统以视觉相似为基本准则，提供层级化指纹ID、Embedding及多种检索能力，服务腾讯广告投放、广告召回、广告推荐模型及广告效果分析等全链路环节，有效解决相似广告重复曝光、广告推荐不稳定等问题，改善广告生态，并为广告链路降本增效作出一定价值的贡献。

（二）系统架构/功能

【天印】广告指纹系统主要包括四个模块，广告流水解析、广告元素特征提取、广告聚类指纹/哈希指纹生成、广告指纹入库，具体模块如下图所示。同时为了配合下一代广告系统升级，【天印】广告指纹系统也从1.0版本升级到2.0版本。

【天印】广告指纹系统当前支持 4层级指纹ID（元素指纹/素材指纹/广告指纹/商品指纹），支持 2层级Embedding，支持单模态、多模态、跨模态检索，支持元素、素材、广告、商品的检索。

（三）技术解析

【天印】广告指纹系统中最重要的模块为Embedding提取模块。我们使用了多模态+深度度量学习算法提取图像 / 视频 / 文案的Embedding，并创新地提出了角度量化（Angular Quantization）与Hash Bit Selection算法生成Hash指纹，技术达业界领先水平。

多模态Embedding算法：

视频方面，我们提出了多模态多尺度视频时空Transformer模型，引入了ASR文本信息辅助相似度计算，同时引入了文本模态Mask的数据增广以及ASR模态缺失损失函数，提升了模型泛化性；相比于业界竞品效果，算法在F1指标提升了12%。图像方面，我们使用多监督信息，并引入了多层空间特征，使得模型能够关注到除商品外的底层色彩、纹理等信息，以更好地反映图片对之间的全局相似度，较业界常用算法多解决了80% badcases。

哈希量化算法：

经典的ITQ等算法其目标函数没有考虑样本间的Pairwise特征相似性，只降低了样本的量化误差，在某种程度上损失了一定的信息；为了更好地建模样本的相似信息，保持样本的原始相似性，我们自研了一个新的哈希算法AQ，其采用了独特的离散优化策略，直接求解二值哈希码，在业界常用数据集上mAP提升3%；为了节省存储资源并提升效果，我们进一步提出了哈希比特选择（Hash Bit Selection）算法，借鉴特征选择的思想，选出重要的哈希比特位，并丢弃冗余的哈希比特位。在业务数据集上，哈希比特选择算法可降低编码长度33%，节省哈希编码存储空间33%；在同等维度下，经过哈希比特选择后的哈希编码相比单哈希算法的mAP最高可提升 ~4%。

（四）业务应用

相似检索系统已应用于腾讯广告推荐全链路。投放阶段，基于相似指纹进行投前诊断，投放更加多样性广告素材提升用户体验；审核阶段，基于相似图片/视频检索，对不合格的相似图片/视频进行快速下架；在召回阶段，提升曝光广告的新鲜度等；推荐阶段，指纹作为广告侧特征保证模型预估的稳定性，提升模型大盘效果等等。

【混元】AI大模型

（一）多模态内容理解

广告内容理解中有各种各样的理解任务以及大量的无标注数据，如何利用这些大量的无标注数据产出一个通用的多模态内容理解预训练大模型，并提升下游各理解任务的迭代效率和效果，是我们重点要解决的问题。

基于此背景，我们设计了一个适合广告场景的多模态内容理解大模型。该模型基于单流的Transformer结构，提出多尺度视觉特征融合、层次化注意力交互、大规模对抗训练等诸多改进和设计：

多尺度视觉特征融合：视觉特征同时采用Region、Patch特征，以便获取更丰富的视觉语义信息；
层次化注意力交互：针对Embedding交互，设计了采用全局+局部注意力的方式，这样可以在不损失重要信息交互学习的情况下，节省计算开销，提升训练效率；
大规模对抗训练：针对大模型在下游任务中容易过拟合的问题，在预训练和下游任务finetuning中引入了对抗噪声训练的方式提升模型的鲁棒性。

（二）多模态文案生成

针对广告文案，我们设计了多模态多任务文案生成大模型，可以用一个模型提供多种功能，当前功能包含前缀生成、关键词生成、夸张风格生成、受控生成以及图像描述生成等。用同一个模型完成多种任务可以在多个任务中迁移知识，节省训练样本，也方便部署。当前模型生成的结果已经集成入文案助手的广告文案推荐。相比检索式的文案推荐，生成式的文案推荐可以适应新出现的场景，引入外部知识。

（三）跨模态检索

视频内容的理解、推荐和搜索能力对于广告内容的投放、审核、推荐等环节至关重要。针对海量多模态广告视频数据，跨模态视频-文本检索技术是提高计算机对视频内容理解的重要手段之一，其不仅要求模型能够捕捉模态内部的细粒度语义信息，还需要学习跨模态数据之间的内容关联性。然而不同于单模态（图片、视频、文本）检索任务，不同模态的数据分布存在天然的异质鸿沟（heterogeneity gap）问题，且跨模态数据之间存在多对多映射的标签噪声。

为了解决上述问题，我们的模型基于双塔Transformer结构，提出了层级跨模态交互技术，通过自注意力机制将单帧特征聚合成帧-片段-视频的层级化视觉特征，同时针对文本模态得到单词-短语-句子的层级化文本特征，最后通过层级化的对比学习，实现从多粒度角度分析两种模态数据的相似程度。

除此之外，我们提出的自适应标签去噪技术和边缘样本增强技术通过挖掘潜在的噪声样本以及强化边缘样本，进一步提升了模型的检索精度。最终，我们的跨模态检索大模型在五个最权威的国际跨模态检索数据集榜单上都取得了Top 1的成绩，成为业界标杆。

总结

腾讯广告多媒体AI技术团队聚焦腾讯广告场景，全力投入多媒体内容的分析、理解、检索、生成等全链路前沿AI技术研发，持续推进腾讯广告智能化进程。当前，我的团队已经构建了较为完善的多媒体AI能力矩阵，研发了【混元】AI大模型，并以此为底座支持【巨阙】广告内容理解、【乾坤】广告智能创作、【神针】广告智能审核、【天印】广告指纹系统等四大技术平台。我团队研发的这些技术处业界领先地位，已经成为腾讯广告技术基建中不可或缺的组成部分。

未来，我和团队将继续在AI技术道路上进行探索，持续提升腾讯广告的技术影响力，为腾讯广告业务创造更大的价值。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

腾讯杰出科学家刘威：多媒体AI技术如何让广告系统更“智能”？

（一）业务背景

（二）系统架构/功能

（三）技术解析

（四）业务应用

（一）业务背景

（二）智能创作引擎

（三）典型技术解析

（四）业务应用

（一）业务背景

（二）系统架构/功能

（三）技术解析

（四）业务应用

（一）业务背景

（二）系统架构/功能

（三）技术解析

（四）业务应用

广告内容理解中有各种各样的理解任务以及大量的无标注数据，如何利用这些大量的无标注数据产出一个通用的多模态内容理解预训练大模型，并提升下游各理解任务的迭代效率和效果，是我们重点要解决的问题。

（二）多模态文案生成

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

腾讯杰出科学家刘威：多媒体AI技术如何让广告系统更“智能”？

（一）业务背景

（二） 系统架构/功能

（三）技术解析

（四）业务应用

（一） 业务背景

（二） 智能创作引擎

（三） 典型技术解析

（四）业务应用

（一）业务背景

（二） 系统架构/功能

（三）技术解析

（四）业务应用

（一） 业务背景

（二） 系统架构/功能

（三） 技术解析

（四）业务应用

广告内容理解中有各种各样的理解任务以及大量的无标注数据，如何利用这些大量的无标注数据产出一个通用的多模态内容理解预训练大模型，并提升下游各理解任务的迭代效率和效果，是我们重点要解决的问题。

（二） 多模态文案生成

您可能也对以下帖子感兴趣

（二）系统架构/功能

（一）业务背景

（二）智能创作引擎

（三）典型技术解析

（二）系统架构/功能

（一）业务背景

（二）系统架构/功能

（三）技术解析

（二）多模态文案生成