Lookalike在爱奇艺广告投放中的应用
背景介绍
广告行业中,Lookalike(相似人群扩展)是指基于广告主提供的高潜力用户,通过一定的算法评估模型,找到更多潜在关联的相似人群。在广告投放中,Lookalike可以帮助广告主精准定向目标受众,降低转化成本。其基本流程如下:首先广告主提供一批种子用户ID,这批用户通常是历史购买过广告主产品或者服务的老用户;其次投放平台使用DMP数据和Lookalike算法寻找一批和种子用户相似的新用户;最后广告主下单定向这批新用户进行产品的市场推广。
由于Lookalike是辅助广告主获取目标受众的有力工具,目前国内外广告投放平台都实现了Lookalike的功能。但不同公司的Lookalike算法各有差异,常见的做法有:标签选择、机器学习、协同过滤、神经网络、社交关系链等。
我们深入了解爱奇艺的广告业务场景下,先后探索实现了基于标签选择和基于机器学习的Lookalike算法,以下是这两种方法的简单介绍:
基于标签选择的Lookalike算法
通过对用户观影、搜索行为的深度挖掘,爱奇艺构建了丰富的用户画像体系,每个用户都拥有数以万计的标签,包括基础属性、兴趣偏好等。我们可以对种子用户进行画像分析,挑选出种子用户中表现显著的标签进行人群扩展。例如,分析某化妆品牌种子用户,发现性别<女>、年龄<18-25>、爱购物、喜爱观看时尚节目这些标签非常显著,可以从全站用户中寻找更多具备相同标签的用户提供给广告主作为扩展人群。
算法实现上我们参考了Yahoo的一篇论文[1],文中提出了一种对用户标签打分的方法,从标签覆盖用户和种子用户的相似度、新颖度及标签质量三个维度对所有标签进行打分排序,最后将TOP-N的标签所覆盖的用户作为扩展结果。三个维度具体含义如下:
a) 相似度。衡量标签覆盖用户和种子用户的重合度,重合度越高,相似度得分越高。
b) 新颖度。Lookalike最终目标是寻找新用户,新颖度用来衡量标签覆盖用户中新用户出现的比例,比例越高,新颖度得分越高。
c) 标签质量。可以使用标签覆盖用户历史投放效果(如CTR、CVR、ROI等)作为评价指标。
最后使用对数函数分别对相似度、新颖度、标签质量进行平滑,并使用加权平均的方法获得每个标签的最终得分。
图1 基于标签选择的Lookalike算法核心流程
该方法的优点是原理简单,易于实现,有一定的解释性。缺点是调参复杂,需要反复线上实验,且按标签得分顺序召回粒度偏粗,无法从多个标签维度综合比较新用户和种子用户的相似度。
基于机器学习的Lookalike算法
针对标签选择算法存在的问题,我们尝试用有监督的机器学习算法来解决Lookalike问题。将种子用户作为正样本,目标是预测活跃用户为正例的概率。具体实现包含以下步骤:
a) 正负样本划分
进行有监督学习遇到的第一个问题是缺少负样本,种子用户是正样本,其余用户是无标注样本。这和文本分类里的PU-Learning问题[2]类似,我们借鉴了相关思想,结合不同的场景,分别使用两种方法生成负样本:
1. 使用广告主历史投放的负反馈(跳过广告、观看未点击)用户作为负样本。
2. 使用Spy方法[3]自动生成一部分可靠的负样本(RN)。
b) 模型选择
在模型选择上,常用的分类模型都可以用于这一场景,例如LR、GBDT、FM等。具体到广告的业务场景中,由于我们希望模型具备较强的解释性,方便向广告主说明扩展人群特点,所以选择了LR作为线上使用的模型。
另外,由于扩展人群存在用户复现率的问题,相较普通投放缩小了广告触达的用户范围,可能导致订单缺量,为了避免缺量,最终的扩展人群除了考虑模型预测概率和广告订单预订量外,还加入了用户的历史访问频率进行综合排序。
c) 特征工程
在特征工程方面,除了爱奇艺DMP拥有的用户基础人口属性、观影偏好、搜索偏好、商业兴趣等数据外,我们还探索了用户在广告、行业等维度的行为特征(例如,用户对不同行业广告的反馈、广告对用户的新鲜度等),并取得了不错的效果。
d) 工程架构
图2 基于机器学习的Lookalike算法核心流程
Lookalike在爱奇艺广告投放的应用效果
在爱奇艺的广告投放中,Lookalike已经应用于Trueview广告优化和第一方广告主精准人群定向,并取得了不错的线上效果。
a) Trueview广告
Trueview广告是一种全新的视频广告投放形式,用户与广告的交互方式如下图所示(以前贴片Trueview广告为例):
图3 Trueview广告投放流程
在广告播放较短的固定时长(5s)后,用户可以“跳过”广告直接观看视频内容。广告结算时,广告主只为观看超过约定时长(30s)的用户买单。应用Lookalike技术后,该类广告Trueview率相比普通投放提升20%+(绝对值)。
图4 Trueview优化线上效果测试
b) 第一方广告主精准人群定向
实验组由广告主提供一批种子用户,使用Lookalike生成扩展人群进行定向投放。对照组由广告主自主选择人群标签,并进行标签的定向投放。线上AB测试结果显示:使用Lookalike后,某母婴品牌转化成本降低28.2%,某婚恋交友平台转化成本降低60%。
总结
在爱奇艺的广告业务场景下,我们先后上线了基于标签选择和基于机器学习的Lookalike算法,基于爱奇艺丰富的用户画像和广告特征挖掘,帮助广告主取得了不错的效果提升。未来我们还将继续优化算法,不断提升广告投放效果,优化用户体验。
主要参考文献
[1] Effective Audience Extension in Online Advertising
(https://dl.acm.org/citation.cfm?id=2788603)
[2] Building Text Classifiers Using Positive and Unlabeled Examples
(https://www.computer.org/csdl/proceedings/icdm/2003/1978/00/19780179-abs.html)
[3] Partially supervised classification of text documents
(https://dl.acm.org/citation.cfm?id=656022)
爱奇艺广告DMP(Data Management Platform,数据管理平台)依托丰富的数据和领先的AI技术,为广告主提供智能化的广告投放产品。
简历接收邮箱:yeyingying@qiyi.com
广告算法研究员
职位描述:
流量预测、合约式广告分配算法开发和优化;
点击率预测、竞价广告算法开发和优化;
职位要求:
计算机相关专业硕士以上学历,相关领域3年以上工作经验;
至少精通一门编程语言(C++/Python/Hive/Scala),对数据结构和算法有较为深刻理解;
熟悉linux编程环境;熟悉hadoop、spark等分布式技术;
有较强分析和解决疑难问题能力;
熟悉常见机器学习算法、具备灵活运用能力;
有数据挖掘/机器学习/自然语言处理相关背景优先;
有计算广告、海量数据挖掘相关背景优先。
推荐算法研究员
职位描述:
负责视频推荐算法方案的设计和实施,主导模型优化和迭代流程;
职位要求:
计算机相关专业硕士以上学历,相关领域3年以上工作经验;
了解推荐、广告等相关算法模型,熟悉大数据系统架构和开发框架,对机器学习,自然语言处理有深入的研究和理解的优先;
技术能力全面,对核心技术和算法有深入的了解。熟悉系统架构和设计模式;
有较强的数据分析和解决问题的能力。组织和沟通能力强,有管理经验的优先。
高级数据工程师
职位描述:
负责基础数据平台的搭建与改进工作;
职位要求:
计算机相关专业本科以上学历,两年以上相关开发经验;
熟悉常见的NoSQL 数据库,如 HBase、Couchbase等;
熟悉常见的大数据处理技术,如 Hadoop、Hive、Spark 等;
有实时流处理经验的加分。