算法高手再度集结,通关秘籍拿走不谢
近日,第二届腾讯广告算法大赛启动报名。截至目前,已收到来自中国、美国、欧洲、澳洲等20多个国家和地区的报名。众多算法高手已加入到这场烧脑竞技中。为了让更多参赛者在未来的比赛中有更好的表现,腾讯社交广告此次为大家带来了本届赛题的详细解析与上届获奖选手们的“参赛指南”。
在比赛过程中,腾讯社交广告还将陆续为大家带来更多参赛者的心得体会及技术专家的干货传授,更多精彩内容请关注腾讯广告算法大赛官方订阅平台(ID:TSA-Contest)。
▼腾讯广告算法大赛官方订阅平台
赛题解析第一手
继首届高校算法大赛以移动app转化率预估为题之后,相似人群拓展(Lookalike)成为新一届赛题,助力行业提高广告整体的投放效率。相似人群拓展(Lookalike)的工作机制是基于种子用户画像和社交关系链寻找出相似用户。
▼根据种子用户寻找出相似的拓展人群
一直以来,高潜力用户难寻、精准与规模之间难取平衡点是广告主所面临的两个主要难题,核心仍在于对大规模潜在用户的有效触及。腾讯社交广告早在 2013 年开始调研探索 Lookalike 技术,设计基于种子用户画像和关系链寻找相似人群,即根据种子人群的共有属性进行自动化扩展,以扩大潜在用户覆盖面,提升广告效果。
虽然Lookalike技术已经发展多年,也取得了不错的成绩,但是依然需要更多科技新锐投入其中。本次大赛,腾讯社交广告召集算法达人,采用相似人群拓展产品中的模拟数据包作为参赛数据,把找出相似人群的任务抽象成了一个机器学习问题。
具体来讲,种子包里包含有广告主提交的一批已知种子用户,可以当作机器学习问题中的正样本。广告平台中有海量的非种子用户,也有大量的广告投放历史数据,可以帮助生成负样本。有了正负样本后,相似人群拓展就变为了一个机器学习问题中的二分类问题。在线上使用中,广告平台可以依据二分类模型算出的后验概率P(y|x)来判定候选用户与种子包里用户的相似程度,最后将相似度最高的一批候选用户作为最终的结果。
在这个二分类问题中,模型算法和模型特征成为了取得好结果的最重要的两个因素。常见的二分类算法模型,比如SVM、FM、GBDT、LR、NN等,都是值得尝试的。
本次大赛分为初赛、复赛和答辩三个阶段,复赛的数据规模将比初赛的数据规模大。所以,选手在使用现有的二分类算法时,需要考虑算法的计算复杂度,或许需要将已公开的算法进行二次开发来满足计算性能的要求。另外一个值得注意的点是,选手需要在用户特征工程上做大量的文章:在数据清洗,特征筛选,建新特征等特征工程的每一步,都需要选手们想出与Lookalike问题最相关的操作才可取得好的成绩。
通关经验这里有
赛题明确之后,众位选手在勇往直前的同时,也要避免踩“坑”。两届比赛赛题虽不尽相同,但是参赛经验可以互通。这里还有几颗通关彩蛋:拿到鹅厂offer的首届选手现身说法,密授通关经验。
▼首届算法大赛获奖选手张建敏
首枚彩蛋来自上届“到底对不队”的北大才女张建敏,其团队不仅获得了大赛总分第四名的好成绩,还荣获答辩最佳表现奖。她从比赛对自我的提升角度挥毫一篇《往届选手分享心得:如何在比赛中提升自己?》,分享了比赛成功经验。“到底对不队”在深入了解业务逻辑的基础上,寻找重点数据及特征,分析不同模型对于数据的处理优势,以此改进自己使用的模型,并将多种模型分步融合,提升结果。张建敏建议在设计整个处理方式和流程的时候考虑清楚大数据处理,以保证决赛阶段换数据后的处理速度。
▼首届算法大赛获奖选手栗强
第二枚彩蛋来自上届亚军“Raymone”团队的大连理工算法大神栗强。他已经是腾讯社交广告的准员工,即将入职鹅厂。
针对此次大赛,栗强专门为大赛萌新们编写了《腾讯广告算法大赛萌新指南》,分享了一些在比赛中遇到的问题和解决方案,涵盖数据集划分、特征工程、数据规模、模型选择和融合等重量级干货。悄悄划重点:栗强的指南中也提到,在比赛中要理清实际业务背后的逻辑,多做功课,向老司机学习!
古人云,三人行必有我师,“到底对不队”和“Raymone”团队的通关经验都告诉我们,善于学习,查阅资料,向有经验的朋友请教,和其他选手们互通有无,共同进步。
欢迎点击“阅读原文”报名参赛!期待本届选手发挥优良传统,取得佳绩!
延伸阅读
专题推荐
资讯热站
行业案例
产品技术
数据洞察
回复以下关键词,了解更多
本地推广 | 约创 | 智慧零售
财报 | 服务商 | GMGC
算法大赛 | 优量计划 | 戛纳丨GMIC
京腾计划丨区域营销峰会/助成计划