“搞垮” 微博服务器?每天上亿条用户推送是如何做到的
记者 | 琥珀
出品 | AI科技大本营(ID:rgznai100)
想必国内绝大多数网民都有新浪微博的用户账号。据最新数据显示,2018 年第四季度财报,微博月活跃用户突破 4.62 亿,连续三年增长 7000 万 +;微博垂直领域数量扩大至 60 个,月阅读量过百亿领域达 32 个。毫无疑问,从 2009 年 8 月上线至今,微博已是当前业界领先的中文社交媒体,成绩斐然。
当年有一句话叫做 “围观就是力量,舆论改变中国”,明星绯闻、爆炸性新闻等众多热门事件从微博发出传遍全网。直到如今,微博也上线了不少新功能如 “热搜” 、“新鲜事”、“故事” 等,更加强调 “社交”、“全媒体”、“垂直领域” 发展,进一步满足社交属性下人们对获取实时、一手新闻资源的需求。
Push(消息推送)的作用则在于提高用户活跃度和粘性,提高用户留存率,进而进一步提高产品功能和用户参与度。如国内外重大事件的提醒、领域内大事件的提醒、关注人或好友的重要消息推送、感兴趣内容的消息提醒等方式,可引导用户感兴趣的内容打开应用。
然而,另一个事实是,此前频频 “吐槽” 的应对热门事件的流量暴增导致的微博服务器崩溃问题,无论是热搜消息,还是信息流方面,均受到了极大的挑战。随着用户数量和消息并发量的不断上涨,基于移动端的消息推送服务器性能和稳定性也需要经受非常大的考验。例如,在排序方面,微博平台每天的推送量可达到几个亿的规模,如果全部采用全量计算,对服务器的资源消耗会过大,微博团队采用了分片批量计算的方式。
近期,微博研发中心技术专家齐彦杰在接受 AI 科技大本营采访时表示,“微博一直致力于打造基于用户关系的社交媒体平台,让用户及时获取好友动态,随时随地发现新鲜事。如何不错过重要的信息?让用户每 5 分钟去刷新自己的关注列表显然并不现实,更高效的方式是通过系统推送进行消息提醒,但推送是一个强打扰的行为,如何做一个既不过分打扰用户,又能让用户开心吃瓜的 Push 推荐系统,就是一件很有意思的事情了。”
齐彦杰,微博研发中心技术专家
在 5 月 25 日 - 5 月 27 日杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)上,齐彦杰将作为机器学习论坛的演讲嘉宾,向大家介绍微博 Push 系统的发展历程,如何利用机器学习进行热点挖掘、博文标注,以及个性化推荐系统的模型升级之路。
机器学习在微博的落地
实际上,微博一步步进化的背后离不开平台技术研发团队在新技术能力上的持续提升。在齐彦杰看来,“微博非常重视新技术的跟进与落地,内部团队做了大量工作。现在也非常注重对外的交流,每年会参与一些比较重要的会议。”
AI 科技大本营:在过去几年,内容推荐和用户增长领域呈现出了哪些比较突出的技术或应用?与过去传统手段有哪些区别和联系?
齐彦杰:过去几年,技术的发展可以说是一日千里,快得令人震惊。如果大家平常关注会议或比赛,会发现每年好的论文或解决方案,进步非常大。而工业界也非常努力,不断提升产品效果,让用户体验越来越好。
列举这些就是想说明,如果论年计,突出的技术也会变得不突出,因为发展太快了。仅仅在模型排序方面,比如几年前 LR + 超大规模特征还是排序标配,后来演变为了 FM+,直到现在则是 Deep+,不得不说技术一直在前进。但不变的是,更加有效地利用数据,通过计算量的提升,提高模型的准确率,服务好用户的个性化需求。
AI 科技大本营:您认为基于微博当前的技术能力,在完成精准、快速个性化推送的过程中,面临着哪些挑战?为什么机器学习方法能够适用于当前的问题解决?
齐彦杰:微博的数据是巨量的,用户行为也是极为丰富的,更别说博文中蕴含的形式、内容、情绪等复杂的信息,这是微博的优势,也是微博机器学习的挑战。如何去理解用户、理解内容,连接用户与用户、用户与内容?这些问题都需要 NLP、计算机视觉、图计算、排序模型等技术解决。也只有基于机器学习,通过超大规模数据的学习与抽象,才可以做到精准的个性化内容分发。
AI 科技大本营:您在之前的分享中,也提到 “博文质量、算法模型与分发效率共同决定了 Push 效果”,那么在您看来,微博用户类型繁多,关注的兴趣点更为广泛,在实践过程中,是如何根据用户画像进行更加精准的内容推荐?
齐彦杰:首先,博文的内容要丰富,满足个性化的需求一定要保障候选博文的范围足够广泛;然后,按需储备,根据用户画像能够知道用户对哪些内容有更大的需求,根据需求挖掘内容更能保障易消费物料的准确性与充足性;再通过丰富的召回方法和高效的排序模型进行推荐分发。
常用的推荐算法包括协同、向量、模型等。
AI 科技大本营:实际上微博文本短小、信息量少(有时还会涉黄、不健康、不适宜内容等信息),很难做到对文本内容进行细粒度表征。对此,在本文理解方面,团队有没有比较好的解决办法?
齐彦杰:这确实是一个很好的问题。前面我提到,用户理解和内容理解是痛点和难点,但也是机器学习在高速进步的领域,当前 NLP、计算机视觉方面的进步给了我们很好的支持,包括去年 BERT 模型的出现,Embedding 的实践,以及人脸识别、物体识别等,对于内容的表征都有很好的表现。
AI 科技大本营:不少人曾提到多模态融合的概念,对此您是如何看待的?在微博的相关业务中已经有实际的应用及成效了吗?
齐彦杰:这个问题和上一个问题可以联系起来看。因为现在随着个人硬件的提升,内容创作的形式也是在不断丰富,从最初的文本,到后来图片的增多,再到视频内容的涌现,甚至直播的加入,用户有太多的形式去表现自己的思想或情绪。单纯的文本维度已经不能完整的表征内容,所以多模态融合对于推荐系统的提高有很大的帮助。据我所知,有很多同事在做相关的内容,也有比较好的效果。
关于齐彦杰本人
据了解,齐彦杰最早服务于行业软件,2010 年进入互联网行业,一直从事爬虫、索引、检索、数据分析等方向的研发工作。后来用户获取信息的习惯逐渐从主动搜索转向被动接受,推荐系统进入高速发展时期,机器学习也开始了对整个社会进行改造。“机器学习最需要就是数据,不管是在数量上,还是在维度上,微博均拥有着巨量的公开语料及行为数据。我认为这是机器学习应用最好的土壤。” 后来,也就是 2016 年,齐彦杰加入新浪微博团队,目前在微博 UG 算法组主要负责 Push 相关方向的业务。
据他的观察,最近几年微博 Push 得到比较大的改造,完成了从编辑推荐向算法推荐、各业务独立到统一 Push 平台的升级,使用户在体验上有了很好的提升。
作为本次杭州 CTA 大会机器学习论坛的演讲嘉宾,齐彦杰表示:“技术的前进离不开先行者的经验,更离不开思想的撞击,期待 CTA2019 的技术盛宴。”
(*本文为 AI科技大本营原创文章,转载请联系原作者)
◆
CTA核心技术及应用峰会
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
更多重磅嘉宾请识别海报二维码查看。目前会议7折预售票倒计时最后1天,点击阅读原文即刻抢购。添加小助手微信15101014297,备注“CTA”,了解票务以及会务详情。
推荐阅读
点击阅读原文,了解「CTA核心技术及应用峰会」