查看原文
其他

大数据告诉你Tiktok为何让人如此上头?

Lea 大数据应用 2022-10-18

今日份知识你摄入了么?

Tik Tok正在风靡全球。根据Sensor Tower,这个短视频APP在全球的应用程序商店和Google Play上的下载量已超20亿,这款轰动一时的软件背后,到底有什么魔力让你如此着迷?毫不意外,答案就是机器学习支持的推荐引擎。

不过说实话,谁不喜欢那些可可爱爱的小猫小狗的短视频呢?特别是在疫情封锁的抑郁时期。

图源:JaySanProduction


但这只是Tik Tok成功的部分原因。不到两年时间,它从一个小众的“假唱”软件发展到2020年的病毒式传播的应用,月活跃用户近8亿。数据统计结果显示,Tik Tok上带有#coronavirus标签的短视频总浏览量达到530亿次。


2020年1月,TikTok成为美国下载量最多的应用程序。(根据SensorTower)

图源:Sensor Tower | TikTok全球总下载量


它还因洗脑的歌曲、滑稽的模仿视频而出名。


数据显示,人们通常每天要花52分钟在Tik Tok上,而花在Snapchat、Instagram和Facebook的时间分别为26、29和37分钟。


图源:Oberlo


除了能增长growth hacking(指通过非正常手段增加网站或其他产品的运营数据的做法),这款60秒的短视频应用程序还集模仿、喜剧、舞蹈和才华于一身。同时配备了业内最好的推荐引擎之一,用户就无需搜索或者选择困难。只要点击一下就会为你提供个性化的内容。


这种无尽且容易获取的即时幸福感带来的冲击,让人很难停止浏览TikTok。有些人说,它就是时间的终极杀手,会占据你一切的空闲时间,还时常给人一种“TikTok五分钟,现实生活一小时”的错觉。


接下来,我们一起来讨论如何使用机器学习来分析用户的兴趣和喜好,然后通过互动向不同用户推送个性化内容。


推荐引擎对于数据科学领域来说并不陌生。反而,它因为缺乏图像识别或语言生成等令人眼花缭乱的效果,被人们看做老一代的人工智能系统。


但不管怎样,这个推荐引擎仍是AI系统较为重要的一部分,几乎能在所有的在线网络服务或平台等广泛领域中使用。比如,YouTube视频下方的推荐,你收到的来自Amazon的广告邮件、还有你在浏览Kindle书店时会看到你可能喜欢的书。


事实上,Gomez-Uribe和Netflix的产品总监Neil Hunt在发表的研究论文中说道,个性化和推荐的结合的效应每年给Netflix节省了超过10亿美元。另外,有80%的订阅者是从引擎推荐列表中选择视频的。


接下来,让我们一起看一下TikTok有什么特别之处。


1. 推荐引擎简介


关于推荐引擎,实用的文章和在线课程太多了,大家可以自行搜索学习。


下面是一些你可以用到的建立推荐引擎的基础知识:


  • 从头构建推荐引擎的全面指南:链接 (大约需要35分钟阅读,40-60分钟复制python代码)

  • Andrew Ng 的推荐引擎视频:链接(观看视需要一个小时)


除了基本的工业化推荐引擎之外,还需要集成一个强大的后端和架构设计。下面来看一个主要的例子。


图源:Catherine Wang|推荐引擎


实时系统应该要有一个坚实的数据基础(用来收集、存储)可以支持多个抽象层(算法层、服务层和应用层)解决不同的业务问题。


2. TikTok 推荐工作流


TikTok从未向公众或科技界公开过他们的核心算法。但是,根据公司发布的零散信息,以及极客使用逆向工程技术发现的踪迹,我得出了以下结论:


(——这只是我个人的解释和推断,可能与TikTok的实际做法有所不同)


图源:Catherine Wang|Recommendation Workflow


步骤0:用户生成内容(UGC)的双重审计(Duo-Audit)系统


在Tiktok,每天有数量庞大的新作品上传,如果只靠机器审核,很容易被钻空子,但纯靠人工审核又不太现实。所以,双重审核成为Tiktok算法筛选视频内容的第一道门槛。


机器审查一般是通过双重审计模型(基于计算机视觉)识别你的视频图像和关键词。主要有两方面功能:


  • 1)审核剪辑、文案是否违规。如果疑似违规,就会被机器拦截并标记为黄色或红色,进行下一步的人工审核

  • 2)通过提取视频中的图片和关键帧,模型会把提取的内容与其海量存档内容库进行匹配。一旦捕获到盗用抄袭的作品,就会降低他们的流量并进行降权推荐。


人工审核主要集中在3方面:视频标题、封面截图和视频关键帧。对于模型标记的可疑内容,技术人员会对其逐个审核。如果认定存在违规,就会实行删除视频、停用账号等处罚。


步骤1:冷启动


TikTok推荐机制的核心是信息流的漏斗算法。内容通过双重审核后,进行冷启动流量池的第一轮曝光。比如,你发布了一条新作品,通过审核后,TikTok会自动为你匹配200-300名活跃用户的初始流量池,增加你的曝光率。


这种机制下,只要你有能力产出优质内容,即使是新手也能与拥有数万粉丝的老手竞争,因为起点都一样。


步骤2:数据加权


Tiktok会通过在初始流量池中获得的浏览量,对其中数据进行收集、分析。主要分析浏览过程中的点赞量、浏览量、观看量、评论量、粉丝量、转发量、分享量等。


然后,推荐引擎会根据这些数据以及你的帐户评估(无论你是不是高质量创作者)是否要给你的作品加权。


如果引擎决定给你的内容加权,那么排名前10%的作品能再增加1万次曝光。


步骤3:加大流量推荐


对步骤2流量池的反馈进一步分析,来决定是否要更大加权。这一步中,如果一些特定的用户群体(如体育爱好者、时尚爱好者)发表的内容很出色,就会进一步增加权重、加强推荐力度。


整个过程主要就是“猜你喜欢”。推荐引擎会建立一个用户档案库,来寻找内容和用户组之间的最佳匹配。

 步骤4:进入精品推荐池(Tiktok的顶级流量池)


只有不到1%的内容最终会进入精品推荐池。在这个池中,内容的曝光量会比其他高出一个数量级。因为热门内容几乎会被推荐给所有用户。(比如最近不管是谁,都可能想看最新的抗议视频“Black lives matter”)


其他步骤:延迟“引爆”


不少Tiktok用户注意到,他们几周前发布了几条影响力平平的帖子,几周后却突然火了。


主要有以下两个原因:


  • 首先,TikTok有一个算法(绰号“掘墓人gravedigger”),可以重新挖掘高质量的旧内容,然后对其进行曝光。如果你的内容被这个算法选中,就表明你的帐户有很多足够垂直的内容。这个标签能增加你的内容可见性。

  • 然后是“潮流效应”。也就是说,如果你的某个内容获得了成百上千万次观看后,就会把流量引至你的个人主页,增加旧内容的观看次数。这通常发生在垂直创作者(比如,逗猫视频创作者)中。一条爆火的视频会点燃其他所有高质量的视频人们希望看到你家小猫更多可爱、好奇的视频)


https://giphy.com/gifs/sup-11r4Xcb0K5VamY

图源:wiflegif.com


限制:流量高峰


如果一个Tiktok账号的作品通过了信息流漏斗(双重审核、增加权重和扩大引流),那么这个帐户就会获得更多的曝光、互动和粉丝。


但是,根据研究,这种高曝光时间一般很短,通常不会超过一周。过了这个时间段,这条爆火视频甚至整个账号就会冷却,包括后续的视频也很难流行。


为什么呢?


主要原因是TikTok希望引入多样性,并消除算法中的非人为偏见。通过这种设计,推荐引擎就不会倾向于某一特定类型的内容,从而确保新内容可以有平等的机会进入到精品推荐池。

原文作者:Catherine Wang

翻译作者:Lea

美工编辑:过儿

校对审稿:Jiawei Tong

原文链接:https://towardsdatascience.com/why-tiktok-made-its-user-so-obsessive-the-ai-algorithm-that-got-you-hooked-7895bb1ab423

本周公开课预告

Recap 作者:Peter Mei

美工编辑:过儿

校对审稿:佟佟

公开课回放链接:https://www.youtube.com/watch?v=xd1vczSeOWI&list=PL39P3XK_jveHE89PgwwvVPAGAj2cuxRrT&index=42&ab_channel=DataApplicationLabDataApplicationLab


往期精彩回顾


四个数据科学求职者的常见失误

公司要求签PIP,你离被裁员还有多远?

为什么Kubernetes在数据工程中火起来了?

数据工程师面试最全指南

跟数据科学家相比,数据工程师更需要哪些技能?





点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存