查看原文
其他

Tiktok如何比你更懂你?

Lea 大数据应用 2022-10-18

今日份知识你摄入了么?

每次跟朋友聊到抖音算法的时候,都不得不感叹一句“竟然比我还懂我”。这就是一个好的推荐系统,下面,我们可以一起从数据的角度来分析一下为什么抖音算法如此优秀。

TikTok的数据科学团队一定开发过许多不同的推荐系统,其中都涉及了复杂的机器学习技术。

不过,本文的主要讨论的是抖音算法中的实践数据,以及该平台上的内容格式,是如何让它如此神奇的。

图源:Hello I'm Nik


为了更好地理解,这里简单介绍一下推荐系统的工作原理。这些算法建立在“用户--项目矩阵(user-item matrix)”之上。其实,它本质上是一个表格,每一行代表一个单独的用户,每一列表示算法需要推荐的项目。比如,在Spotify,需要向用户推荐歌曲,在Netflix,推荐电影,而在Tinder,推荐的是其他用户。


每个单元格中的值表示的是用户和项目之间的某种交互,可以用来测评用户是否喜欢某条帖子 (Instagram)、使用产品后的评分情况(Amazon)或者他们是否听完了某首歌(Spotify)这种现象就是常说的反馈,可以提供用户的偏好以及喜爱程度。


只需给定一个用户,我们就能在这个表中找到其他类似的用户群,还能推荐这些用户看过/购买过的商品等等。通过该用户推荐和购买过的产品,还能给他推荐其他的产品。


图源:Celpax


那这与推荐质量有什么关系呢?


反馈的质量很大程度上决定了推荐的质量。如果用户偏好更高质量的信息,就会向其推送更高质量的内容。特别是显性/隐性反馈反馈粒度(granularity),是影响反馈质量的主要因素。


隐性反馈是我们所说的下意识的,非常自然的一种用户交互,它代表用户的真实偏好。比如,用户是否对某个帖子做出反应(LinkedIn)、是否点开了某个播放列表(Spotify)、是否关注了某一用户(Twitter,这些都是隐性反馈的一些例子。


显性反馈是用户对产品的实际评分。比起隐性反馈,它传达出了更多的信息,因为我们不用再对用户的真实偏好进行猜测了。用户对产品(Amazon)、电影(Netflix)和应用程序(App Store)的评分是最直接的反馈。不过,虽然显性反馈为我们提供了更多的信息,但是获取这些数据要难得多。因为用户评分需要更多的操作步骤,但现实中大家很少会这样做。结果就会得到一个数据较少的用户-项目矩阵,一个并不理想的推荐算法。


反馈粒度(Granularity)是指我们从反馈中获取了多少信息。十分制的评分量表比五分制的评分量表提供的信息更多,同理,五分制的评分量表提供的信息比二分制的更多。不仅让我们了解到用户喜好,还能了解他们喜爱的程度。


大多数的隐性反馈数据都是二进制的:比如,用户是否在这个项目上执行了特定的操作,所以,比显性反馈数据的粒度更小,而且更容易获得,因为需要更少的用户操作。


图源:Joey Huang


TikTok主要优势


TikTok能够把用户在每个视频上所花费的时间当成一种隐性反馈。不仅反馈粒度小,而且很连续,所以预测的用户喜好非常准确。并且,因为收集这些数据不需要用户有任何额外的操作,所以当TikTok大规模的实现这点,就能产生超级准确的推荐。


这种粒度较小的隐性反馈在Netflix和Spotify也可以使用,的确,他们现实中也会这么做。但这正是TikTok的第二个主要优势发挥作用的地方:平台上显示的内容格式。短片视频的形式比电影、剧集、甚至歌曲更容易让人接受。给定一段时间,用户在TikTok中可能已经浏览20个不同种类的视频,在用户-项目矩阵中创建20个新条目了。


而在Netflix中,用户可能只观看了一部电影或电视节目,在用户-项目矩阵中仅创建了一个新条目。这也让TikTok能够非常轻松地大规模进行数据的收集,从而产生非常准确的算法。


机器学习是如何融入其中的?


在用户-项目矩阵上构建、存储、计算是非常昂贵的。所以,我们用机器学习的方法,如矩阵分解(Matrix Factorisation)神经网络算法,如深度协作过滤(Deep Collaborative Filtering)来熟悉那些更易于存储和计算的用户和项目(分别为matrices或embeddings)


TikTok的数据科学家们,利用机器学习和深度学习技术来创建出色的推荐算法。利用粒度较小的隐性反馈,以及围绕短视频进行(最易接受的媒体形式)的产品构建,收集大量的数据,高效地完善了自身系统的用户推荐算法。

原文作者:Kaushik Sureshkumar 

翻译作者:Lea

美工编辑:过儿

校对审稿:Jiawei Tong

原文链接:https://towardsdatascience.com/how-does-tiktoks-algorithm-know-me-so-well-459e8dc7e90b

本周公开课预告

Recap 作者:Peter Mei

美工编辑:过儿

校对审稿:佟佟

公开课回放链接:https://www.youtube.com/watch?v=xd1vczSeOWI&list=PL39P3XK_jveHE89PgwwvVPAGAj2cuxRrT&index=42&ab_channel=DataApplicationLabDataApplicationLab


往期精彩回顾


四个数据科学求职者的常见失误

公司要求签PIP,你离被裁员还有多远?

为什么Kubernetes在数据工程中火起来了?

数据工程师面试最全指南

跟数据科学家相比,数据工程师更需要哪些技能?





点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存