凯哥讲数据中台[004]Netflix的数据中台(上)
前言
在《#凯哥讲数据中台#数据中台的使命,愿景和六大核心能力中》,我提到,数据中台的愿景是"打造数据驱动的智能企业"。
有同学问,你能举一个例子,什么样的企业是数据驱动的智能企业,他是如何做到的么?
我试图找到一个案例来解释,什么是数据驱动的企业,这样的企业是如何构成的,数据又是如何帮助企业成功的。
Netflix是其中一个可能的研究对象,当我阅读了上百篇文档,看了众多Youtube的相关案例分享后,我发现,Netflix真的是一个数据驱动的商业奇迹。
从一个传统的DVD租赁公司发展成为最成功的的全球化媒体公司,市值高达1480亿美元(2019年12月数据),它不仅是过去十年全球商业上最成功的的企业,也被评为改变人类影视消费模式的颠覆性企业,在这个变革过程中,数据起到了最核心的作用,是Netflix的核心竞争力之一。
用Netflix的创新和数据分析经理Michelle Ufford的话说,“Netflix是我见过真正的数据驱动的公司,没有之一。”[1]
本文通过研究,还原Netflix的整个转型过程,转型过程中数据在其中所起的作用,以及,Netflix的数据驱动的能力是如何构建的。
研究了近100篇文章,20篇以上的视频演讲,总结而成,欢迎转载,请注明出处
文章共10392字,阅读约30分钟
本文分两个部分:
上部
一、Netflix:业务转型的奇迹
二、数据驱动的数字化转型
下部
三、Netflix的数据中台
一、Netflix:业务转型的奇迹
全球最成功的转型者
《哈弗商业评论》2019年9月24日发布了十年来全球最成功的20个商业变革案例[2]。
其中Netflix以全新业务收入增长率44%,复合年增长率59%,超越第二名一倍还多的数据,排名榜首,排在其后的是我们所熟知的亚马逊,微软,腾讯和阿里巴巴,而与Netflix竞争的迪士尼则不在此列。
这个榜单的企业都是全球标准普尔500指数和福布斯全球2000强的公司中筛选出来的,代表着全球最优质的和规模最大的企业。
而这样规模的企业,一般来讲,复合年增长率和新业务的收入占比是很难兼得的。大部分企业,如果新业务的收入占比高,那么复合年增长率就不会很快,毕竟新业务需要投资并且也需要一个培育和增长的过程。而Netflix从2012年开始投资原创内容制作的业务,经过短短7年的时间,这部分业务的收入就占据到了它整体收入的44%,而同时它的复合年增长率达到了59%,这是非常惊人的数字。
更加惊人的是,作为一家流媒体视频巨头,它的所有的收入没有一分来自于广告。是的,Netflix是没有广告的,不像国内的视频平台,以各种形式赚着广告费。
这是一家什么样的公司,为什么能够获得如此殊荣,成为全球最具创新业务的公司,让我们深入了解一下Netflix。
Netflix的历史
Netflix的名字来自于英语的网络(Net)和电影的俚语(Flicks)的缩写”Flix“,其实连起来就是网络电影的意思。
Marc Randolph和Reed Hastings于1997年8月份在加州Scotts Valley创建了Netflix,这两个创始人都是在硅谷很有名的人。
上图右边是Marc Randolph,是硅谷自身的企业家,顾问和投资人,他创立了不少于六家成功的创业公司,包括《Macworld》杂志和Looker(对,就是后来被Google收购的那个大数据公司),并指导和投资了数百名早期创业者。他刚刚写了一本以Netflix创业为内容的畅销书,书的名字是”That will Never Work“。
Reed Hastings在创立Netflix之前就于1991年创立了Pure Software,并且于1997年以$700M的价格卖给了Rational Software,当然,最后2003年Rational被IBM以$2.9B收购了。
参考相关文档,我画出了Netflix的主要旅程图:
1997年Netflix成立,最早的业务是出租DVD,就是用户下订单,然后给用户邮寄DVD,按照次数售前的pay-per-rental的业务模式。
1998年,Netflix.com上线,这是世界上最早的在线出租DVD的网站,用户在网站上浏览和订购DVD,每次出租在4美元左右,加上2美元的邮寄费用。这样的模式比传统的到店消费方便多了,所以Netflix的业务增长的非常快,在1999年,Netflix推出了订阅服务的模式,用户可以无限期的看同一个DVD,但是同一时间只能看一部,根据订阅数计费,而不是根据租用的次数收费,这样就提升了用户的持续性。
下图是1999年的Netflix官网,就是一个搜索电影的网站。
2000年,Netflix就推出了个性化的推荐系统,试图通过分析用户的浏览和订阅行为数据来给用户推荐更准确的内容。
在那个时代,Netflix的最大的竞争对手是Blockbuster,曾一度拥有9042家线下租赁店的行业巨人。
2002年5月23日,Netflix以60万订阅会员的业务规模在纳斯达克上市,上市之初的发行了550万股,发行价是¥15,收盘价¥16.75。
当天,纽约时报对于这个IPO的评价很短,只是说这是个小公司,并且也不怎么挣钱。
在16年后的2018年,Netflix的股票价格达到了400多美元。从2010年算起,Netflix股票回报率高达4181%,远远超过了标普500的所有股票。
而比较有戏剧性的是,2010年Netflix顶替一家公司,进入标普500指数成分股清单,而它所替换掉的公司,就是当年的纽约时报。
下图是2004年的Netflix官网,主打还是DVD快递业务。
2005年,Netflix的订阅用户增长到420万。
2007年,Netflix推出了流媒体服务,会员能够从他们的个人电脑上实时收看电视节目。
2008年,Netflix与XBox360这样的合作伙伴合作,为用户提供流媒体服务。
2008年的Netflix官网已经开始重点介绍流媒体业务了,如下图所示:
2009年,Netflixyu'geng多的互联网服务商合作为他们提供流媒体服务,比如PS3,互联网电视提供方。
2010年,Netflix开始为苹果的所有设备提供服务,并且拓展业务到美国以外,加拿大。
2011年,Netflix启动全面全球化,进入拉丁美洲和加勒比地区。
2012年,Netflix进入欧洲地区,并且第一次赢得了黄金时段艾美奖(Primetime Emmy Engineering Award)。
2013年,由于《纸牌屋》等剧集的巨大成功,Netflix获得了31项艾美奖提名。
2014年,Netflix新开拓了欧洲的六个国家,在全球的会员达到了5000万。
2015年,Netflix进入了澳洲和日本,同年,Netflix发布了第一个原创电影,《Beasts of No Nation》,并获得了好评。
2018年,Netflix的头一次超越娱乐巨头迪士尼,成为市值最高的娱乐公司。
2019年,Netflix的全球订阅用户数达到1.67亿。
而到今天,Netflix只是一个22年历史的公司,这真是全球最成功的的公司了,它的用户增长的曲线如下图所示:
2012年的绝地反击
这么一个商业的奇迹,并不是一帆风顺的,多次遭遇危机。
1999年,差点被卖给亚马逊,并且Reed也尝试和BlockBuster谈并购,但是人家不感兴趣。
在2012年,Netflix的股票一度跌至谷底,如下图所示。
原因是什么呢?
和很多成功的公司一样,Reed陷入了赚钱的夕阳业务和利润低的新兴业务的纠结地带。
2011年,Reed将Netflix分拆为DVD和流媒体两个业务,并准许他们各自定价自我竞争,结果导致Netflix的价格平均上涨了60%,导致很多客户流失。
当Reed意识到这个愚蠢的决定后,他开始了教科书般的操作,他认为流媒体是大势所趋,他断然决定重点投资流媒体业务,而快速放弃DVD这样当时看来是核心利润来源的夕阳业务。这个决定带来的结果是,每季度增长200万流媒体订阅用户,同时失去40万DVD用户。
当然,这个转型的决定带来的最大的影响是,Netflix的竞争对手不再是BlockBuster这样的传统DVD租赁公司,而是类似于Amazon,Comcast,Hulu这样的流媒体巨头。
但是,Reed看的比市场更远,他在2012年启动Netflix的原创内容业务,上线了《纸牌屋》,这意味着,Netflix最终的竞争对手会是HBO乃至Disney这样的娱乐巨头。
在那个时候,没有人相信Netflix能够原创生产好的内容,并且和Disney这样的百年老店竞争,最终,Netflix交了这样一个答卷:
上图可以看出,黄色的是Netflix,2012年与HBO和FX差距甚远,但是2014年后,一路绝尘,直至把HBO和FX甩在后面。
作为一家新兴的流媒体内容制作公司,他是如何做到的呢?
二、真正数据驱动的企业
世界上最早的百万数据建模竞赛
近几年,从google的Kaggle开始,数据创新竞赛广为人知,但是可能很少有人知道,Kaggle是2010年成立的,而早在2006年,Netflix就发起了高达百万美元的数据科学竞赛,并且这个竞赛帮助Netflix获得了业务的突破的机会,在某种程度上,改变了人们看电视的模式。
“我们要去赢这100万美金!”普林斯顿大学计算机系大四的学生Lester在宿舍里歇斯底里的大叫。2006年10月,一个提供影视服务的公司公布了一个“Netflix Prize”的竞赛,竞赛的目标是利用这个公司提供的数据集,实现比Cinematch好10%以上的推荐准确度(Netflix当时的推荐系统),而奖金是100万美元,这在当时是什么概念?我查了一下,100万美元在2006年的加州,平均能买两套房,这无疑是一笔巨款。
https://money.cnn.com/2006/02/03/real_estate/house_price_predictions_for_2006/index.htm
这个竞赛背后的原因是Netflix的创始人,Reed对于他们的推荐系统的效果不满意,所以他将所有的数据集公开出来(包括48万用户对于17万电影的一亿条评价数据),希望通过这个竞赛获得更优的推荐算法。
重赏之下必有勇夫,最终参与这个竞赛的超过了3万人,但是这个竞赛的难度显然远远超过了人们的预期,有的排名靠前的竞赛者因为一直无法达到10%的目标而放弃。最终,Bellkor小组在2009年6月26日冲破了10%的终点线,赢得了胜利。
这一次竞赛对于Netflix乃至行业的影响是巨大,沿着Netflix的脚步,后来Yahoo和Zillow也公开了众多的数据集,而通过竞赛的方法,公开脱敏后的数据集获得更佳的算法的方式被人们广为接受,在2010年,Kaggle就成立了,这个专门提供数据分析竞赛的平台,后来被Google收购了。
现在回头来看,2006年,Netflix就已经有意识的搜集并利用用户评价数据进行分析,引导自己的商业决策,这是非常前瞻性的思想和行动。
Netflix从已成立开始,就带着数据和技术的基因。
无处不在的数据文化
什么是数据驱动?
用Michelle Ufford的演讲中的一句话,如果你有了一个想法,然后你利用数据去验证它,这不是数据驱动。数据驱动是一切从数据出发,在数据中产生洞察和想法从而驱动你的行为。
Outside Insight记者Thea Sokolowski对Netflix做了深入调研后,感慨道,“Netflix的每一个决策,小到封面的调色,大到个性化的市场战略,原创内容的决策,所有的一切都是数据驱动的”。
那么数据和技术是如何影响Netflix的呢?
Blake Irvine,Netflix的数据分析专家在一次大会上用了一个词”Binging on Data“来形容数据在Netflix企业的位置,也就是无处不在。[7]
Blake Irvine提到,”自从Reed创立Netflix以来,很多管理人员都来自于高科技公司,A/B 测试这样的思想贯穿我们的所有决策和行为。我们基于数据进行交流,进行分享,利用数据管理招聘和所有的一切,我们是一家从上至下数据驱动的公司。“
总结一下,Netflix的数据文化,是基于以下的几个因素构成的:一切业务数据化,一切数据业务化经过充分的协作形成企业级的数据生态,。
一切业务数据化
首先,Netflix一切的业务行为全部数据化,有着真正的大数据,
2018年,Netflix每天就会产生一兆以上的事件数据,每一个用户的浏览,点击,播放视频,在哪里停顿了,在哪里关闭了,什么时间点重新看了一遍,在哪里停留了多长时间,所有的这一切事件都会被记录,数据仓库每天会产生150PB数据,有300T的数据被写入,5PB的数据被读取分析和使用。
一切数据业务化
在这样庞大的数据基础上,Netflix将数据经过采集,清晰加工,形成不同的业务产品和分析应用到所有的业务场景,从工程开发,体验设计,客户服务到财务分析等。算法则被应用产品推荐,内容开发,市场到其他各种领域。
从规模上来讲,2018年10月,Netflix全球有5000员工,数据专业团队就有300人,除此以外,而有200个以上的数据分析团队在各个领域工作。
Blake在讲到这一页的时候,重点提到。这里的200多个数据分析团队是300个数据团队之外的,在Netflix数据团队是提供数据,数据工具,数据能力,数据平台的而其他的数据分析团队是由各个业务领域的用户和数据团队共同构成的。
所以,在Netflix,数据是沟通的语言,是分享的工具,是一种文化。
Netflix数据平台负责人 Jeff Magnusson分享了Netflix使用数据的三个哲学(philosophy):
每一个人能够很容易的访问,探索和处理数据
不论数据集的大小,第一件事情是让它可视化,从而很容易被理解
找到数据的时间越长,产生的价值越小
再这样共同通的认知下,数据分析在Netflix整个企业已经形成了一个生态系统,有2574个员工在使用tableau进行数据分析(超过了一半的员工数量),有1826个员工使用Microstrategy。不论你是什么角色,什么背景,什么专业,在Netflix都有你能够应用的工具和平台让你使用数据,利用数据来帮助你的工作。
所有的这个生态里的组成部分,基于一个统一的大数据门户(Big Data Portal)来进行协作。
这个生态里主要有12种角色,分成3类:
数据产品消费者
数据产品消费者主要指那些使用数据产品的用户,包括管理层,产品经理,算法工程师和软件工程师,他们利用经过加工后的可视化报表,数据API,多维分析等数据产品去帮助业务决策,编剧,生产视频和内容。
数据产品生产者
中间一层是数据产品的生产者,他们是利用数据集加工数据产品的团队,主要包括:业务分析师,研究科学家,数据科学家等,业务分析师根据业务需求做分析,提出业务假设,研究科学家做验证,数据科学家和机器学习科学家做模型。
数据生产者
数据工程师,分析工程师,和数据可视化工程师是直接加工数据,处理数据等的团队。他们从源系统中采集数据,处理清洗数据,将数据加工成数据集,数据可视化组件,数据模型,提供给数据产品生产者使用。
以上这么多角色,都统一在一个大数据门户上协作,从而保证了数据同源,保证大家的认知,背景的一致性,从而保证数据产品的准确性,这样的效率是很高的。这和我们所提倡的企业级数据中台的概念有异曲同工的感觉。
数据文化已经成为了Netflix的核心基因,Netflix也成为了一家数据驱动的企业,包括它的核心业务。
数据驱动的业务
Netflix的主营业务用一句话就可以概括:生产/购买影视内容卖给订阅会员。
不像很多其他的视频和流媒体网站,Netflix是不卖广告的,所以他的所有的收入都来自于订阅会员。那么回答好以下几个问题就是Netflix业务的关键:
用户喜欢什么内容?
花多少钱买什么影视内容?
制作什么影视内容?
利用数据作营销,做用户增长,这都是我们耳熟能详的场景,但是对于Netflix这样一家目前主要生产原创内容,说直白一点就是做电影,做电视剧的文化公司,数据是怎么起到作用的呢?
内容数据化
对于一个观众来讲,一部电视剧就是40分钟左右的视频,而对于Netflix来讲,是30fps*60*40帧的图像,以及每一帧对应的每一个用户的行为数据,而Netflix有超过一亿的用户,有上万部影视内容,这组合起来是一个天文数字的数据量。
所有的内容和对应的行为,都会被数据化,并且非常的细致。据粉丝爬取Netflix的数据统计,对于内容剧目风格的类别(genre),Netflix有超过7万种,也就是所说的Mirco-Genre,并且还在不断增加。所以Netflix可以极其精细的将每一帧的内容打标签,然后将用户的播放行为,比如停顿,快进,关闭,反复等组合这些所有的数据保存起来。
一切内容和行为全部数据化,这是Netflix利用数据的基础。而这些标签的生成和打法,也不是随机和无规则的,有一套固定的语法,比如,有人研究过,大概是这样的:地区 + 形容词 + 名词 + 基于xxx + 发生在xxx时代 + 拍摄于xxx年代 + 关于xxx主题 + 适合xxx年龄段。
真的向用户展示的推荐当然不可能有这么长的定语,Netflix的规则是1)不长于50个字符;2)Netflix有足够多的该风格的内容;3)这个风格读起来合理。
对于Netflix来讲,一个内容的名称都有众多不同的标签,这一切都是数据模型。
对于每一个产品经理,运营人员来说,他们是能够掌握所有的用户及反馈数据的,哪些电影被哪些用户浏览了,是否打开,打开后是否快进,在哪里停下来了,哪里反复收看,在哪里用户失去了兴趣,在哪里用户又关掉了,这些数据结合用户的一些相关信息,就能够全面的最初用户画像,用户的选择倾向等。
这样一来,每一部内容投向市场后,获得了怎样的反馈,在Netflix这里就是全面而精细的,他们在根据这些数据来支持他们的产品开发,内容推荐。
机器学习的充分运用
在庞大的数据采集的基础上,Netflix广泛的将机器学习应用于所有的领域,从影视内容的规划,识别,选用,制作,编码,发行到市场活动的策划,追踪,反馈,优化。Kelly Uphoff,Netflix的内容和市场副总裁很骄傲的说,“我们有其他传统影视公司没有的数据,利用这些数据我们能够发现其他竞争对手不知道的洞察,哪些令人兴奋和新颖的创新,比如如何命名会让观众更加有兴趣,更加容易被记住,在机器学习的帮助下我们的产品经理们能够把艺术和科技做出很好的融合”
筛选和识别内容
2019年,Netflix原计划投资150亿美金制作原创内容,而实际制作了超过1500个小时的新增原创影视内容。继《罗马》横扫奥斯卡之后,又推出了《爱尔兰人》、《婚姻故事》等今年颁奖季的佳作,从数量与质量上均有显著提升。
2020年,Netflix计划追加投资到173亿美元(等于中国电影票房总量的2倍),但是这么多的投资对于影视创作来说,其实并不多。纸牌屋第一季花了6000万美元,而皇冠(The Crown)更是花了1.3亿美元。影视内容的生产不像一般的消费品,投资大,周期长,反馈慢,观众的品味难以把握,而现在的影视市场竞争激烈,观众可选择的剧集非常多,很容易流失,这种情况下,如何能够识别出有潜力的内容,予以持续投资,是至关重要的。
Netflix又不像那些历史悠久的行业巨头,有着众多的明星的拱卫,如何让每一个投资都能够获得最大可能的回报呢?
通过机器学习,Netflix形成了在众多影视内容中识别高潜质内容的模型,用这个模型来甄别和监测在不同阶段的内容的运营情况,从而采取对应的行动。
"Consumer Science",深入的理解用户
Netflix非常重视用户的体验,Reed说过,“我不具备乔布斯那样的直觉能够知道用户需要什么,所以我们需要构建’Consumer Science‘去做到这一点”。Reed所说的Consumer Science就是通过技术来发现如何吸引,提供最佳体验给用户的过程,包括通过现有的数据形成一个个的想法和假设,然后通过调研,A/B 测试来验证,优化这些想法和假设。
Netflix是绝对的以用户为中心的企业,在Netflix的数据库里,每一个订阅会员的所有相关数据都会被存储,从他的订阅数据,支付数据,浏览数据,收看影视内容过程中的每一个点击、停顿、快进,所有的行为数据,网络带宽的速度,地理位置信息等,然后这些数据会和数据库里其他的会员数据做各种组合分析,形成标签画像,在组合成各种个性化的服务提供给每一个个体。每个会员,在不同的时间打开的首页都是个性化定制的[8],从内容的推荐,到内容的排序。
通过这样的数据和技术的应用,Netflix深入的理解每一个阶段他的会员们的需求,在这个基础上,他识别出,如果做一个以单身议员为主人公的政治类型电视剧会很受欢迎,于是,他推出了《纸牌屋》。
Experiment:A/B测试
在做这个研究的过程中,我看了youtube上大部分关于Netflix在数据方面应用的视频,我听到的非常多的一个词就是A/B测试。
Reed的程序员基因决定了,他很少相信直觉,他相信一切都是要通过测试来实验,通过数据来证明的,所以A/B测试,是Netflix所有决策最终的仲裁者。
在Netflix这个都是精英天才的环境里(招聘行业里最优秀的人给他们最顶级的薪水是Netflix的文化),创新的想法到处都是,一抓一大把,但是如何做选择,如何把创新的想法变成现实,是最重要也是最复杂的工作。
例如,为了给识别出对于Netflix最有价值的用户群,他们会把所有的用户分出不同的集合,然后对于不同的用户推出不同的推荐方案,然后追踪这些不同集合的用户的反馈和贡献率,通过这样的方式来验证一些假设。
A/B测试在Netflix是无处不在的,他们能够随时对一个假设或想法进行测试,然后根据测试的结果来调整方案。每年会运行上千个A/B测试,通过这些实验来优化产品,来推动变革,然后采集实验的数据,利用数据来评估和做决策。
Netflix对于数据和技术的依赖,已经深入骨髓,他们成立了Netflix研究院,大部分专题都是围绕数据,机器学习和数据分析的。
这是一家文化,组织,技术,流程全方位技术驱动的企业,每一个员工都是数据的使用者,这样的情况下,他是如何构建数据能力和技术设施从而来支撑这样的数据需求呢?
请期待第三部分《Netflix的数据中台》
欢迎转载,但是请注明出处,谢谢。
请关注《凯哥讲数据中台》系列
推荐阅读-2019 凯哥讲数据中台
加入凯哥讲数字化的知识星球
第一时间获取最新行业洞见,数字化报告解读
加入凯哥将数字化的知识星球,可获得报告原文