查看原文
其他

车品觉:数据引擎将成为未来公司的壁垒

2017-11-13 车品觉 红杉汇

你是不是也感到很疑惑,虽然拥有很多数据,但这些数据对你解决问题没有帮助。这是为什么呢?


红杉资本中国基金专家合伙人车品觉在最近出版的新书《数据的本质》中,首度披露数据之王们的数据化思考方式,带领我们重新认识数据。


什么样的数据才有价值?

如何让数据落地?

如何精准预测数据


车品觉在最近的分享中,为我们解答了上述问题,他认为数据引擎将成为未来公司的壁垒。以下是部分要点摘录:


逻辑一样,算法一样,但如果风险不一样,你的决定是不一样的。 

▨ 在客户数据预测的金字塔里,最重要的是场内行为。 

▨ 整个世界已经从Marketing转移为Remarketing,从Targeting转移为Retargeting。 

▨ 每家公司的数据都有两组东西:一个是数据的自动化或自主化;另一个是以数据作为支持。 

▨ 当数据引擎成为一种循环时,它将成为一家公司成功的核心动力。 


https://v.qq.com/txp/iframe/player.html?vid=h05013oion5&width=500&height=375&auto=0

 

数据的本质


车品觉 / 著


北京联合出版公司 2017年9月


数据源有哪些影响?


现在这里有一张10块的人民币,如果我的口袋里有10块钱的一半,或者10块钱的一倍,大家做一个选择,有谁愿意跟我换?



这个问题其实很简单,有一半的机会你会得到5块,有一半的机会你会得到20块,所以平均来讲,你会发现每一次你都应该来换,因为赚的时候是10块,亏的时候是5块。这个问题需要大数据吗?不需要,但是,今天有很多不懂大数据的人会认为这是大数据。


是不是所有东西都能用大数据来解决呢?其实大家有没有发现,这是一张1965年的10块钱,它的价值不是10块钱,如果我再问有谁愿意跟我换,是不是所有人都想换?


这里面又有一个问题,到底这张10块钱值多少钱?最快的方法是什么?有人说是百度,可能说到搜索大家想到的就是百度,但是百度并不知道这张10块值多少钱。


其实还有一个方法是淘宝。它是动态的,所以最好去淘宝搜一下,昨天有谁买过1965年的10块,搜出来的金额一定比百度的静态数据要准确。


所以,数据有时候会取决于数据源有多准确。除了数据源之外,如果大家在淘宝搜,能看到这张10块大概值210块左右,实际上大概就在180块到200块之间。


那么,什么东西会影响到这张10块跟其它10块不一样?有人讲品相、供需,都不是最主要的。刚才有人讲编号,如果这张10块的编号全是8,大家猜价值多少钱?3万还是100万?


最近,有发行的港元,编号全是8的100港元就价值100多万,尽管我们去淘宝,但也会发现这些数据不足以猜到每张全同号港元的价值是多少,这种现象叫数据稀缺。


虽然你有很多的数据,但这些数据对你要解决的问题本身没有用,这里有几个信息:


▨ 第一,有些情况下不用大数据就能解决问题;


▨ 第二,当你用大数据的时候,会发现整个数据源会影响到你的准确率,数据源影响整个计算;


▨ 第三,尽管你有数据源,你会发现有些时候数据不够,就没有办法给出一个非常准确的预估。


给大家玩的游戏是5块、10块,先不说这个10块是很贵的10块,但是如果这是5万、10万,你的选择可能就不一样了。


所以,逻辑一样,算法一样,但如果风险不一样,你的决定是不一样的。当我们用大数据做营销时,你会发现还挺好用,但是如果你用大数据来判断一个人有没有癌症时,可能你的影响是蛮大的,而且你判断错误时产生的影响力可能无法补偿你平时正确判断的影响。这一点也是很需要我们注意的。


如何预测数据?


下图是我在入行的时候,师父给我看过的第一张图,这是在2005年,亚马逊是如何看待自己客户的一个小片段。我在400张数据里截取了片段:



这里包括我们可以正常拿到和看到的数据:一个客户的姓名、性别、客户编号、邮箱、地址。


有一条信息你没有看到,就是收货地址附近的信息。比如说以前我住在北京望京的华鼎世家,在沃尔玛对面,亚马逊要把一本书寄到华鼎世家,会问有多少书店在附近?三公里、五公里、十公里分别是多少家书店?这是在2005年的时候,亚马逊知道它的竞争对手是实体店,因为那个时候的人们还没有习惯线上购物。


所以,你看到图中简单描述了一个客户的信息,其实埋藏的是大数据。当年的大数据,就是知道你的地址之后,从你的地址里猜附近有多少书店,从而知晓这个客户一直以来不频繁在线上购买的原因,就是因为旁边是沃尔玛。如果想让我在天猫超市买东西,是挺难的一件事,因为我五分钟到沃尔玛就可以买完东西,非常方便。


客户的信息里还有一条是他还有东西放在购物车里。亚马逊是有愿望清单的,他会告诉你这个客户今天的状态是怎样的,非常影响他今天的购物行为。


比如双十一,以前,每年老板都会问我,你猜今年交易量会怎样?基于我们今天的信息你能猜今年双十一会不会破纪录?破多少?这个问题听起来很难,但如果真的看进去的时候,并不难。为什么呢?其实有一个数据影响每年双十一的购物量——购物车。从最近三个礼拜的购物车新增物品数,就能判断双十一会是怎样的走势。


其实,每年双十一交易量是来自于前半个小时的,这半小时决定了今年双十一会做得怎样。但是,这前半个小时里用户的交易都是来自于哪里?购物车。没有人会在前半小时去找商品,实际上前半小时买单的人很多都是在购物车里选好购买的,而且很多都是用余额宝支付,没有经过银行。


所以,“余额宝+购物车”是前半个小时里面的交易量。讲到这里,大家就知道购物车为什么这么重要了吧。


大数据的分析很多时候会用到其它信息的蛛丝马迹,这些蛛丝马迹让我能推演到我对这个东西的预测。所以,当年我把我师父这张图出来,就特别兴奋,做这个行业太神奇了,就是当你的眼光能看见一些别人看不见的东西,你在这件事情上就好像神一样。


当你真的深入后,会发现没那么神,只是你已经看见了一些别人看不见的东西。就像小偷一样,看到你家在黄金周时,三天都没有亮着灯,家里人肯定去旅游了,小偷才来光顾这座房子。所以,小偷是看见信号的,他也看到了数据,如果小偷再聪明一点,应该扫一遍电表数据就知道了。


通过场内行为获得响应数据


从过去来讲,你去一家公司做会员,他们一般问你名字是什么、住哪里,因为知道人口社会的数据,就知道了你的生活。数据能理解你的生活方式是什么,你有什么兴趣,但是在这个客户数据预测金字塔里,这些并不重要,最重要的是——场内行为。



为什么会是这样呢?因为在场内行为里面,比如说你今天买了机票去香港,有这个数据的人很快就知道你在香港可以订什么酒店,这些行为是相关联的,很多数据是有一个响应的,所以说响应数据变得很重要,我们会分析你下一步做什么。


今天在座的人会听分享到四点半,那么,到了四点半你差不多要吃晚餐了,如果是大众点评,基于你所在的地区,我会给你推荐一个饭店,根据你以往的历史记录,知道你喜欢吃什么,这种响应来自于我知道你在这里听了两个小时分享,所以我猜到你五、六点钟要吃饭是很合理的。


今天如果在座的人是做Marketing的,你就要明白,今天其实整个世界已经从Marketing转移为Remarketing,从Targeting转移为Retargeting。


我举一个例子,在淘宝还能买彩票的日子,彩票的运营找我说,他很痛苦,我问为什么痛苦?他说,淘宝这么多人,但只有很少的人用淘宝买彩票,想找更多人来买彩票。


后来我突然灵光一现,告诉他一个办法。当时的淘宝有一个网站,叫中国站长,是很多小网站的Google Analytics(谷歌分析),它知道用户有没有去过一些小网站。


我把这种小网站的标签,所有关于彩票的内容全扫一遍,把三个礼拜里曾经看过彩票内容的人圈定,跟今天还没买彩票的再圈一遍,发现中间有一些淘宝用户,他们在三个礼拜里看过彩票,但没在淘宝买过彩票,这种东西的方法就叫Retargeting,不叫Targeting。


为什么?因为他上个礼拜已经对这个东西感兴趣,你是重新在别的地方找到的他。这个东西里面的关键点是来自这里,没有了这组数据你做不到我刚才讲的东西。


有一次,内地朋友跟我说,让我进海关之后买六两黄金给他,从此之后,每次我的车到了香港机场旁边那个买黄金的公司,就会“叮”一下,问我要不要再买黄金,好像我是土豪一样,其实我只买过一次黄金,但这就是关联性。


所以它把这个东西关联成每一次只要我走到机场,我就有机会买黄金,它锁定了这个行为里面的响应。


还有一次我在上海的海关,从香港去上海的时候,司机送了一个苹果给我,在经过海关的时候,海关说打开你的包看看,苹果。结果,海关记录了我带苹果这件事,当我再次从香港到内地的时候,我说这次肯定倒霉,因为电脑里肯定记录了我上一次带苹果,这次我带了一个苹果手机肯定会出事,所以不带。


其实就是用那个数据产生了一个响应,所以这种响应的数据是通过场内行为来的,它不需要知道我是男还是女的、我的偏好、生活方式。这种方法的本身在营销大数据来讲是一个非常关键的思考方法。


知道了这个思考方法你会省很多钱,为什么呢?做媒体的都知道,过去买广告的人都喜欢怎么样?把广告放在与这条广告相关的内容里,如果你是卖广告的,谁都知道要收很贵的钱。


但是现在不是,因为Retargeting的关系,根本不需要关注这个页面是讲什么的,因为他已经知道你对彩票感兴趣了,他只不过在任何地方去找到你,让你买彩票就可以了。


数据收集正越来越难


今天有了PC,有了手机,有了很多的终端,数据收集就会很困难。



我第一次遇上这个困难是2013年,就是当20%的用户已经使用了智能手机来上淘宝,那个时候我开始头痛了,为什么?


过去来讲,我们说一个人到了PC,他来了,他看了商品,他买了,他付款了,是一个完整的销售漏斗。但有了手机之后,他在PC里面看完了之后他不买,然后过了一段时间回到另外一个地方在手机里面买。


以前PC和手机是没有关联的,这个数据就变得零散,变得零散之后,我们要重新把两组数据汇合到一起。


我们现在一般都带两部手机,如果将来有更多终端的时候,你的行为就是两部手机+家里的PC+办公室PC,一共四个终端,合并起来才是一个人的行为。



而且很多行为不是我的行为,例如是我太太用了我的手机,所以我在淘宝里有一个夸张的说法,说这个帐号70%是女生,30%是男生。因为70%是我老婆买东西给自己,30%是她买东西给我,所以这个是一个购物性别,它不是一个真实性别。


这里搞过一些笑话,我们说最准确的数据是你身份证上的男女性别,结果在推荐系统上发现效果并不好,反而70%女、30%男最准确,因为这是一个购物行为的性别。


在座大部分人都有这种感觉,你买东西不是完全给自己,你的数据都不能说TA是纯粹的男生或女生偏向。


所以,终端多了,数据就乱了,而且当我们数据历史长了,例如三年里,加上你在五个终端上的购物行为,那个时候就发现数据很混乱。这个时候,就发现数据的能力体现出来了。


数据和大数据有什么区别?


我们现在看上面这张图,摄像头拍摄很多人在一条街上行走,蓝色是男性,红色是女性,绿色记录了在繁忙的阶段中有多少人在一分钟里走过,路径是怎么走的。这是数据吗?是的。只要你能把一个影像找出它的特征来,我们都说这是带着数据的。



还是每个人走过的时候,我们可以分解这个人穿着什么衣服,颜色是什么,这是数据吗?这也是。如果今天戴着一个智能手表,它可以从每天的行为里猜到我在做什么动作,这也是大数据。



特朗普这张照片是愤怒,不是惊讶,如果你看照片时,你不可能说这就是数据,但它有识别的能力,所以这个其实也是数据。


到底什么是信息?什么是数据?今天已经越来越模糊了。就好像今天在这里拍照,这张照片是数据吗?如果它有人脸识别就是数据,因为里面有五个人我知道我是认识的,所以说,大家到底集中精神看我分享还是在看手机呢?识别一下就知道了,这就是数据。


有人利用刚才的方法将一个城市所有大厦变成了刚才所说的环境数据,以及把环境数据放到这一个模型里,大概用这个方法知道这个城市在发生什么。


数据引擎将成为未来公司的壁垒


其实每家公司的数据都有两组东西:一个是数据的自动化或自主化;另一个是以数据作为支持。


每家公司都不会说它完全是自动化或者是自主化的,它还是会有部分的东西要人类去决定,为什么?


这个进步是一个螺旋性行为,多一点数据支持,多一点自动化,一边走的时候,你会发现它整个数据化变得更完整了,所以它不是一条直线,说你不能这样改线。



刚才我们说这种数据其实不需要完美,为什么它不需要完美呢?就好像我们做这种拼图一样,一般你拼到20片,我问你这张图的图案,你是肯定已经能告诉我了。


数据也是这样,当有了很多数据之后,它旁边的东西就能弥补这些,也就是说数据自己本身就能自动化,数据知道了部分的东西,它就能猜到其它部分了。这也是今天大数据里面用得比较多的,特别是当使用第三方的数据来猜测一些不知道的东西时。


很多人在淘宝买东西,我问你在淘宝里面买多少类目,如果你是一般的人,最多买三个类目左右,所以我知道你的数据就是你在这三个类目里所买东西的行为,此外我没有你的数据。如果你买一个不是三个类目中的东西,我就需要用其他数据来补充了,就好像刚才讲的彩票,如果你没买过彩票,当然没有你买彩票的数据,但我需要用别的数据补充,就是今天在这张拼图里需要的数据。



一旦数据拼了很多的时候,你发现再放一张东西进去基本上是不费吹灰之力的,这就是大数据已经到了一个量的时候,你会发现它自我就可以做出循环,那个地方会非常关键。



我现在有一个任务,我要有数据,因为整个数据,我定位的这个问题,我做决策,我行动,再回去这个数据,这个东西是不断再循环的,但一般来说,这个循环我报告给你,你看完报告会怎样做决定?这个闭环是不存在的,因为你做完你的决定之后,不会回头跟我说我的决定做得怎样。


这是第一次使用数据的时候,刚才我说刚进淘宝的时候,我报告更多的数据,结果这个数据怎么影响到这个人怎样做决策,我是没有数据的,但是到了第二次的时候,我们把很多数据放在工作流里面的时候你就会发现,这个闭环会稍微更完整一点,但是到了刚才我讲的无人车整个部门都使用数据来转动的时候,100%的数据在这个闭环里面,所以这个东西叫什么呢?数据引擎。


它是一个数据的引擎不断滚动,数据越好解决数据的能力越大;解决数据的能力越大,数据就越多;数据越多,解决数据的能力越大。所以整个东西成为一种循环的时候,你就会发现它成为一家公司成功的核心动力了。


当别的公司要跟它比较的时候就会发现,没有了这个数据的循环,没法打。因为它已经进了这个循环,如果你用打车工具的时候,越多的人使用某个打车工具,这个打车工具就越知道在哪里你能打到车,你第一次使用它的话,会发现老是打不到车,因为你根本没有这么多数据让它启动。


所以,一个是能启动,跟一个已经拿了非常多的数据循环的公司来讲,成为一个什么?壁垒。所以,数据未来肯定会成为很多公司的壁垒,这个壁垒来自哪里?只要它拥有了一个庞大的数据引擎之后,就很难插足。因为拥有庞大数据引擎的公司总能推荐用户要什么,总能知道什么价格用户能接受,什么价格用户不能接受,在那个时候你要进来跟它比较时,你就会发现自己根本没有这么多数据跟它去打,这就是为什么我要特别强调数据引擎。


如果我们说要打开数据引擎的话,我们要解决的大部分问题是发生了什么问题?为什么要发生?未来还会发生吗?如果发生了之后我可以怎么做?然后到最终决策。所以,从数据到决策再到行动,其实是一个循环。只是说有了大数据之后我们多了第三方数据,有更多不是你公司里的数据能帮你做更多的决策。如果回到刚才那张拼图,里面的数据并不需要靠自己的能力,我可以找其他人来帮我填。


原标题 / 高能丨原阿里巴巴副总裁车品觉告诉你双十一的数据秘密

来源 / 盒饭财经(daxiongfan


 推荐阅读

封闭会议上的思辨与交锋,红杉成员企业的CEO们聊了啥?

刚刚,我神奇地开启了人生另外666种可能性

10000小时理论已经Out了,贝佐斯和扎克伯格都在遵循10000次实验法则

共同学习、常识及其之上的世界观:沈南鹏×徐小平×周鸿祎×杨澜×陈志武纵论终身学习

可怕的还不是今天被用户无视,而是缺少未来存在感


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存