查看原文
其他

英特尔中国研究院院长吴甘沙:大数据不过是消息灵通人士,不可能实现完美预测|研习社12月4日演讲实录

2015-12-05 吴甘沙 混沌研习社

12月4日,颠覆式创新研习社《创新模块之人工智能》登台,作为大数据专家,吴甘沙不迷信大数据,他说,我们永远没有办法利用大数据测准东西,我们只能求得近似一个东西。大数据顶多不过是一个消息比较灵通的算命先生,但是它不可能实现完美的预测。


点击下方图框,可听吴甘沙演讲精彩语音:


演讲者|吴甘沙(英特尔中国研究院院长)


大家会问现在的大数据这么火,它到底是什么鬼?我今天课程的目的,首先破除神秘,大数据是我们每个人都可以实践的。


其次,要破除迷信,我们不能把大数据神话成为一个万灵药。我相信经过今天的课程,大家一定有这两个自信,理论自信、道路自信。



大数据是产业生态各类技术勃发的诱因

大数据是非结构的

数据间既可相互融合,也可快速流失


在寒武纪,全部生命出现了爆发式的进化。科学家提问:为什么寒武纪会出现这样的情况?


现在有一个推论,说寒武纪的时候在海底大量的地壳运动释放出很多的钙,而当时的生物基本上还都是生活在海里的原始生物。


这些被大量释放的钙离子,对这些海里的原始生物来说要不就是毒性高,要不就是可以利用钙慢慢的长出了脊椎,进而可以慢慢的迁徙到陆地上。因此,钙对寒武纪的生物大爆发非常重要。


我们的大数据正是当下社会中诱发产业生态各类技术勃发的钙。大数据为什么会进入大家的关注视野?因为它体现了一个大的现象。我们从三个角度描述大数据。


IBM曾经提出一个观点,在任何一个时间点,90%的数据都是在过去2年生成的。2015年90%的数据是2013-2015年形式,2017年的数据是2015-2017年形成的。


Google指出,2010年每两天产生的数据量等于人类文明曙光初照到2003年数以万计的时间长河中所产生的数据总和。IDC的一个报告现实,数据产生量每两年翻一番。这个现象就是指数增长。


指数曲线有一个非常有趣的特质,开始增长的特别缓慢,突然经过了一个转折点以后,以爆炸式的增长,这就是我们说的大数据爆发。


大数据有多大?举个例子,现在我们的手机内存是3GB,TB就是1024GB,现在的PC硬盘可以达到TB,然后就是PB,PB上去是EB,再向上是VB。


2020年一年将产生40VB数据。这个概念可能大家有点生疏,我给大家一些概念。


互联网公司,比如说Google,这是在几十EB量级的概念,全国的数据加起来是几十个EB,百度可能就是几个EB。阿里巴巴刚刚到一个EB,很多的互联网公司在几十个PB上。


电信公司、金融公司稍微的少了一点,10-100个PB,医疗和零售更少一点。大家知道医疗领域现在的数据最大的说大数据一般说的都是10PB。你看大数据的大,主要会看这几个领域。


1

非结构化。

大数据85%是非结构化的数据,所谓非结构化的数据就是文本、图像、视频和语音等等。

2

多维度,细颗粒,活性高。


颗粒会非常细,维度会非常多,活性,更新的频率会非常高。

大数据所谓的大是怎么来的?是因为非结构化的,多维度的,细颗粒的,高活性的。


IDC说大数据未必一定要大,比如说有一百个TB就可以了,假设说我们现在的台式机是两个TB硬盘,50台的台式机装满一百个TB。


或者说数据来的非常快,不停地流进来,或者说你这个数据的增长速度大概每年可以增长60%,这都可以算是大数据。强调的是多个数据之间的融合,以及高速的流失。你有这样的特征你就是大数据。


数据具有天然的多维度和混杂性

相互关联的数据才有意义

数据价值会折旧,因此快者通吃


多维度才是大数据的价值来源,而不同维度之间的关联性很重要。如果多维度但互不相关,这是没有意义的。


这跟我们的人思考一样,人是不是有思想,在于从各个不同的侧面获得信息以后,能不能在信息之间找到关联总结出规律出来。


我们经常说数据是个矿山,谁采矿的速度快谁就厉害。在服装业有两个例子,H&M,还有ZARA,很多的方面他们的努力是相似的,但是有一个决定了他们的高下就是数据处理。


ZARA数据处理做的快,所以它可以把一年变成12个季度,每一个季度推出一种新的服装,时间就是金钱。


像其它的商品一样,数据的价值会折旧,过去一小时的数据可能比过去一个月数据的总和还有价值,最近的数据这是最有价值的。


随着时间的推移,数据价值会衰退。数据跟新闻和金融的行情一样,这是有时效性的。我们经常说快鱼吃慢鱼,在金融市场比别人快就占有先机,这就是快。


反映快其中有一个数据的活性,我们经常说银行的刷卡数据是低活性的,因为我可能就是一个礼拜刷一次出去,但是电商的浏览数据是高频的,这就是区别。


数据的价值在于它的真实性,在于它的辨识度,在于它的准确性。数据质量相对于数量更重要,数据失去辨识度就不应该留下了,应该被洗刷。




大数据的结论具有或然性的

大数据只能预测不能预言

大数据思维更适合做大批量的小决策


不管现在概念的数目有多少,有多少支持归纳,普通性为真的概念总是为零的。


就像在几个世纪以前大家都认为天鹅是白的,所有的数据都证明天鹅是白的。直到在澳大利亚发现了黑天鹅,这一个数据把原来的归纳给打破了,所以归纳法是有或然性的。


这意味着我们的观察会影响被我们观察的东西,大数据也是一样的。你对一样事物的观察会产生一些数据,这些数据会影响一部分的行为,间接影响被观察的事物。


所以爱因斯坦说错了一句话,他说上帝不掷筛子,我们永远没有办法利用大数据测准东西,我们只能求得近似一个东西。


不要期望大数据能够实现完美的预测,大数据顶多不过是一个消息比较灵通的算命先生,但是它不可能实现完美的预测。


大数据获得的任何结论,你需要看这是以多大的概率来给出这个结论的,这个结论说股票要上涨,不会说一定就涨,它是说85%的概率要涨。


我们这里要特别强调大数据理念经常在做大批量的小决策。我在亚马逊买一本书,结果它推荐了十本书,这是大批量的小决策。比如说我要买一个房子,买一个车,这是小批量的大决策。


大批量的小决策你可能不需要因果性,无伤大雅。我最近在亚马逊买书的时候,发现好像我买这本书,但是给我推荐的书都是不相关的。


后来查了一下,这一批集体降价,到了一块钱,大家买这本书试可能买另外一本书,产生了一种相关性,这是不可解释的。他们从内容上来讲没有任何的关系。这是因为他们正好集体降价,然后才产生了相关性。


但是小批量的大决策一旦失误,很容易产生严重后果。上个世纪五六十年代的时候,保险公司发现了一个相关性,保险理赔和肥胖相关性,听起来很合理,于是大量的让这些人吃减肥药,结果引起了很多的其它问题。



大数据让电商为我们贴上标签

互联网商业中,我们每个人都是商品

我们要经营数据的我,因为我就是我的数据


在阿里可能有几万个人,我们每个人生活在不同的层面,对你个人进行画像,会把你归入某一个标签里面。最有趣的是阿里有18种性别,某一个方面表现的男性,另外一个方面表现为女性,这就是一种性别。


电商根据对客户进行的刻划,把客户详细分类。而且现在对用户的客户已经从传统的个性化到具体的个体化,消费者本身也希望被以个性化的方式来对待。对产品提供者来说,原来专注于产品的,现在越来越要专注于客户。


商家原来关注一个人的背景是中产阶级,原来关注的就是交易一个月买了几次,现在我要关注什么,关注他的行为。经过没几次的浏览跑到我的这个网页上,这是它的行为路径。


比如说他在微博上发表了一个跟我产品相关的正面的,或者说是负面的评论,这是关于反馈的。关注行为的下一步就是关注个人的意图和意向。经过各种数据的手机,电商可以由点到线,由线到面对客户进行全面的立体的观察。


每个人有各种各样的数据。我们量化自我,各种可穿戴搜集下的信息。我们各个网站上的数据身份,我们的社交威望度,我们的信用指数,我们的各种消费行为,我们的三观等等。


我们创造了技术,技术也在影响着我们,所以数据描述的人和真实的人是在一个不断的影响循环中,我们真实的人不断的量化变成了数据,而很多的大数据分析和服务会影响我们的数据,而数据人又会反过来对我们的真实人行为发生改变。


我经营我的数据可能有很多的好处。比如说你现在情绪不好,你就打一个不开心的符号,你的朋友会看到,他会给你发一个短信,或者说给你听一首歌帮助你改变情绪。


同时,这个数据的你会给你带来很多的坏处,你所有的数据都会留在那里永远都不会插手,几十年前做的一些不好的事情,几十年后会被别人看到。老大哥会一直在看你的,会出现基于数据的歧视。预测也会带来其他方面的困扰。


你需要搜集数据对客户进行画像,然后做精准营销。首先要获得客户的数据,其次要对客户画像,然后做个性化的精准营销。精准营销来自于几个方面,就是看你的兴趣在哪里。


大数据不但可以为用户画像,

还可以创造新的用户需求

生态=数据+平台+终端+应用


有了精准营销以后,下面就是希望能够提供跨渠道的客户购买的体验,可以把它转化为客户。这里有一个首次用户体验战略,当你用户第一次用你的产品,你有什么样的战略以后能够跟用户建立长期的关系。


个性化是必须要注意的,更高的境界不是发现用户原来的需求,而是创造新的需求重塑行为。这里很重要的是场景化的趋势。把场景化的需求创造分成几个级别,记录下来。


第一个级别能够对你的历史进行回溯,你今年买过十次的咖啡。


第二个级别说你来到这个地方了以后,根据位置信息服务我给你推送一个打折券。比如说开车经过的时候基于位置信息推送,就是有场景的味道。


再下一个级别,我可以预测,每天上班八点半经过我这个地方,然后我在八点的时候给你推一个打折券,说这个打折券半个小时之内有效。


消费者拿到打折券的时候,很有可能他原本没有打算买咖啡,但是看到有打折就买了,这就是创造了用户需求。


数据拥有者拥有数据,数据的技术提供者可以提供数据技术和基础设施,还有数据思维者和创意者,他在数据基础上可以提出新的数据创意产品,这就是大数据的生态。


MasterCard首先是数据的拥有者,雇佣了一家公司提供数据分析技术。同时,又有一个子公司是数据的创意者,根据这些分析提出了新的创意。


他发现下午四五点的时间,在加油站加油的车基本上都会到附近的餐馆消费50美金,这样的话,在我这边加油给你打一个小票,背后就是附近餐馆的打折券。这就是数据生态。


有了数据生态以后,如果把我的库存数据开放给我的供应链,开放给生产商可以预测性的进行生产,进行补货,整个过程从实际需求驱动变成了预测性需求驱动。


再往下发展,产品的设计者可以在社交网络获得很多用户的需求,结合用户的需求与沃尔玛的需求,更好地设计产品,其实我们互联网公司一直强调生态是什么,生态就是数据+平台+终端+应用。乐视有数据,有内容,有平台,有电视,形成了整个的价值链。


在这里面其实它既是一个数据的提供者,也是一个数据的创意者。而这个过程中其实也可以引入第三方作为数据的创意者,利用我的数据进行创意,也可以进一步的提供数据的基础设施服务。


乐视原来只有我自己版权的服务,现在逻辑思维也可以在我的上面面向大众,我给你提供一个数据的基础设施,所以大家可以看到在这个过程中丰富了自己的生态系统,不但有数据的提供者,也有数据技术的提供者,也有数据的创意者。


* 本文根据吴甘沙在颠覆式创新研习社的课程内容整理而成,欢迎转发分享,网站或期刊转载请联系微信warmly11。


为什么过去几年,Google、微软、Facebook、百度都成立了深度学习研究院?因为随着数据规模的增长,过去传统的人工智能算法并不能处理好,而深度学习可以处理大数据。点击标题阅读本次课程笔记前百度研究院副院长余凯:再多的数据也不是优势,数据+深度学习才能形成商业壁垒|研习社12月4日演讲实录




人,依旧是企业管理的真正难题

没有高素质员工,任何创新只是空谈

12月12/13日,深圳研习社课程

《打造移动互联时代的组织能力》

著名华人管理大师

中欧人力资源管理教授杨国安

教你掌握“杨三角”组织能力理论和实操方法论


点击下方阅读原文报名《打造移动互联时代的组织能力》课程

↓↓↓

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存