查看原文
其他

《浪潮之巅》吴军:大数据会在30年彻底改变世界【6月27日研习社演讲实录(上)】

2015-06-27 混沌研习社

“在未来,为什么说大数据非常非常重要,因为所有的公司都是数据公司,太武断或者太绝对?回想50年前,说今天计算机无所不在,也没有人信。”


6月27日,《浪潮之巅》作者、Google科学家、硅谷风险投资人吴军来到颠覆式创新研习社的讲台,带来他在大数据时代的前沿思考。课程实录分为上、下两部分,研习社根据演讲整理,未经本人审阅,转载请注明来源。


演讲人/吴军

感谢研习社给我这次机会,来分享一下现在在大数据时代很多新的理念,新的知识。


大数据会在30年彻底改变世界


50年前,英特尔创始人之一戈登·摩尔提出来摩尔定律:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。


这一定律揭示了信息技术进步的速度,开启了IT非常快速发展的50年。


摩尔定律带来的结果是:所有的硬件公司,每18个月必须实现产品更新。而且,以前我们说,社会需求带动科技发展,现在不是了,一个东西出来之后会产生新的社会需求。各个公司都要针对开发未来的市场。


为什么说今年是一个转折点呢?因为有了大数据,虽然他今天没有产生那么大的GDP,但以后30年内会彻底改变这个世界,而且改变我们的思维方式。


把摩尔定律反过来看,你如果不能18个月把性能翻一番,你就被这个行业淘汰了。或者我干脆不跟你玩了,我去从事一个远离18个月翻一番的行业,就出现什么呢?转型,就是IBM。他说与其我做硬件利润越来越薄,不如我卖给联想去玩,我做IT服务。


于是我们有了很多的服务业,过去,我们理解的服务业是什么呢?旅游?家政?今天不是,是IT服务,光在美国这个市场差不多是一万亿美元。


所以创业时有一个选择,你到底是做什么? IT产业第一代基本上就是做硬件,都是在摩尔定律出来之前诞生的,估值很低。摩尔定律出来以后,诞生了一流的软件公司,比如说微软公司、甲骨文。所以不同的时代要做不同的事情,而不在于说你的专长在那儿。


未来30年的趋势是什么?


未来三十年是什么样的呢?大概分成三部分,一是云计算和移动互联网。二是大数据和机器智能。三是生物医疗,它的核心是大数据。


大数据为什么如此重要?它有三个很明显的特征,并不仅仅是数据量大,因为它带来了机器智能,而这个机器智能非常可怕。


什么是机器智能?计算机老祖宗阿兰图灵提出来判定机器是否跟人有样智能的方式,叫做图灵测试,这个图灵测试怎么说的呢?大屏幕背后放上一台计算机,再坐上一个人,你问他一个问题,答案你无法判断到底是机器给出来的,还是人给出来的,这时候我们就认为机器和人有同等的智能。


解决这个问题要几个东西,首先要大量的数据,并且开始产生数据驱动。当时没有互联网数据,但是IBM因为有很多的商业客户电传数据。利用这些数据,IBM实现了语音识别系统,当时能识别大概100多个英文单词,识别的错误率30%,这不可用,更何况只能识别100多个字。


而数据驱动能识别2.2万字,这是差别。错误率从30%降到10%,这是划时代的事。大家会发现原来看上去很复杂的机器智能问题,好象还有另外一条路可以走,不是来模拟人,是用数据驱动的方法。


什么是大数据呢?大数据不仅仅是数据量大,它常常是杂乱无章的多维度的。


举一个例子,大概两年前百度公布了一个很简单报告,他从百度知道里面做了一些大数据的分析,然后得出一些中国各个地方饮食习惯的调查。这里面有多少呢?大概有7700万条跟吃有关的问题,他根据IP知道你是什么地方人,问什么问题。他不是做问卷调查,你到百度知道去看数据杂乱无章的很,你通过IP地址看你问什么问题,他实际上很多数据不公布,公布以后会发现你的隐私被拿走了。而这个7700万条数据还是历史上不同时期收集来的,维度非常多。


还有一条,大数据必须具备完备性,才是有意义的


综上,大数据这三条要注意,一个是数据量足够大,一个是多维度,还有一个是数据的完备性。在结束之前,再讲一个很重要的,大数据为叫BIG DATA,不叫large,这其实还是有细微的差别,这不仅仅是强调数据量本身大,他是强调说这是一个思维方式的改变,所以BIG DATA本身有这样一个深层的含义。


这件事本身很可怕,可怕在那儿呢?我们回到IBM深蓝和国际象棋世界冠军卡斯帕罗夫下象棋赢了的例子。IBM不仅把卡斯帕罗夫下所有象棋的结果搜集起来了,他还把世界上好多好多的象棋高手当时对弈结果搜集起来了,以至于说在每一步棋的时候,就像做预测的时候有一个数据的完备性,你每走一步,他实际上根据历史结果,他对你有一个预测。当时还没有大数据的概念,某种程度上是变成了一个大数据的问题。


大数据发展很好的一个机遇是移动互联网,PC互联网是机器和机器联网,在移动互联网时代,是人的连网,以前我们说手机可以让你利用碎片时间,现在是说你根本就没有整的时间,时间全变成碎片时间。你如果有可穿戴设备,你一天24小时某种程度上都挂在互联网上,这也使得数据的完备性成为可能。


还有一个传感器的技术, RFID,这是什么东西呢?大概瓶子盖这么大的东西,零售价四美分,芯片带一个天线,当你走过他读写器的时候,把里面数据传到读写器上了。举一个例子,我们买矿泉水需要排队扫码,然后支付。有了这个RFID传感器以后,你把购物车推出去就完了,然后选择移动支付,根本不用那么麻烦,因为传感器会记录你买下的所有东西。


所以我们给出今天的第一个结论,就是说我们今天是一个从摩尔定律到数据为王的年代。而这件事并不是说仅仅是增加几亿,几十亿或者多少亿的市场或者说这么一个产业问题。这整个是几万亿,几十万亿的故事,未来的世界,在现有的公司中什么公司占比较有利的位置,已经拥有这些大数据和有能力处理大数据的,这是两个不同的概念。


拥有大数据和已经有能力处理大数据的公司,他们会变得非常强大。传统的数据公司,因为思维方式的变化,他固定的模式使得他可能反而落伍。


在未来,为什么说大数据是非常非常重要的,因为所有的公司都是数据公司,有人说是不是下得太武断或者太绝对的。你如果今天回想50年前,说计算机无所不在,这个也没有人信。


大数据不是IT界专利,传统行业也需要


举三个例子,这是一个中国公司例子,风能发电设备的上市公司。风力发电机有一个叶片,能用十到十五年,为什么是10到15年,这是从平均值得到的。因为你没有办法知道某一个具体的点具体的产品实际情况。


但是,这家公司装了一些传感器,就能监控到每一个地方叶片情况,有一些地方风大,风又不均,叶片老化快,可能要八年。过去这家公司光制造这个利润并不高,为了竞争压价很厉害。现在有了大数据以后,他可以通过一些无线的联网,把这些东西送回来,每一台发电机具体运行情况知道,卖到什么地方,这个地方风力是大是小,一年四季哪天有风哪天没有风都知道。


其实到以后,每一个产品,以后可以从贴一个RFID,你从出厂到运输,每经过一个地方,最后到了谁手里,你都可以知道。也就是说在过去想都不敢想的事,在大数据时代,我们可以精细到每一件产品。


第二个例子,prada。我跟chanel聊过怎么设计专卖店,他说摆放很有讲究,怎么摆放好,根据老板的经验确定。


prada做了一个什么事呢?很简单,他把衣服加了一个芯片,在试衣间加了一个传感器,这个东西从货架上拿下来,你试了多少次就知道了。他不能解决所有问题,但是至少解决一个问题,如果这个衣服大家不断试就是不买,你肯定知道不是第一眼看上去不舒服,可能穿在模特身上好看,在我身上不好看。


第三个例子,TARGET是美国第二大百货连锁店,他有一次找来一个学统计的硕士到百货店,干什么呢?他通过收集每个人的购物清单,分析用户习惯。你光知道卖了多少货还不行,还要知道谁在买。


之后硕士生做一些研究发现人买东西有一些规律,比如说孕妇在不同的阶段买东西是不一样的,大家基本上按照这个规律来,你买不同阶段预测你下面买什么给你送优惠卷。


突然有一天接到了一个非常愤怒的爸爸打来电话说,我女儿才14岁,你们就给他寄婴儿的用品广告,这个经理一想数据好象也会出错,大概一个星期回访,他又打电话问这个父亲,这个父亲说对不起上次是我搞错了,我女儿真怀孕了。


说明什么呢?大数据时代,有可能这些店家,这些商家比你更了解你自己的需求,淘宝可能比你更知道你下面要买什么东西。或者说为什么我讲说,未来所有的公司可能都是大数据公司。我刚才讲的这三个例子和我们传统讲的IT没有关系。


面对大数据,我们能做什么?


我们能做什么,或者需要做什么呢?第一个是数据的搜集,谷歌两年前买了一个公司NEST30亿美元,才100万的用户量,为什么呢?这是一个号称智能空调的,在你房顶上装一些东西,会提供家里WIFI功能,平时什么生活习惯知道,谷歌买了它,不是真正为了省那点电,他通过这个为了采集数据。


第二,数据的存储,别小看这个。以前我们处理数据,想象的数据,文本的数据,图象的数据,视频的数据,其实相对来讲都是还算是小的。你数据量大了以后怎么办,怎么检索,怎么存储,都是一个挑战。


当然还有一个很关键的,刚才我已经反复讲了隐私性,还有一个数据的安全。数据安全又有两个概念,第一个概念就是说数据最好不要泄露。你不能丢,我们将来说大数据,我们存在百度云盘上,这个丢了怎么办或者说损坏了还能不能恢复,这些都是挑战。


机器智能的三足鼎立


下面我们要讲机器智能,产生机器智能三个要素第一个是摩尔定律,计算机多快,存储量多大。大数据,我们思维方式变了。还有一个要有数学模型。因为计算机解决智能的方法和人不一样,他不是思考,他是算,要算要有数学模型,机器智能将来是三足鼎立,你做其中任何一个,你可能将来在今后20年里都会是一个不错的立足点。


比如说谷歌大脑,其实和人脑一毛钱关系没有,这就是一个人工神经网络,以前人工神经网络在一台机器上实现可能几百个节点不错了,现在一百万台机器上实现可以有几万个节点。把这个模型训练的更加准确,计算机显得比以前聪明了。


这个像语音识别的错误,大概从15%-16%,大概能够降到12-13%,没有改变方法,没有改变数据量,只是机器学习这个东西做了一个改变,就有了提高。


有了这些东西,我们回头看一开始我提出的图灵测试的问题,让计算机回答问题。这个事解决了,计算机跟人类同等智能了。2012年的时候我从腾讯回谷歌,我的老板,管整个谷歌搜索的高级副总裁,说你做什么事随你,只有一个要求,这个事做完了以后,让微软要花五年时间来追赶我们。


后来我想了想这个事好象能做,这个事过去历史上还没有人做成功,让计算机回答问题。比如天为什么是蓝的?我们做了一年半,给出一个结果,你可以读一下。这实际上是一个数据的完备性的问题。其实很多时候,这个答案在类似于某个网页里面,我们只是做了什么事呢?把互联网上所有的网页,不是说跟我们问题有关的,而是所有的网页都拿下来做语法的分析,这个计算量很大,这必须在谷歌才能完成。


之后拼凑答案,还有一些数学模型,保证拼出来的句子读起来像英文句子。就是这样几件事,把一个所谓智能问题变成一个大数据的问题,这是一个很重要的一点,并不是说我们比别人聪明,而是完全换了一个思维方式。你不再按照人的方式要求他去解决这个智能问题,而是让机器的方式来解决智能问题。


第二个例子,谷歌自动驾驶汽车,你可以看成是一个机器人,跑了将近20万公里,没有出一次交通事故。实际上不是当成一个智能问题,他是当成一个大数据问题,这个项目是谷歌街景项目一个延伸,这个车能去的地方是谷歌扫过街的地方。他实际上把开车问题,变成了大数据问题。


讲到这里引发一个问题,智能的机器无所不在的,未来的世界是人在主宰还是机器来主宰,大家可能会有这样一个问题。举两个例子,一是富士康有很多装配工人,郭台铭已经讲了,不当血汗工厂,要研制机器人,让机器替代人。


可能有人会说,反正我们不是生产线装配工人,波及不到我们,我们就讲两个高大上职业。第一个是放射科医生,这在美国是非常高大上职业,但未来放射科医生可能是一个机器。比如说识别癌细胞的机器,准确率在很多地方已经超过医生,而且他有一个非常大得好处,识别水平非常稳定。

未来的社会,由于机器智能和大数据,不仅仅是郭台铭的生态线工人受影响,我们所有高大上职业也受影响。


未来的世界是什么样的世界呢?第一条,机器其实是不会控制人类的,制造智能机器的公司和这些人,他们实际上是通过机器在控制人。这些人可能占人口很少数量,他们实际上是机器智能时代的受益者,其他人怎么办呢?要不加入他们,要不然你成为98%,被2%的人控制。没有选择,你必须站在这个行业,而且你的思维方式一定是有变化的。


大数据思维——全面性+互联互通


总结一下大数据的思维。大数据思维第一点,一个是全面性,他将来可以在大数据时代做任何事可以细到每一个人,每一个商品,每一笔交易。


这画了一个酒吧台,这是一个创业公司。他把前一家公司卖掉以后,花了两年时间走访了美国100多家酒吧,他就做这个调查,他发现了一个很有意思的事,这个酒吧的酒有24%是被偷喝掉了,什么意思呢?比如说研习社汪洋是我的朋友,他来找我,我说小子今天没有事,来给你来两杯酒不算你钱,倒了两杯喝了。


他做了什么事呢?他把酒架子改造了,每一个酒瓶子下面贴一个特殊的传感器,传感器本身三毛钱,然后每一次倒出来,倒多少盎司,什么时候倒的,和移动互联网是连着的,老板躺在家里看手机都知道什么交易。这就是大数据思维。


我们对比讲过去的互联网思维,这个很重要的是什么呢?实际上是一个互联互通,不是简单的把电子商务,说把商品原来在实体店,现在放到网上去。原来卖硬件的,也开始卖服务,事实上小米今天卖小配件挣的利润比他卖手机要高的多,这是一个大数据思维,要把整个的商业模式都改过来。


点击下方阅读原文阅读《《浪潮之巅》吴军:我们可以向硅谷学什么,不学什么【6月27日研习社演讲实录(下)】》

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存