查看原文
其他

那些被大数据时代抛弃的人

程序人生 2020-10-29

The following article is from 衣公子的剑 Author 衣公子

作者 | 衣公子
来源 | 衣公子的剑(ID:yigongzidejian)

前言

2000年,微软如日中天。有人问比尔盖茨(Bill Gates)对于IT行业的看法。
 盖茨说,挺好的,就是有点noise。 
noise,本意是噪音。但是五个字母又分别指代五家公司:Netscape , Oracle , IBM , Sun , EMC 。
 这一语双关可谓骚出了天际。今天的第一杯,就为这个故事干一个吧。 
不过,和盖茨的很多传奇故事一样,这个传闻目前只流传于中文世界。盖茨到底有没有说过那么嚣张又霸气的话,暂时无处考证。 
传言如此深入人心,有一个重要的原因。这一问一答准确又形象地概括了一个旧时代:以微软为绝对统帅,加上 NOISE 这5家软件公司,IT企业卖软件,一手交钱,一手交货。 
科技圈的天,变得比臭男人的心还快。以 Google 为代表的新贵举着“免费“的旗号,已经打到了家门口。搜索既然不收费,那 Google 怎么赚钱呢? 
常言道,天下没有免费的下午茶。当你用的产品不要钱,那么很可能作为用户的你就是产品本身。 
Google聚拢用户,再打包卖给广告商的商业模式,被杰弗里·哈默巴赫尔( Jeffrey Hammerbacher ) 形象地批评为:我们这一代最聪明的头脑,都在思考如何让人们点击广告。
 “哇,原来你不过只是一家广告公司!”同业的戏谑,让Google羞红了脸,说起了类似”你怎么这样凭空污人清白……窃书不能算偷……窃书!……读书人的事,能算偷么?“之类的话。 
科技圈充满了快活的空气。 
为了捍卫自己科技公司的质感,Google连发三篇论文。围绕一个主题:怎么处理数据。 
随着上网人数和信息量的爆炸,Internet的海洋越来越宽广,Google每天收到30亿条搜索指令。仅仅1天处理的数据量,就是美国国家图书馆所有纸质出版物的上千倍。可是尽管如此,每当我们按下回车键,搜索结果却能即时地展现出来。这背后有什么魔法? 
Google的三篇论文,篇篇佶屈聱牙,又字字力透纸背,分别介绍了三个技术:Google File System, MapReduce, BigTable。千言万语汇成一句话:用分布式的体系,搭建一套数据存储、分析的系统。 
希腊神话里,普罗米修斯将火种带给人类。火,极大地提高了人的生产力。希腊人惜墨,没介绍普罗米修斯的长相。 
现实里,Google的程序员就像普罗米修斯,那三篇介绍怎么突破数据处理能力的文章,被后人誉为“三驾马车“,拉着人类进入了——大数据时代。

细谈

不用专业词汇吓跑你,我们边喝边聊,把技术说的简单点。
传统技术,是集中式单点架构。打个比方,你有一个助理,小明,什么事都集中交给他。忙的时候小明天天睡公司,闲的时候上班玩手机。 
Google“三驾马车”提出分布式架构。还是那个比方,你的事业越做越大,如今小明就算一天工作24个小时也完成不了。于是就分布式地招3个助理,小A,小B,小C,各司其职。 
原理是简单的,而现实极复杂,尤其考虑到现实互联网面临大规模、高并发、实时在线等新的需求。 
信息怎么分发给ABC?以什么标准?这可不能乱分,回头自己都忘了“帮我在四季开个房“是交给了小B办还是小C。如果问错了人,不仅效率慢,关键会搞得人尽皆知。还有啊,进一步延伸,以什么标准招聘ABC,哪些招名校,哪些招实干派,是不是必须能喝酒,上班的裙子可以接受多短?物尽其用,不可造次。 
所以,每有技术变革,第一件事一定是路线之争、行业标准之争。 
DougCutting是个编程天才,从Google亦步亦趋的追随者,终于成长为了备受重视的对手。Google做搜索,Cutting跟着开发了Lucene/Nutch搜索。Google的三驾马车,提出以MapReduce算法应对海量数据,Cutting就写出了Hadoop。 
Hadoop降生那一天,Cutting是雅虎的雇员,背景是Google、微软、雅虎的搜索引擎大战,硝烟弥漫。Google的“三驾马车“破解了海量数据的难题,保证了Google搜索成为技术上的第一高峰。同样,Cutting和Hadoop算是为雅虎的搜索业务鞠躬尽瘁,死而后已。 
几年后,马云要处理和雅虎的分分合合。有些地方扭捏,有些地方为难。但是对于雅虎搜索,还是相当“馋她的身子的“。简单的说,淘宝终于做起来了,需要一款优质的搜索引擎服务用户搜索商品。更深一点地说,这场交易涉及所有互联网企业的一个深沉幽叹:哎!这该死的,磨人的,温柔的小妖精­——数据。 
冥冥之中,都是天意。暂且按下不表。 
且说,Hadoop一降生,一群科技巨头就聚到旗下抱团。原因很简单,Google这厮,在数据处理技术上已经领先得太多,各位诸侯必须群策群力,把开源的Hadoop发展好。来它个十八路诸侯讨董卓。 
科技圈是有爱恨情仇的。开源的Linux挑战微软闭环的Windows/Office。开源的Android围攻苹果闭环的iOS/iPhone。Google的三驾马车对面,以Hadoop为旗号,聚拢起雅虎(Yahoo)、亚马逊(Amazon)、IBM、Facebook、阿里巴巴、华为…… 
哪有什么新的东西,都是历史的重复。

进阶

光看这些眼花缭乱的专业词汇,就能明白,大数据这玩意,技术门槛不低。但是每个市场参与者,都想积累数据,了解数据,挖掘数据,把自己在商业搏杀中的赢面提高哪怕一点点。于是,市场分工发挥了作用,专门有些公司:我来买服务器,我来搭架构,你需要存储和处理数据?好,我卖个服务给你。
 铛铛铛铛——一个新的行业,云计算——诞生了。
2006年,互联网时代才刚刚开始,万物没有名字,提到的时候尚需用手指指点点。江湖里的机会遍地都是,游戏、视频、O2O,软件、媒体、金融、垂直电商…… 
混沌之中,亚马逊,是对于大数据/云计算拥抱最坚决的一位。 收集数据→处理数据→分析数据→向用户推荐商品,这套模式让电商巨头亚马逊尝到甜头。当时亚马逊网站上已经有第三方店家,亚马逊的初衷是让这群第三方商家也享受到数字化福利。这项被命名为AWS(Amazon Web Services)的服务,就是云计算行业的滥觞。 
贝佐斯(Jeff Bezos),少年谢顶,索性剃了光头。此生要做硬汉,打天下的时候,和几个手下说过这样一句话:表面上,我像一只鸡那么胆小,但是内心却很强大。 
二十年里,亚马逊电商越做越大。但是,一直不赚钱,收入飞到了太空,但是利润始终在地上爬。钱去哪了?被贝佐斯砸向了研发,砸向了未来。 
利润不增长,股价就逡巡不前,华尔街总是不惮以最坏的恶意数落贝佐斯。直到2018年,AWS业务的利润爆发。亚马逊的股价终于水涨船高,不但坐稳了云计算市场当之无愧的老大,贝佐斯也接过了比尔盖茨世界首富的位子。

数据真好

2008年7月,北京奥运会,马上就要开幕。
一则新闻登上中国各大媒体的版面。比尔·盖茨为了看北京奥运会,在距离水立方不到180米的盘古大观,租下一个700平米的四合院,花费1个亿。 
事情传到了比尔·盖茨耳朵里,盖茨回了两个字:假的。 能用这种新闻卖房子,也足见这个楼盘的老板真是野路子。
果然,2017年他就把自己的名字彻底混成了闵敢的词语,非常闵敢的那种。 
至今还有很多人相信这个假新闻。 
我身边的朋友都知道,借助最近美股的走势,衣公子凭借冷静的操作,把自己和贝佐斯、比尔·盖茨等人的财富差距,缩小了几十亿美元。这给我极大的信心。于是,斗胆计算了一下新闻里的数据,四合院面积700平米,租金每年1个亿,那就是平均14万/平米。可是这个楼盘当时的售价明明才5万啊......
数据真好。可惜,我们这群傻→B在“小数据”的年代都那么好骗,又要怎么在“大数据”时代苟活? 
盖茨花1亿租四合院的假新闻满天飞的同一时间,杭州城西的阿里巴巴遇到了麻烦。 
简单点说,随着业务的扩张,阿里巴巴对于数据的处理能力已经到达极限。 
如果说大数据是新时代,那么在“旧社会”,人类是怎么处理数据的呢?可以用一个单词概括,IOE —— IBM的服务器+Oracle的数据库+EMC的存储。I、O、E在各自的领域都强得无法替代。
事实证明,好的东西就只有一个缺点——贵。 
“去IOE”很早就成为企业的心声。出于经济成本和“支持国产”的考虑,外加正赶上一次技术迭代(Linux的X86服务器挑战传统的Unix小型机服务器),中国企业开始了“去IOE”的征程。 
简单来说,这次“去IOE”失败了。大家很快发现,自己离不开IOE。总体上,无非是边边角角砍砍成本,放得开的,也不过是买买联想的PC,买买华为或者浪潮的服务器。归根到底,市场并没有一个可以替换IOE的好方案。 
不是说了吗,好的东西就只有一个缺点——贵。相较之下,数据的准确、时效,可开不得玩笑。尤其是金融企业。想象一下,当你的衣公子卑微地用六位数的密码打开自己四位数的账户,但是ATM机上取了钱,卡里的余额却没有即时地减少……这种画面你敢想? 
所以,搁到今天还是让我觉得神奇,去IOE这件事,最终竟然是让阿里巴巴这厮扛了大旗。 
淘宝算力的制约怎么突破的?阿里选的路线是:去IOE,做阿里云。 
步骤大约为:曾经完全依赖Oracle→采用Hadoop集群→建成单个机群节点数最多的Hadoop机群→用自主研发的飞天平台上的ODPS(Open Data Processing Service,开放数据处理服务)。
阿里云历经千帆,绝处逢生的故事,大家已经听过很多遍。 
不过,我倒认为没必要太渲染阿里云的苦情。的确,飞天和ODPS都是自研,但是亚马逊和微软拥抱开源,也很成功,不是吗? 
另一方面,恰恰是因为固守自研,在很长一段时间项目上一批又一批的程序员不堪重负,人才纷纷出走。另外,自研技术对内是有优势,但是对外呢?会不会构成一种推广障碍?比如潜在客户考虑采购阿里云的服务,但是IT部门一想到还要特意学一套系统,于是嘴上说不要,身体竟然也不要。 
不过,得失自在人心,宝剑留在江湖。这也是本文最终要引向的那个价值:相信竞争,让市场说话。 
无论如何,阿里云的诞生为看似热闹实则沉闷的中国科技界带来很多新的东西。

去 IOE

一般认为,阿里是在2012年底,初步完成了去IOE。 
四年前,阿里云的计划刚刚破土,那是2008年,大学毕业生如果可以拿到甲骨文(Oracle)的offer,谁会去土气横秋的BAT? 
可是,历史不就是这样吗——一些不甘现状的人,奋力吹响号角,奏响的,正是此时此刻自鸣得意的另一群人,最后的挽歌。 
阿里当时是 Oracle 在亚太地区最大的客户,拥有20个节点,比亚马逊美国的17个节点,还要多。想来多少也有点唏嘘,你最深爱的两位客户,竟然先后杀入你所在的行业。
Oracle倒下的经典瞬间是去年中国研发中心的关闭和裁员,昔日令人欣羡的高级白领,如今举着中英文夹杂的横幅,站在北京城的烈烈风中。 
当中很多人,十年之前明明比入职BAT的同学更优秀。像极了那首诗。 
少年听雨歌楼上,红烛昏罗帐。壮年听雨客舟中,江阔云低,断雁叫西风。
Larry Ellison是当之无愧的硅谷传奇,32岁创立Oracle,数据库领域的国王一当就是30年。2012年,接受采访,聊到云计算,Larry Ellison嗤之以鼻,举手投足间都是对贝佐斯的鄙夷, 料定AWS没前途,自己一口口水就能淹了它。2015年,Oracle终于砸钱猛做云计算了。 
你看啊,国王的手里还握着剑,但是江山哪里还是十年前的样子。
IOE里的IBM也好不到拿去,PC业务卖给了联想,扬言专注企业服务,光荣地创下了连续22个季度营收同比下滑的尴尬记录。22个季度,这个数字不准确?噢,别怪我,我只关注到第22个月,后来谁还跟IBM啊。 
停住。衣公子说这些真不是为了落井下石。时代一直都是这样,舞台中央的角儿,你方唱罢我登场,人来人往。但是能让技术走出聚光灯之外,在普通百姓、普通商业主体身上开花结果,才是善莫大焉。
Larry Ellison是NBA球队金州勇士(Warriors)的死忠,主场比赛几乎场场出席。甲骨文(Oracle)不仅冠名了勇士队的球场,而且,几乎每年都传出即将全资收购球队的消息。不过,在长达40多年的时间里,勇士队乏善可陈,甚至常常联盟垫底,是NBA可有可无的背景板。 
好在,勇士在硅谷。 
硅谷对于数据挖掘的痴迷,造福了勇士。NBA崇尚明星的突破和扣篮,但是数据永远理性,大数据显示三分球才是更有效率更合算的赢比赛手段。身体瘦弱,专攻三分球的后卫库里(Stephen Curry),远不是理想的NBA明星,却在勇士得到重用,围绕他打造的“死亡5小”组合,常规赛73胜,破了乔丹尘封20年的单季常规赛最佳记录,随后,连续5年杀进总决赛,拿下3个总冠军。 
和每个商业王国一样,勇士王朝最终还是解体了,后三年最重要的冠军拼图杜兰特(Kevin  Durant)因为在勇士队遭遇内讧,被排挤去了布鲁克林篮网队。屈辱和荣耀,归属和背叛,兄弟和仇人,所有人都等着他杀回甲骨文球场的那一天! 哦,对了,篮网的老板,是阿里巴巴二号人物蔡崇信。奇怪,这该死的圈子怎么那么小? 
 
预言家

2009年,甲型H1N1流感肆虐美国。 
就在疫情爆发几周前。Google的工程师在《自然》杂志上发了一篇论文。中心思想是,Google用大数据技术分析用户的搜索指令,提前预判到了这场流感。 这先知般的存在,让Google风光得一塌糊涂。 
如果你还记得,不久前,Google刚刚推出了Android系统。它要领导人类从PC向移动手机迁徙了!那真是Google把微软按在地上摩擦的时光,几乎每一场发布会都是在抽微软的脸。
Google很早就野心勃勃地在Kirkland开了办公室,这个距离微软总部Redmond不到10公里的地方。伴随Google疯狂的挖角,辞职信一封封地递进微软CEO史蒂夫·鲍尔默(SteveBallmer)的办公桌。这位一米九几的大汉终于忍不住了,问道“别TM告诉我,你TM也是去Google?”美国人比较直,就回答,“是啊,你怎么知道的哈?” Ballmer抄起椅子直接砸了过来。 
那是2004年,Ballmer还可以发脾气扔椅子。09年就别扔椅子了,大家都觉得是微软玩了这些人的青春,微软应该羞羞地向员工说声抱歉。 
舍恩伯格(Viktor Mayer Schnberger)在《大数据时代》中指出。什么是大数据时代?数据分析从“随机采样”、“精确求解”和“强调因果”的传统模式,演变为“全体数据”、“近似求解”和“只看关联不问因果”的新模式。 
超市零售巨头Target,曾经是“小数据”时代的赢家。经过几轮实验,发现把啤酒放在尿不湿旁边,啤酒销量会大增。Target百思不得其解,后来这样解释:大概是,妈妈叫爸爸去超市买尿不湿,百无聊赖的爸爸看到啤酒,想到也要犒劳一下自己,所以就顺手买了。 
在大数据时代,以上至少两点可以提高。第一,既然经过有限几轮实验就能发现“啤酒+尿不湿”促销法,那么用数字化方式+无数次实验所有可能的组合搭配,会发现多少种促销大法呢?显然,零售的效率要爆炸了。第二,找到“把啤酒放到尿不湿旁边”的促销方法就行,何必一定要找一个蹩脚的理由?这就好比已经汗涔涔地倒下,却傻乎乎地问“我和你前X友们比,谁更棒?”这既找不到真实的答案,也无助于业务能力的提高。 
不追求精确度,不追求因果,承认混杂,探索相关——这就是,大数据时代。
阿里巴巴前副总裁车品觉打过一个超赞的比喻:先开枪,后瞄准。 
当然,大数据也好,云计算也好,并不是一帆风顺的。2009年大出风头后,预测流感走势的Google Flu在2015年彻底关闭。原因第一是隐私担忧,第二是多次不准,荒谬频出,尤其是2012年那一次,反复预警有疫情,但是最后毛都没有。 
云计算,同样挫折不断。2015年5月,网商银行开业获批当日,支付宝在全国范围瘫痪2.5个小时。2019年,中国第一的阿里云,和世界第一的AWS先后发生大规模宕机和瘫痪。作为云计算客户的你,业务完全瘫痪,投诉电话被打爆;但是你的工程师却摸不到出问题的服务器,你说你慌不慌? 
但是再多的问题,也没有人会怀疑,云计算的路子是对的。 
100年前的北大。27岁胡适被蔡元培聘请为讲师教授。北大学子有质疑权威的传统,准备课堂发难,提几个胡适答不上来的问题,让这个年轻人知道知道“this is 北大”。 
傅斯年被派去提前听胡适的课,探探虚实。傅斯年回来后,对准备捣乱的北大同学说,“这个人书读得不多,但是路子是对的。你们不要闹。” 
路子是对的。大数据只是还需要一些时间。除了技术的迭代,就是数据的积累。 
不巧的是,这恰恰成为大数据最令人警惕的视角。当数据成为新时代的石油,谁霸占数据谁就抢占未来。这下,硅谷迎来了最严厉的拷打。《纽约客》说,这还不到两年,情况就发生翻转,硅谷曾经被认为是美国独创性的先锋和我们时代的宇航员,如今沦为与标准石油公司和其他镀金时代的垄断者进行的比较。 
打倒美国垄断资本家!欧盟重拳出击,出台《通用数据保护条例》(GeneralDataProtection Regulation),为互联网企业攫取数据设置了最严格的控制。把公民隐私坚定地放在了公司发展之前。 
同样的问题,公民隐私和商业进步,中国要怎么选?作为行业领袖,李彦宏的在访谈中这样说:中国人对隐私不敏感。 
百度大概也习惯了自己被喷成筛子的状态。舆论恨啊,你李彦宏好歹是北大的,怎么连“不在乎”和“没得选”都分不清?还是故意分不清? 
换位思考一下,李彦宏也不容易,偏偏活在一个国人对于北大精英还抱有不切实际幻想的年代。何必呢,你们自己也不去未名湖畔走走,胡适傅斯年尚在乎? 
也不想想当年杭州师范毕业生是怎么说的?“支付宝随时可以交给国家。” 
这境界。还会有人舍得批评Jack? 

数据来说话

直接上数据,你们自己感受云计算的市场布局吧。
Canalys的报告,2019年世界范围内云计算产业的市场份额,AWS占32.3%,独自构成遥遥领先的第一梯队,排在其后的是微软Azure(16.9%)、谷歌云(5.8%)、阿里云(4.9%)。 客观地说,中国商业的数字化已经落后欧美不少。根据《2018~2019年中国公有云市场现状与发展趋势研究报告》、《2018中国企业上云报告》等文件,美国企业的上云率高达80%,而中国仅30%。 
往积极地说,中国市场商业数字化的前景十分广阔。知识青年上山下乡,广阔天地,大有作为。 
但是,从数据大国转变为数据强国,远非那么简单。 
尤其当衣公子看到很多讲解大数据的文章,常常把数据多少当作大数据行业的唯一标准——这样的论述,过于片面。更有甚,“只要XXX中国就一定能XXX”,妄图用激越的民族情绪代替理性的商业常识,这样的趋势,常常让我感到担忧。 
请允许我铺开大数据行业的工程图。 
  • 数据采集和传输:Sqoop、Flume、Kafka等开源技术;
  • 存储:HDFS是大数据磁盘存储的实际标准;
  • 数据库:Redis、HBase、Cassandra、MongoDB、Neo4j;
  • 计算处理引擎:Spark、MapReduce、Flink;
  • 实时计算:Flink、SparkStreaming数据查询和分析工具:丰富的SQL on Hadoop的解决方案,比如,Hive、HAWQ、Impala、Presto、Spark SQL以及传统对的MPP(大规模并行处理);
  • 数据可视化:Tableau、QlikView等敏捷商业智能分析工具;
  • 等等。
以上这些,才是大数据。 
如果把大数据技术比喻成武器。那么数据只不过是火药。千年前火药就存在,数量再多也只不过是祭祀封建的鞭炮,如今决定火药能否成为威力巨大的子弹,最关键的是造枪的技术。 
衣公子认为,要带领中国走向大数据时代,要反对的是拔苗助长,该警惕的是“管得太多”,要相信的是敬畏市场,能依赖的是企业家精神。 
这个问题上,不存在特殊国情。互联网行业没有国家模式,早有前车之鉴。看过那个纪录片吗?马云在北京推销中国黄页,在宣传司综合处,对方打断了他,“我跟你讲啊,这件事情你应该先约,办事程序应该你先约,你要不约的话呢,很难给你做一个很满意的回答。”…… 
QQ最初不赚钱,却狂吃服务器,腾讯一度濒临破产。抱上中国移动的大腿,合作移动QQ,才赚上了增值业务的分账,马化腾以为迎来了柳暗花明。但是移动推出了自己的产品“飞信”,又把企鹅踹开了。中国移动不强乎?当年企鹅的营收和利润给它当零头都不配,不是吗? 
当搜索行业已经明朗,还是有人想培养一种更正能量的搜索引擎——即刻。股东名单强到我都不敢在文章里列名字,还请了一个乒乓球大满贯冠军来当总经理。可是,如今,飞信安在哉?即刻搜索,安在哉? 
真的,为了中国好,一定要允许、鼓励自由竞争。 其实,管理者如果真的想帮忙,大概有以下三点是可以做的。第一,培养人才。根据各类报告,以及衣公子和从业者的交流,中国大数据行业的人才缺口目前约100万,5年后将达到500万。 
第二,保护知识产权,维护市场公平。市场与人性如此,我们不要自欺欺人。刹住蔓延中国的商业抄袭之风,让每个企业无论大小都可以收获自己的商业果实。这样才能真的做到万众创新,让待攻克的技术难题陷入人民战争的汪洋大海。 
第三,开放数据。目前来看,几乎所有的公共数据都在政府和BAT手中。既然数据就是价值,开放价值,就好比战国时期燕昭王于易水之畔筑黄金台,招天下之士,谁是英雄,现场抽一块黄金与之。 
其实,美国也有振兴大数据行业的政策,而且比我们更早,但不是补贴钱,而是开放政府掌握的数据。奥巴马2009年1月签署《开放和透明的政府指令》(Transparency and Open Government),丰富且大量的美国公共数据,是美国大数据行业兴盛的土壤。 
奥巴马开篇就引用美国大法官路易斯·布兰代斯的名言:阳光是最好的防腐剂。 
是啊,阳光是最好的防腐剂。形势比人强。 
不说了,喝酒。
作者简介:衣公子,微信公众号:衣公子的剑(ID:yigongzidejian),做爱读的商业评论。

更多精彩推荐

吴洪声十问CSDN蒋涛:年过35 岁,程序员们都去哪儿了?

Linux 之父怒删工程师提交的补丁,称“太蠢了”网友:怼得好!

国产数据库技术全面破冰,金融核心系统打破国外巨头垄断指日可待

趣谈程序员真香定律:源码即设计

干货 | 大白话彻底搞懂 HBase RowKey 详细设计

热评 | 警惕新基建热潮中的区块链项目烂尾

你点的每个“在看”,我都认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存