查看原文
其他

大数据(生于2006,卒于2019)已死!

▲点击图片查看kindle书籍

公众号后台回复:“5G”,获取5G报告

公众号后台回复:“社群”,进入区块链分享社群

热文推荐:

PPT丨这份致敬中国女排的PPT,太燃了(附下载)

梁宁产品思维50页PPT丨从一无所有,到整个世界


大数据时代生于2006年4月1日,卒于2019年6月5日


由于关注的重心从我们收集数据的方式转向实时处理数据,大数据时代即将终结。大数据现在是支持多云、机器学习和实时分析这几个新时代的业务资产。


大数据时代终结于2019年6月5日,当时Tom Reilly宣布即将从Cloudera辞职,随后该公司市值应声下跌。加上MapR前不久宣布将于6月下旬关门大吉——这将取决于MapR能否找到买家来继续运营,2019年6月表明了这个事实:Hadoop推动的大数据这个早期时代已宣告结束。大数据会因在这几方面起到的作用而被世人铭记:促使社交媒体开始占主导地位,从根本上改变企业在处理多出好几个数量级的数据方面的理念,以及澄清分析数据、数据质量和数据治理的价值,不断评估作为企业资产的数据。


如果为大数据时代拟写某种意义上的悼词时,必须要强调一下:大数据技术实际上并没“死”,但第一代基于Hadoop的大数据已达到成熟的程度,它已在企业数据界确立了稳固的角色。大数据不再是无限增长的炒作周期的一部分,而是一种老牌技术。



大数据的诞生


大数据时代始于ApacheHadoop在2006年的亮相,开发人员和架构师将此工具视为有助于处理和存储多结构化数据和半结构化数据。企业在数据方面的理念发生了根本性转变,并不仅限于传统企业数据库的ACID(原子性、一致性、隔离性和持久性),导致数据使用场合发生了变化,许多公司意识到以前丢弃或保存在静态归档中的数据实际上有助于了解客户行为、采取行动的倾向、风险因素以及复杂的组织、环境和商业行为。Cloudera这款商业发行版推出后,Hadoop的商业价值在2009年开始得到确立,MapR、Hortonworks和EMC Greenplum(现在的Pivotal HD)紧随其后。虽然分析师们预测大数据这个潜在市场的规模高达500亿美元或更多,但Hadoop这种分析工具最终在最近十年受到了质疑。


Hadoop在企业界面临的挑战


虽然Hadoop在通过批处理支持大型存储和ETL(提取、转换和加载)作业以及支持机器学习任务方面大有价值,但它在支持公司和大型组织用来管理日常运营的较为传统的分析工作方面并非最佳选择。Hive、Dremel和Spark等工具在Hadoop上面使用以支持分析,但Hadoop从未变得足够快,无法真正取代数据仓库。


Hadoop还面临这样的挑战:NoSQL数据库和对象存储提供商在解决Hadoop最初旨在帮助解决的部分存储和管理难题方面取得了进展。随着时间的推移,在Hadoop上支持业务连续性面临挑战,加上支持实时、地理空间及其他新兴的分析使用场合方面缺乏灵活性,这使得Hadoop面对海量数据时很难在批处理之外大有作为。


此外,久而久之,许多公司开始发现大数据难题越来越与此有关:支持一系列广泛的数据源,并迅速调整数据模式、查询、定义和上下文,新的应用程序、平台和云基础设施供应商就体现了这一点。为了克服这个挑战,分析、集成和复制就必须变得更敏捷更快速。许多供应商纷纷创办就体现了这个挑战,包括:


  • 分析解决方案:比如ClearStory Data、Domo、Incorta、Looker、FineBI、Microsoft Power BI、Qlik、Sisense、Tableau和ThoughtSpot

  • 数据管道供应商:比如Alooma、Attunity、Alteryx、Fivetran和Matillion

  • 数据集成供应商:包括Informatica、MuleSoft、SnapLogic、Talend和TIBCO(后者还凭借其Spotfire产品组合角逐分析领域)。


如果从收购或融资的角度来看,许多这些公司似乎都备受瞩目,这绝非巧合。最近的例子包括但不限于:


  • ThoughtSpot在2018年5月完成1.45亿美元的D轮融资

  • Sisense在2018年9月完成8000万美元的E轮融资

  • Incorta在2018年10月完成1500万美元的B轮融资

  • Fivetran在2018年12月完成1500万美元的A轮融资

  • Looker在2018年12月完成1.03亿美元的E轮融资

  • TIBCO在2018年12月收购Orchestra Networks

  • Logi Analytics在2019年2月收购Jinfonet

  • 谷歌在2019年2月收购Alooma

  • Qlik在2019年2月收购Attunity

  • Informatica在2019年2月收购AllSight

  • TIBCO在2019年3月收购SnappyData

  • Alteryx在2019年4月收购ClearStory Data

  • Matillion在2019年6月完成3500万美元的C轮融资

  • 谷歌在2019年6月斥资26亿美元收购Looker

  • Salesforce在2019年6月斥资157亿美元收购Tableau

  • Logi Analytics在2019年6月收购Zoomdata


这些解决方案的成功表明了日益需要分析师、数据和平台灵活性,以便面对诸多云和数据源改进数据的上下文分析价值。2019年会更闹猛,因为其中许多公司归私募股权公司所有,或者已获得大量的风投资金,需要尽快成功退出,帮助资助未来的风投基金。


随着大数据的消逝,我们进入到了后大数据时代,包括多云时代、机器学习时代以及实时和无处不在的上下文时代。


  • 多云时代恰恰表明日益需要基于现有的各种应用系统跨多云支持应用软件和平台,也日益需要支持持续交付和业务连续性。“某项任务有一个应用软件”这种观念导致了企业中每个员工平均有一个SaaS应用软件的业务环境,这意味着每家大企业在为数千个SaaS应用软件支持数据和流量。后端容器化这个趋势导致支持按需和峰值使用环境的存储和工作负载环境日益分散化和专业化。

  • 机器学习时代专注于分析模型、算法、模型训练、深度学习以及算法和深度学习技术的伦理。机器学习需要处理创建干净数据供分析所用所需的大量相同工作,但还需要另外的数学、业务和伦理上下文以创建持久的长期价值。

  • 实时和无处不在的上下文恰恰表明,从分析的角度和交互的角度来看,日益需要及时的更新。从分析的角度来看,公司分析处理仅仅每周更新一次或每天更新一次已不够。员工现在需要近乎实时的更新,否则有可能做出糟糕的公司决策,这些决策在制定的那一刻就已过时或落伍了。有效使用实时分析需要广泛的业务数据,以提供适当的整体上下文以及供针对数据按需执行的分析所用。无处不在还表明了交互的兴起,包括物联网提供表明环境和机械活动的更多边缘观察信息,以及仍在发展中的扩展现实(Extended Reality,包括增强现实和虚拟现实)提供身临其境的体验。为了提供这种级别的交互,必须以交互的速度分析数据,可能短至300-500毫秒,以提供有效的行为反馈。


随着大数据时代走到尽头,我们现在可以少关注收集大量数据的机制,多关注处理、分析海量数据并与之实时交互方面的无数挑战。我们迈入大数据驱动的新时代时,请牢记以下几个概念。


  • 首先,Hadoop在企业数据界仍占有一席之地。Amalgam Insights预计,MapR最终会被一家以管理IT软件出名的公司收购,比如BMC、冠群或MicroFocus;并认为Cloudera已采取了措施,不仅限于企业Hadoop,以支持数据的下几个时代。但技术的步伐不可阻挡,Cloudera的问题在于它的行动是否够快、随势而变。Cloudera在将其企业数据平台完善成下一代洞察力和机器学习平台方面面临数字化转型挑战。过去几十年,公司能够为转型敲定时间表。现在正如我们从亚马逊、Facebook和微软等公司看到的那样,仅仅为了活命,成功的科技公司必须准备好每十年就要转型,可能甚至牺牲掉自己的部分业务。

  • 其次,对多云分析和数据可视化的需求比以往任何时候都要大。谷歌和Salesforce刚斥资180亿美元收购了Looker和Tableau,那些收购基本上是针对颇具规模和收入增长的公司的市场价值收购。会投入更多的巨额资金,以克服这一挑战:针对众多数据源提供分析技术,并支持与多云有关的日益分散且多样的存储、计算和集成需求。这意味着企业需要慎重地搞清楚数据集成、数据建模、分析及/或机器学习/数据科学团队可以在多大程度上应对这个挑战,因为处理和分析异构数据变得越来越困难、复杂,但要支持战略业务需求并将数据用作真正的战略优势又势必需要这么做。而仅看国内发展,企业对多云分析和数据可视化的需求也是一样剧增。2006年成立的国产BI软件厂商帆软软件自2016年300人左右的团队短短三年内成长到现在的1100余人,据知为了应对更多的市场需求其团队还在不断扩大。这样的成长速度源自市场需求的增多和帆软对于市场需求走势的判断。

  • 第三,机器学习和数据科学是下一代分析技术,需要各自做好新的数据管理工作。大规模创建测试数据、合成数据和掩蔽数据,以及数据沿袭、治理、参数和超参数定义以及算法假设,这些都超出了传统大数据假设的范畴。这里最重要的考量因素是,使用由于种种原因未能很好地服务于企业的数据:样本量小、缺乏数据源、数据定义不清晰、数据上下文不明确,或者算法和分类假设不准确。换句话说,不使用失实的数据。失实的数据会导致有偏见、不合规、不准确的结果,还可能导致诸多问题:比如Nick Leeson在1995年导致巴林银行(BaringsBank)垮台,或法国兴业银行因Jerome Kerviel精心操纵交易而蒙受70亿美元的交易损失。AI现在是新的潜在“流氓交易者”,需要得到适当的治理、管理和支持。

  • 第四,需要将实时和无处不在的上下文既视为协作和技术上的挑战,又视为数据挑战。我们正进入这样一个世界:每个对象、流程和对话都可以用附加的上下文加以标记、标注或增强,可以实时处理数GB的数据,以生成简单的两个单词警报,可能就像“减慢速度”或“立即购买”这么简单。我们看到“数字孪生”(digital twin)这个概念方兴未艾:在工业界,PTC、GE及其他产品生命周期和制造公司为设备创建数字孪生;而在销售界,Gong、Tact和Voicera等公司借助额外的上下文以数字方式记录、分析和增强模拟对话。


结论


因此,大数据时代已宣告结束。但在此过程中,大数据本身已成为IT的一个核心方面,并引发了一系列新时代,每个时代未来一片光明。投入于大数据的公司应该将这些投入视作未来成为实时、增强和交互型互动公司的重要基础。随着大数据时代走到尽头,我们现在准备将整个大数据用作业务资产,而不仅仅是炒作,从而支持基于作业的上下文、机器学习和实时交互。


关于国内对大数据行业发展的讨论也是一直没有停止,而对于实时、增强和交互型的数据分析,对在大行业背景下小行业的场景化应用,帆软每年都会组织国内数据行业规格最高的一场听觉盛宴,近千家企业高管参与讨论。针对数据治理和准备、数据挖掘、数据人才培养等多个部分进行深度探讨。本次大会以“数据有引力”为主题,以国内现在的大行业发展为背景,真正来落地数据对企业的真实价值,旨在帮助更多的企业对“已死的大数据”重新认识,从以上四个方面来使得数据建设更加落地。


扫码进入知识分享社群

交流~共享~学习~进步


公众号后台回复“sq”,加入社群



公众号后台回复关键词“书籍”

获取区块链20本高分书籍





干货▶

【干货】45G微信小程序开发合集 

【干货】2000本Kindle电子书免费领取

1000位专家推荐,20本区块链必读书籍

【干货】罗辑思维推荐书单全集,给大脑充电!

苹果发布会PPT源文件,让你的PPT逼格满满!

抖音最火快闪PPT模板,让你的PPT逼格提升

【干货】10本人工智能豆瓣高分书籍,免费领取

【PPT】清华大学演讲:讲解人工智能技术与产业发展

图解丨麦肯锡式逻辑思考术思维导图


互联网

终于有人把云计算、大数据和人工智能讲明白了!

中国互联网公司亏损能力排行榜

张一鸣:为什么BAT挖不走我们的人才?

程序员之间的十八层鄙视网络

图解丨麦肯锡式逻辑思考术思维导图

40页PPT看懂麦肯锡的思考方式和沟通法则

几张图看懂高级经理人与普通管理者的区别

腾讯发布95页重磅报告:全面预测中国互联网

大神爬了这些网站的数据,发现价值巨大!

中国全球首发,有光就能上网,比5G还快10倍!

【报告】阿里商业白皮书:每个企业都要变成一个数据公司


科技▶

第一批 AI 已经开始诈骗

中国科技真实底子,这篇文章讲透了!

BBC分析了365个职业,发现最不可能被机器淘汰的居然是……

“性爱机器人”再曝新消息,令无数人哗然!

为什么说人工智能是一个大谎言

罗兰贝格:中国人工智能创新应用白皮书

再见了,快递员!北京打响第一枪!

日本这个震撼短视频,让你感受5G到来后的生活

什么样的家庭出学霸?大数据研究颠覆你的常识

华为首席科学家告诉你:5G到底有哪些能力?

关于5G的原理,这张图全说清楚了

刘慈欣随笔:永生的阶梯

淘汰语言!麻省理工发明“读心机”

有一种科研叫“中国式科研”!

十大科技丑闻,连娱乐圈都甘拜下风

大神爬了这些网站的数据,发现价值巨大!

第一次有人把 5G 讲的这么简单明了

AI 的寒冬将来临

Science公布:全世界最前沿的125个科学问题

中国这7位年轻人正在改变世界

如何用大数据构建精准用户画像?

不装X地说,在Google十年,到底学到啥?

又一位“海归”回美任教,临别赠言值千金

德勤财务机器人正式上岗,效率相当惊人

美国科学院院士谢宇:中国科学能超越美国吗

19个省市成立大数据局,智慧城市步伐加快

人脸识别哪家强?不如问哪家公司吹牛逼强

美国斯坦福大学发布2025计划, 创立"开环大学"

美国公布长达35页的《2016-2045年新兴科技趋势报告》

大数据分析5万首《全唐诗》,发现了这些秘密

【干货】67页PPT,终于把大数据大趋势讲清楚

中国首批新能源车主陷入困境:修不了也修不起


其他▶

当北大博士都去了三流大学任教

数据揭秘:中国最有前途的30座城市

石油的惊世谎言,造就眼下电动车千亿骗局

我为什么建议你留在一线城市

100张经典信息可视化图表,让你脑洞大开

年薪10万,你就打败了90%的中国人

大崩溃前的1990年,日本年轻人有多疯狂?

诺基亚:你以为他死了,其实他已重回世界第二

你在的城市,决定了你的命运(深度)

剩男在村里,剩女在城里

德国:认真是一种可怕的力量

被骗100年,大清的灭亡真的是武器落后的结果

什么区块链,统统是骗子

褚时健:人活着是为了什么?

深圳十几万打工者“大撤退”

中国经济将怎样大规模调整?

清华北大现任省部级校友名录

中国的街道都被“统一店招”毁了

深度长文:中国产业大迁移全景图

北大出疯子,清华出傻子,人大出混混

地球上必定有个人跟你长得一模一样

中科院教授:举国上下身陷功利漩涡

日本人眼中的中国制造企业:聪明反被聪明误

这是一个残忍的提问:中国的钱都到哪里去了?

那盆被骂30天的植物终于死了:语言到底多恐怖

北大数学天才柳智宇出家多年首次接受记者采访

用1.5米落差消灭电费!比利时发明家用水电站!

华为人均工资高达70万,华为员工的15项标准

历劫不死的中华文明,第一次被整理的如此清晰

56岁才创业,如今年利润却是华为1.5倍

施一公最新专访:年轻人如果把钱作为奋斗目标,那就全完蛋了


区块链▶

什么区块链,统统是骗子

《2018区块链整体架构及应用》发布

张泉灵:区块链一天,互联网十年

哈佛商业评论:关于区块链的真相

工信部发布《区块链数据格式规范》标准

中国首个区块链标准《区块链参考架构》发布

《腾讯区块链方案白皮书》重磅发布(附全文)

高盛发布区块链报告:从理论到实践(中文版)




每一张脸都是一个谜

人工智能测面相为你揭开谜底

长按二维码参与活动





    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存