大数据(生于2006,卒于2019)已死!
大数据的诞生
Hadoop在企业界面临的挑战
分析解决方案:比如ClearStory Data、Domo、Incorta、Looker、FineBI、Microsoft Power BI、Qlik、Sisense、Tableau和ThoughtSpot
数据管道供应商:比如Alooma、Attunity、Alteryx、Fivetran和Matillion
数据集成供应商:包括Informatica、MuleSoft、SnapLogic、Talend和TIBCO(后者还凭借其Spotfire产品组合角逐分析领域)。
ThoughtSpot在2018年5月完成1.45亿美元的D轮融资 Sisense在2018年9月完成8000万美元的E轮融资 Incorta在2018年10月完成1500万美元的B轮融资 Fivetran在2018年12月完成1500万美元的A轮融资 Looker在2018年12月完成1.03亿美元的E轮融资 TIBCO在2018年12月收购Orchestra Networks Logi Analytics在2019年2月收购Jinfonet 谷歌在2019年2月收购Alooma Qlik在2019年2月收购Attunity Informatica在2019年2月收购AllSight TIBCO在2019年3月收购SnappyData Alteryx在2019年4月收购ClearStory Data Matillion在2019年6月完成3500万美元的C轮融资 谷歌在2019年6月斥资26亿美元收购Looker Salesforce在2019年6月斥资157亿美元收购Tableau Logi Analytics在2019年6月收购Zoomdata
多云时代恰恰表明日益需要基于现有的各种应用系统跨多云支持应用软件和平台,也日益需要支持持续交付和业务连续性。“某项任务有一个应用软件”这种观念导致了企业中每个员工平均有一个SaaS应用软件的业务环境,这意味着每家大企业在为数千个SaaS应用软件支持数据和流量。后端容器化这个趋势导致支持按需和峰值使用环境的存储和工作负载环境日益分散化和专业化。
机器学习时代专注于分析模型、算法、模型训练、深度学习以及算法和深度学习技术的伦理。机器学习需要处理创建干净数据供分析所用所需的大量相同工作,但还需要另外的数学、业务和伦理上下文以创建持久的长期价值。
实时和无处不在的上下文恰恰表明,从分析的角度和交互的角度来看,日益需要及时的更新。从分析的角度来看,公司分析处理仅仅每周更新一次或每天更新一次已不够。员工现在需要近乎实时的更新,否则有可能做出糟糕的公司决策,这些决策在制定的那一刻就已过时或落伍了。有效使用实时分析需要广泛的业务数据,以提供适当的整体上下文以及供针对数据按需执行的分析所用。无处不在还表明了交互的兴起,包括物联网提供表明环境和机械活动的更多边缘观察信息,以及仍在发展中的扩展现实(Extended Reality,包括增强现实和虚拟现实)提供身临其境的体验。为了提供这种级别的交互,必须以交互的速度分析数据,可能短至300-500毫秒,以提供有效的行为反馈。
首先,Hadoop在企业数据界仍占有一席之地。Amalgam Insights预计,MapR最终会被一家以管理IT软件出名的公司收购,比如BMC、冠群或MicroFocus;并认为Cloudera已采取了措施,不仅限于企业Hadoop,以支持数据的下几个时代。但技术的步伐不可阻挡,Cloudera的问题在于它的行动是否够快、随势而变。Cloudera在将其企业数据平台完善成下一代洞察力和机器学习平台方面面临数字化转型挑战。过去几十年,公司能够为转型敲定时间表。现在正如我们从亚马逊、Facebook和微软等公司看到的那样,仅仅为了活命,成功的科技公司必须准备好每十年就要转型,可能甚至牺牲掉自己的部分业务。 其次,对多云分析和数据可视化的需求比以往任何时候都要大。谷歌和Salesforce刚斥资180亿美元收购了Looker和Tableau,那些收购基本上是针对颇具规模和收入增长的公司的市场价值收购。会投入更多的巨额资金,以克服这一挑战:针对众多数据源提供分析技术,并支持与多云有关的日益分散且多样的存储、计算和集成需求。这意味着企业需要慎重地搞清楚数据集成、数据建模、分析及/或机器学习/数据科学团队可以在多大程度上应对这个挑战,因为处理和分析异构数据变得越来越困难、复杂,但要支持战略业务需求并将数据用作真正的战略优势又势必需要这么做。而仅看国内发展,企业对多云分析和数据可视化的需求也是一样剧增。2006年成立的国产BI软件厂商帆软软件自2016年300人左右的团队短短三年内成长到现在的1100余人,据知为了应对更多的市场需求其团队还在不断扩大。这样的成长速度源自市场需求的增多和帆软对于市场需求走势的判断。 第三,机器学习和数据科学是下一代分析技术,需要各自做好新的数据管理工作。大规模创建测试数据、合成数据和掩蔽数据,以及数据沿袭、治理、参数和超参数定义以及算法假设,这些都超出了传统大数据假设的范畴。这里最重要的考量因素是,使用由于种种原因未能很好地服务于企业的数据:样本量小、缺乏数据源、数据定义不清晰、数据上下文不明确,或者算法和分类假设不准确。换句话说,不使用失实的数据。失实的数据会导致有偏见、不合规、不准确的结果,还可能导致诸多问题:比如Nick Leeson在1995年导致巴林银行(BaringsBank)垮台,或法国兴业银行因Jerome Kerviel精心操纵交易而蒙受70亿美元的交易损失。AI现在是新的潜在“流氓交易者”,需要得到适当的治理、管理和支持。 第四,需要将实时和无处不在的上下文既视为协作和技术上的挑战,又视为数据挑战。我们正进入这样一个世界:每个对象、流程和对话都可以用附加的上下文加以标记、标注或增强,可以实时处理数GB的数据,以生成简单的两个单词警报,可能就像“减慢速度”或“立即购买”这么简单。我们看到“数字孪生”(digital twin)这个概念方兴未艾:在工业界,PTC、GE及其他产品生命周期和制造公司为设备创建数字孪生;而在销售界,Gong、Tact和Voicera等公司借助额外的上下文以数字方式记录、分析和增强模拟对话。
结论
1.不认命,从10年流水线工人,到谷歌上班的程序媛,一位湖南妹子的励志故事
4.“37岁,985毕业,年薪50万,被裁掉只用了10分钟”
5.37岁程序员被裁,120天没找到工作,无奈去小公司,结果懵了...