查看原文
其他

《大数据掘金:挖掘商业世界中的数据价值》

2015-12-30 加里·麦尼 工业4俱乐部



推荐序

杜尔森·德伦博士的著作简明清晰、内容丰富,为渴望了解数据分析、数据挖掘和“大数据”的读者提供了实用的学习工具。在商业活动越来越复杂、越来越趋向全球化的今天,决策者必须依靠现有的信息采取快速准确的行动,而这必须依靠现代数据挖掘和分析。本书明确了该领域当前的最佳做法,向读者——主要是学生和从业者——展示了如何应用数据的挖掘与分析发现数据隐含的规律与联系,如何利用这些信息改进并提升整个决策过程。

作者选取了适量的概念、技术和案例帮助读者真正理解数据挖掘技术的运行原理。这些技术包括:数据挖掘过程、方法与技术,数据的作用与管理,工具与量表,文本与网页挖掘,情感分析,以及接下来与最新大数据分析方法的整合。


在第1 章中,作者巧妙地将数据分析的源头追溯到了第二次世界大战时期(见图1—2),使用下列期刊的读者信息作为数据:20 世纪70 年代的《决策支持系统》(DecisionSupport Systems)、20 世纪80 年代的《企业/ 高管IS 系统》(Enterprise/ExecutiveIS Systems)以及我们都听说过的20 世纪90 年代和21世纪初期的《商务智能》(Business Intelligence),最后还有当前的《分析》(Analytics)和《大数据时代》(Big Data)。第1 章的内容为后续即将论述的数据挖掘打下基础。


在第2 章中,作者对数据挖掘进行了简明易懂的描述,并进行了准确的分类,将数据挖掘与其他几个相关的术语区分开来,明确表示了数据挖掘的实际意义是发现知识。认识到数据挖掘实质上是在坚持许多原则的基础上解决问题与制定决策,无疑是思维上的一次洗礼,许多人都认为数据挖掘本身是一种新概念。这一章运用现实生活中的真实案例、具有启发性的图表以及平实的语言,向广大读者揭开了数据挖掘的神秘面纱。这种方法十分巧妙,将数据挖掘这样看似复杂而又富有技术含量的话题介绍给了普罗大众。


在第3 章中,德伦博士以浅显易懂的形式向读者展示了规范数据挖掘过程的不同方法。该章介绍的第一种方法是数据库知识获取(Knowledge Discovery inDatabase,KDD),这种方法由业界先驱尤萨马·法雅德(Usama Fayyad)首创。德伦博士在讨论中展示了KDD 技术,并用图表加以说明(见图3—1),清楚地显示了运用KDD 技术进行数据挖掘的过程。与此同时,这一章还介绍了众多团体或个人提出的其他数据挖掘方案,这些方案共同构成了数据挖掘这一领域基本思想的沿革发展。为了显示这些方案的实用性,德伦博士还在最后提供了一个案例研究——“挖掘癌症数据,获取最新知识”。


第4 章,主要研究数据挖掘中使用到的数据,包括目前越来越频繁使用的文本数据(即非结构化、非数字性的数据,占当今世界可用数据的近90%)。数据准备是数据挖掘最重要的一步,要建立实际可用的模型,所用的数据必须经过处理统计,否则就像俗语中说的“无用输入,无用输出”。因此,在数据挖掘过程中近乎90% 以上的时间都花在了数据准备这一环节。德伦博士竭尽所能采取种种方法统计整理数据,为进一步的数据分析做好准备,这些准备包括打造数据链,测试数据组,为学习者提供最人性化的k 倍交叉核实界面(见图4—6)。


在第5 章中,德伦博士介绍了最常见的数据挖掘运算,其讲解简明易懂,外行人也能看出门道。此外,他还全面介绍了神经网络与支持向量机(SupportVector Machines,SVM),使这些原本晦涩难懂的数学工具变得生动易学。其中,德伦博士亲自设计的演算示例也让本书物超所值。


第6 章,详细讲述了文本挖掘(即文本分析)。一开始,德伦博士引用了我们在2012 年出版的《实用数据挖掘》(Practical Data Mining,我本人是这本书的主编)首次使用的图表。博士成功地将我们1 100 页的著作浓缩成短短一章——事实上,这样的浓缩版本对初学者而言更有意义。干得漂亮,德伦!


最后,在第7 章中,德伦博士介绍了当前分析领域一个炙手可热的名词——大数据分析。我们几乎每天都能在新闻中听到“大数据”这个词,它到底是什么意思呢?对不同的人而言,这个词有着不同的含义。但作为一个在数据挖掘领域活跃了15 年以上的人,我可以说每时每刻都与大数据打交道。数据存储空间的成本越来越低,云存储逐渐进入人们的生活,一台小小的笔记本电脑都能够进行数据分析中的分配步骤和多线程运算。轻薄的平板电脑甚至能够胜过几十年前存放在开着冷气的库房中的主服务器。现在人们甚至可以用智能手机管理几个服务器和云存储。数据正日渐变“大”,而处理数据所需的物理实体却越来越“小”。


但是大多数人对大数据都存在着误解,至少在我看来是这样的。许多人认为数据挖掘必须用到大数据。我与住院医师有过10 年的合作,他们希望在为期一年的项目中研究尽可能多的案例,但在有限的时间内只能找到一部分所需的材料。以传统统计学标准来看,这些小型数据组的研究是没有任何意义的,但是我发现,使用工具学习这种现代数据挖掘方法,往往能够从小数据组中得到有用的假设,获得从前使用传统费雪学派p 值统计法不可能得到的信息。在20世纪,传统统计学还被认为是非主流的统计方法,而在20 世纪以前,贝叶斯统计法(Bayesian statistics)曾统领了数据分析领域长达几百年之久。随着21 世纪的到来,贝叶斯统计的现代形式,包括SVM、NN 及其他工具学习模型卷土重来,我们又回到了贝叶斯的时代。虽然对于“传统统计训练”而言,还需要一定时间来理解和跟上时代的潮流,但是统计领域的前沿阵地无疑是属于贝叶斯统计法、数据挖掘和大数据的。


所有想要了解数据挖掘并在这一方面掌握一技之长的读者都应该选择这本书,当阅读到本书的最后一页就会发现,你已经完全了解这一领域,如蛹化蝶飞。


加里·麦尼 博士(Dr. Gary D. Miner)

戴尔信息管理集团软件事业部

高级分析师、医疗保健应用专家

(其两部著作曾经获得PROSE 奖)



译者后记


毫无疑问,我们如今所处的时代是数据挖掘和大数据分析的时代。在商业活动愈来愈复杂、愈来愈走向全球化的今天,决策者想要依靠现有的信息做出快速而有效的决策,大数据和数据挖掘是必不可少的。对于数据挖掘和大数据两者的热衷甚至可以说是追捧,让这两个词迅速成为人们天天挂在嘴边的话题。


在现代商业社会,大数据早已不再是一个陌生的名词。大到跨国公司,小到商店进货,人们每天都在与大量的数据信息打交道。同时,大数据也正在为社会、商业的各个领域带来越来越深刻的影响。然而,要让大数据充分发挥其作用所要做的不仅仅是简单的数据堆砌,而是要深入地进行挖掘分析,从中获取和利用各种信息,使得无论是分析团队成员还是购买分析结果的用户都能够充分地运用这些信息。


《大数据掘金》一书从数据挖掘的历史、分类、术语展开,帮助读者熟悉情况,迅速进入角色;并介绍了数据挖掘这一领域的最佳案例,揭示了如何系统地运用数据,找出其中隐含的模式与联系,帮助读者更好地利用收集到的数据为自己服务。作者选取了适量的概念、技巧和案例帮助读者真正深入理解数据挖掘技术的运行原理。这些技术包括数据挖掘过程、方法与技巧,数据的作用与管理,工具与量表,文本与网页挖掘,情感分析,以及紧接下来的如何与最新的大数据分析方法进行整合。


本书语言简明易懂,即使对大数据及数据挖掘领域知之甚微的读者,也能够迅速理解其中的含义,普及大数据知识,消除对大数据存在的误解。而对于在这一领域有一定研究的读者,本书则有助于梳理数据挖掘方法,进而达到融会贯通,实现质的飞跃。所有想要了解数据挖掘,并想在这方面掌握一技之长的读者,本书都将助其加深理解、提高技能。


本书的翻译工作的顺利完成得到了来自各方面的大力支持。首先,感谢中国人民大学出版社商业新知事业部的编辑们付出的大量心血;其次,感谢北京外国语大学国际商学院张继红教授、李凤清、范中军、朱明西、林小溪、韩晓霜、刘运鑫、梁琦等研究生同学、金沙资本张晨昊董事长、周芳伊女士以及妻子宋笑鸥对翻译工作的大力支持。没有你们的支持和鼓励,本书就不可能顺利出版。


此外,还需要感谢北京外国语大学国际商学院为翻译工作所提供的良好氛围,以及北京高等学校青年英才计划(#YETP0851)、北京外国语大学青年学术创新团队支持计划(#2015JT005)、卓越青年教师计划、中国文化走出去协同创新中心等项目的资金支持。译者在此表示由衷的感谢!

在翻译的过程中,译者对本书进行了严格校对,对其中术语翻译进行了反复商讨和考证,但由于水平所限,出现欠妥之处在所难免,敬请读者谅解。如有任何意见或建议,尚祈不吝赐教,详情请发邮件至xiaosong.ding@hotmail.com。

丁晓松 宋冰玉


书摘部分:


数据挖掘最常见的应用

数据挖掘已成为解决复杂商业问题,抓住商机的常用工具,在多个领域作出了贡献,接下来我们将会介绍其中的一些领域。现在已经很难找到哪个领域不涉及大规模的数据挖掘,而大多数应用的目的都是解决复杂问题,发现潜在机遇,以提升企业自身的竞争优势。


市场营销与客户关系管理

客户关系管理(Customer Relationship Management,CRM)是传统市场营销的延展,其宗旨是通过深入理解消费者需求,创建与客户一对一的关系。企业在通过各种渠道(包括产品调研、销售、服务请求、报修热线、产品评论、社交网络媒体)与顾客建立联系的过程中,收集了大量的数据信息。企业将这些数据与人口和社会经济特点结合起来,就可以用来判断新产品或新服务的最佳消费群体,获取消费者资料;理解消费者偏好的根本原因,提高顾客忠诚度;发现产品与服务之间的时间周期联系,最大化提高销售额和顾客满意度;找出最大消费群体的消费需求,以加强联系,促进销售。


银行与金融

数据分析能够帮助银行等金融机构解决各种问题,通过精准预测和识别常见错误,推动贷款工作的流程化和自动化;检测虚假信用卡使用,网上银行诈骗;针对客户投其所好,将消费者满意度最大化;精准预测银行机构的现金流(如自动提款机、银行分行等),优化现金回收。


零售与物流

在零售业,数据挖掘可用于预测特定零售点的销售量,决定合适的库存水平;通过市场篮子分析,发现不同商品之间的销售关系,优化商店布局,有利于促销;根据季节和环境条件,预测不同产品的销售水平;通过分析传感器和RFID 标签,发现商品在供应链中的流动规律,尤其是对于那些易过期、变质、污染的短生命周期产品。


制造业

制造业能够利用数据挖掘在问题发生前检测出机械故障,使企业能够实时检修;发现生产系统中的异常和共性,提升生产能力;发现新的生产模式,优化产品质量。


经纪业与证劵交易

经纪人和交易商利用数据挖掘预测特定股票和证劵价格变化的时间和变动方式,估计市场波动的范围和方向,预测特定时间对整个市场运作的影响,发现并检测证券市场的欺诈行为。


保险业

保险业利用数据挖掘技术预测财产和医疗垫付的保险金额,更好地实施行业规划;根据保险申领和顾客数据更好地进行赔率设计;预测哪一位顾客最有可能购买具有一定特色的新产品;发现并预防不正当保险申领和欺诈行为。


计算机硬件和软件

数据挖掘能提前预测磁盘驱动器故障,发现并过滤网页的无用内容和垃圾邮件;监测并预防计算机网络安全桥;发现具有潜在威胁的软件产品。


政府与国防

数据挖掘在政府部门和军事部门发挥着广泛的应用,能够预测由于军队人事和部门变动带来的成本损失;监控敌方动向,协助军事行动制定更好的策略;预测资源的消耗量以做出更好的规划和预算;记录特殊事件、决策的经验,吸取军事行动的教训,将这些经验教训转化为知识传达给整个组织。


旅游与住宿

数据挖掘在旅游业也有着长足的发展。它能够精确预测不同服务的销售量(包括航班的不同坐席、酒店或度假村的不同房间、租车公司的不同车型等),制定最优价格方案,使利润最大化(通常称这种策略为收益管理);预测不同地区的不同需求以合理安排有限的企业资源;找出能带来最大利益的顾客,向其提供定制服务,保证消费者忠诚度;通过辨别人员损耗的根源,留住有价值的雇员。


卫生与医疗保健

数据挖掘在医疗卫生领域有广泛应用,能够帮助个人和群体培养更健康的生活方式(通过分析健康监测仪收集的数据);找出没有购买医疗保险的人群,并分析出现这一现象的原因;发现不同治疗方案之间最佳的成本—效益关系,制定最有效的决策;预测不同服务区域需求的水平和时间,优化企业资源配置;分析消费者和员工浪费的隐含原因。


医疗业

过去,传统医疗主要依靠临床实践和自然生物研究,数据挖掘在制药业的应用是传统医疗研究一项十分有价值的补充。数据挖掘分析可用于发现新的治疗方法,提高癌症病人的治愈率;预测器官移植的成功率,优化捐献者与受捐者之间的配型政策;检测人类染色体上的不同基因的不同作用(通常称为基因组学);辨别疾病症状与病理的关系(也包括患病与成功治愈的关系),帮助医师及时做出决策。


娱乐业

数据挖掘已经成功应用于娱乐业,通过分析收视率判断黄金时间播送的节目,以及何时插入广告能获取最大利润;在制片前预测电影上映带来的经济回报,以制定投资决策,将收益最大化;预测不同地区不同时段的收视需求,更好地规划娱乐活动时间,合理安排资源;制定最优价格政策,获取最大收益。


国土安全与法律执行

数据挖掘在国土安全和法律执行方面也发挥着作用。数据挖掘常用于侦查恐怖分子的行动,发现犯罪动态(例如,发现犯罪地点、犯罪时间、犯罪行为和其他相关事宜),帮助警方及时破案;分析特制检测仪数据,排查并严防针对国家核心机构的生物和化学袭击;发现并排查针对核心信息机构的恶意攻击(通常称为信息战争)。


体育

数据挖掘曾被美国NBA 队伍用于改善团队成绩。主要的棒球联赛队伍也利用数据挖掘和预测分析优化资源使用效率,取得赛季胜利。事实上,《点球成金》这部电影正是讲述了分析学在棒球方面的应用。如今,大多数职业运动都在利用数字计算机和数据挖掘来提高队伍的获胜率。数据挖掘的应用并不仅仅局限于在职业运动中创建了一个模型,分析两个队伍之前的比赛数据,估计全国大学体育协会(NCAA)的决赛结果。赖特(Wright)使用一系列预测系统分析NCAA 男子篮球赛冠军队伍类型(篮球赛决赛也就是俗称的“疯狂的三月”)。简言之,数据挖掘能够预测体育比赛结果,发掘针对特定队伍的取胜方法,发挥可用资源

(包括资金、管理、运动员)的最大价值,为团队取得最大的成功。


数据挖掘能够发现怎样的规律


利用最相关的数据(通常来自企业数据库或者外源资源),数据挖掘能够建立模型,发现数据组中不同事物(包括变量和性质)所隐含的规律。模型通常用数学形式表达数据组中包括顾客在内的事物之间的关系,分为简单线性关系以及复杂的高等非线性关系。这些规律有些是解释性的,即解释了内在关系和不同事物之间的联系;另一些则是预测性的,即预测了一定事物未来的价值。总而言之,数据挖掘要寻求的是以下三方面的规律。


● 关联是发现通常情况会一起出现或发生的事物。例如,“啤酒与尿不湿”或者“面包与黄油”等通常会成为消费者一起购买的商品(即市场篮子分析)。

另一种类型则是发现事物之间按先后顺序发生的规律。这类序列规律能够检测出时间序列相关的事件。例如,预测一位开了活期账户的银行顾客在办理投资账户一年内,一定会开定期账户。


● 预测是根据过去发生的事件,预言特定事物未来的发展状况,例如,预测超级碗的冠军或是预告某一天的具体温度。


● 聚类根据事物特性将其分组。例如,根据消费者的人口信息和以往购买信息将其划分到不同的市场分区。


这些类别的规律在过去几个世纪都是靠人工从数据中提取的。然而,现代社会中由于数据量剧增,我们需要更加自动化的分析方法。数据组规模更大,更加复杂,直接的人工数据分析已经逐渐为使用精密公式、方法和运算的自动化间接数据处理工具所取代。数据分析向这样自动化、半自动化方向的转变说明了数据挖掘已经愈来愈成为处理大型数据工作的代名词。


前文说过,通常而言,数据挖掘的任务和发现的规律可以分为三组:预测、关联、聚类。根据从历史数据中发现规律的方式不同,数据挖掘使用的运算方法可以分为有监督和无监督两种。有监督的运算,运算数据包括描述性特点(如独立变量或决策变量),也包括分类特点(如产出变量或结果变量)。相比之下,无监督的运算数据只有描述性特点。图2—3 展示了数据挖掘任务的一个简单分类,包括每种任务使用的方法和常用的运算公式。除了这三种类别,预测性规律或模型还可以划分为有监督的挖掘方法结果,练习和分组规律或模型则能够被划分到无监督结果的类别。


预测通常用于预言未来。不同于简单通过经验、观点或其他相关信息进行预言。与预测有紧密联系的一个词是“预报”(forecasting)。尽管许多人认为两者可以互换,但实际上它们存在着根本区别。预测很大程度上基于经验和观点,而预报则基于数据和模型。也就是说,根据结果的可靠程度,人们可以将这些词按照这样的顺序排列:猜测、预测、预报。在数据挖掘术语中,预测和预报是可以互换使用的,预测一词通常也用来指代这一活动。根据预测事物的特性,预测又可以分为分类(当被预测的事物属于某种类别时,如明天的天气是“晴”


或“有雨”)和回归(当被预测的事物是一个确定的数值,如明天的气温是“华氏65 度”)。


分类,或称为有监督归纳,是所有数据挖掘最常见的任务。分类的目的是分析历史数据,自动生成模型,预测未来发展。该模型由历史数据记录所隐含的一般规律组成,帮助分析潜在的类别分组。人们希望能够使用该模型对其他未经分类的数据进行分类。更重要的是,同时准确预测其未来的发展趋势。


常用的分类工具包括神经网络和决策树(来源于机器学习)、逻辑回归和无差别分析(来自传统统计学)以及新型的工具如粗糙集、支持向量机和遗传算法。


基于统计学的分类方法(如逻辑回归、无差别分析)存在着一定的缺陷,对数据作出了诸如独立性和正态化等不切实际的假设,这在一定程度上限制了其在分类型数据挖掘项目中的应用。


神经网络(见第5 章,我们将对这一常用机器学习算法作更为详细的介绍)包括建立数学结构(这一点类似于人脑的生物神经网络)以总结经验,挖掘结构化数据组信息。当涉及到的变量数量大、关系复杂模糊时,这种方法尤为有效。


当然,神经网络也有利有弊。举例来说,我们很难对神经网络作出的预测进行理性分析,而且,神经网络也需要经过大量的训练。需要进一步指出的是,神经网络训练所需的时间随着数据的增加而不断上升。一般而言,神经网络不能用于非常大的数据库。这些问题限制了其在大数据领域的应用能力。


决策树根据输入变量的值,将数据分为有限多个类别,从本质上来说是一组有层次的假设条件,因此比神经网络技术速度快得多。决策树技术最适合应用在无条件和间隔数据上。因此,将连续变量整合进一个决策树结构中需要将数据进行离散化——也就是将连续赋值的变量转化为范围和类别。


与分类工具相关的另一种类型是规则归纳。不同于决策树,规则归纳使用的假设条件直接从数据中归纳而出,本来就不需要具有层次和级别。另一方面,目前新型的工具粗糙集、支持向量机和遗传算法都在分类算法中寻得了一席之地,在第5 章中,我们会对其作进一步详细分析。


关联法通常在数据挖掘中被称为“关联规则”,是在大型数据库中探索变量间有趣关系的一种广受欢迎又经过充分研究的方法。得益于自动化数据收集技术,如条形码扫描。应用关联规则分析产品在超市收款处记录的大量交易数据里隐含的规律,已经是零售业众所周知的内容。在零售业中,关联规则通常被称为“市场篮子分析”。


关联规则的两个常用衍生产品是关联分析和序列挖掘。利用关联分析,能够自动检测相关事物之间的联系,例如,网页对学术出版物的引用与作者的关系。利用序列挖掘,能够按照时间的先后顺序检测出事物之间的联系来。关联规则常用的挖掘公式包括Apriori(用于频繁出现的事物)、FP-Growth、OneR、ZeroR、Eclat。第4 章中将介绍一个使用Apriori 的例子。

聚类是将一个事物集合(如物品、事件等以结构化数据库形式储存)划分为不同的组段(或者自然类别),同一组段的元素具有相似的属性。不同于分类,在聚类中,组别名称是不确定的。选择算法应用于数据组后,根据元素的特性发现它们的共同之处,建立聚类。由于聚类依据的是启发式算法,同一组数据,使用不同的公式会形成不同的聚类。在聚类结果付诸实际应用之前,应有专业人士对其进行整合和调整。在确定了合理聚类后,它们才能够对新数据进行分类和整合。


聚类技术中包含优化步骤,这一点不足为奇。聚类的目的就是创建组别,并且使同组中的元素相似度尽可能大,不同组间的元素相似度尽可能小。最常用的分组方法是统计学中的k-means 方法,和机械学习中的自组织映射,后者是Kohonen 于1982 年提出的一款独特的神经网络工程技术。

企业通常有效利用数据挖掘系统的聚类分析功能进行消费者分区。聚类分析将具有相似特性的数据分在同一组,该分析适合应用于消费者分区,便于企业在正确的时间以正确的价格将产品推销给适合的消费者。聚类分析也应用于确认不同事件或对象的自然分组,以便找出每一组的共同特定进行描述。


与数据挖掘有关的两大技术分别是可视化和时间序列预测。可视化可以与其他数据挖掘技术共同使用,深入了解事物之间暗含的联系。近年来随着可视化技术不断的发展,出现了“视觉分析学”一词。视觉分析学指的是在简单环境中将分析学与可视化技术结合起来,以便更快、更容易地创造新知识。我们将会在第4 章详细介绍视觉分析学的内容。在时间序列预测中,包含同一变量值的数据会按照时间的先后顺序收集起来,然后生成预测模型,预测该变量未来的取值。


大数据从何而来


最简单的答案就是:来自每个地方。那些先前因为技术条件限制而被忽略的数据源现在成为了数据金矿。大数据来源广泛,包括:博客、RFID 标签、GPS、传感器网络、社交网络、基于互联网的文本文档、互联网搜索索引、具体通话记录、天文学、大气科学、生物学、基因学、核物理学、生化实验、医学记录、科学实验、军事侦察、摄影档案、视频档案以及大型电子商务实例。


图7—1 的三层图表阐释了大数据的来源:传统数据源——大部分为商业交易——被列为基层梯队,体量、种类和速率落在低等到中等范围;中层梯队是互联网和社交媒体产生的数据,这些由人直接产生的数据在理解群体思想和感知方面也许是最复杂也是潜在价值最高的,这些数据的体量、种类和速率落在中等到高等范围;高层梯队是机器产生的数据。多种前端的数据收集系统都已经实现了自动化,加之事物的互联网化(将所有事物关联在一起),各种机构得以收集庞大、丰富的数据,这在几年前是不可想象的。这三个梯队的数据开创了丰富的数据资源,如果能够正确辨别和合理运用,机构将大大提升处理复杂问题的能力,把握更多的机会。


“大数据”并不是新生名词,新的是它不断变化的定义和内涵。20 世纪90年代数据仓库刚出现时,公司就开始储存、分析大量的数据。数据仓库时期的数据以“万亿字节”来表示,如今变成了“千万亿字节”,并且随着机构持续存储和分析更高层次的交易细节、网页和机器生成的数据以期更好地理解消费者行为和商业的驱动力,数据体量的增长速度也一直在突飞猛进。不少学术和行业分析师、领导者都认为“大数据”是一个不恰当的名称,字面意思和深层内涵并不统一。


也就是说,“大数据”并不仅仅是“大”而已,体量只是“大数据”众多特征之一而已,就和种类、速率、真实性、可变性和价值定位的地位一样。


定义“大数据”的V 们

大数据通常由三个V来定义:体量(Volume)、种类(Variety)、速率(Velocity)。除了这三个V 之外,一些提供大数据领域解决方案的领头羊们还提出其他的V,比如,真实性(Veracity,IBM提出),可变性(Variability,SAS 提出)和价值定位(Value proposition,学术和行业领域中每个人都这么说)。


体量

体量是大数据最基本的特征,多种原因导致了目前数据体量的指数爆炸式增长。例如,多年累积的交易数据、社交媒体日夜产生的文本数据、传感器数据、自动生成的RFID 和GPS 数据,等等。在过去,体量庞大的数据存储产生了各种技术问题和经济问题,现如今,随着技术的发展,存储成本也大大降低,老问题再也不会困扰我们,然而却有新的问题浮出水面。例如,如何确定数据间的相关性,如何创造相关数据的价值。


之前提到,“大”只是一个相对的词,随着时间的推移,其意义也在不断地发生变化,而不同的机构对“大”的理解也不尽相同。数据体量正以令人咋舌的速度增长,下一个级别的“大数据”命名也因此成为了一项挑战。先前数据的最大单位是拍字节(petabyte,PB),现在我们常用泽字节(zettabyte,ZB),这是吉字节(gigabyte,GB)的一兆倍,太字节(terabyte,TB)的十亿倍。在数据增长过程中,我们时常难以统一对下一个量级单位的全球命名。表7—1 是一张目前数据体量单位和命名的一览表。


想象一下,每天在互联网上要产生一个exabyte 的数据,相当于2.5 亿DVD的数据容量。而更高级别的单位——一个泽字节——也不是遥不可及,我们在讨论互联网一年中流通的信息时,就需要用到这一单位。事实上,行业专家估计到2016 年,互联网上每年流通的数据将会达到1.3 泽字节,紧接着我们也许就要谈论更高数量级的体量。有些大数据科学家甚至声称美国国家安全局和联邦调查局掌握了人们一个yottabyte 的数据。更直观地讲,一个yottabyte 相当于250 兆DVD 的存储容量。Brontobyte虽然还不是正式的SI 单位,但是已经得到了一些度量群体的承认。一个brontobyte 是1 后面加27 个零。这么大的体量可以用来衡量下一个十年时互联网的传感器数据量。当然,也可能不用等到十年之后,我们就可以用上这个单位。一吉字节是1030 字节。关于“大数据”到底从何而来,请参看以下说明:

● 在欧洲核子研究中心,大型强子对撞机每秒产生1PB 数据;

● 一架波音喷气飞机的传感器每小时产生20TB 数据;

● Facebook 数据库每天增加500TB 新数据;

● YouTube 上,每分钟有时长相当于72 小时的视频上传,也就是每4 分钟有1TB 数据;

● 提议建造的“平方公里阵列”天文望远镜(迄今为止,世界上最大的天文望远镜)每天将产生1EB 数据。

从短期历史的角度来看,到2009 年全球拥有0.8ZB 的数据;2010年,数据突破了1ZB 的标码;2011 年底达到1.8ZB。IBM 预估未来六到七年内,我们将有35ZB 的数据。这个数值令人无法置信,随之而来的挑战和机遇也同样惊人。


种类

如今数据的种类形式也是多种多样,从传统数据库到由终端用户和在线分析处理系统产生的层级数据存储,另外还有文本文档、邮件、XML 文本,计量器收集的、传感器捕获的数据,视频、音频数据,股票行情自动收录器的数据,等等。

有些人测算得出,80%~85% 的数据都是以非结构化或者半结构化的形式呈现的(即这些数据不适合传统数据库架构),但这并不影响这些数据自身的价值,所以我们还是要收录、分析这些数据来支持决策行为。


速率

根据全球著名的、备受尊敬的科技咨询公司高德纳公司定义,速率不仅意味着数据产生的速度,还表示要满足所需的数据处理(即捕获、存储、分析)速度。

RFID 标签、自动化传感器、GPS 设备和其他智能计量器驱动了在几近实时的时间内处理数据流的需求。速率也许是大数据最容易被人忽略的特征。对大多数机构来说,能达到快速反应的速率是一个不小的挑战。在一个时间敏感度极强的环境中,数据诞生的那一刻机遇成本之钟就开始走动了。随着时间的推移,数据的价值将逐步衰减,直到变得一文不值。不管主题是病人的健康、交通系统的健全还是投资组合的完善,快速获取数据,以先于情况变化的速度出击,总能够带来好的结果。

在我们目前所面临的大数据风暴中,几乎所有人的注意力都放在了静态的分析法上,人们利用优化后的软件和硬件系统挖掘大量变化的数据。虽然这样做很有必要,也能够产生有价值的结果,但是我们忽略了另外一种由大数据速率特征驱动的分析法——数据流分析法,或者称之为“动态分析法”。如果操作得当,数据流分析法的作用能够和静态分析法不相伯仲,在一些商务情境下,它甚至优于静态分析法。本章的后续部分我们将仔细讨论这个话题。


真实性

真实性是IBM 提出的大数据特征中的第四个V。真实性指的是“与事实一致”,即数据的准确性、质量、真实、值得信任。各类工具和技术在处理大数据的真实性时,一般是将数据转化为值得信任的洞见来比较数据真实与否。


可变性

数据的速率和种类在不断增加,数据流也可能与周期性高峰错位。与周期性高峰错位意味着我们将难以正确地、节约成本地开发数据基础设施。如果我们放入专门的资源来处理高峰时期的数据,就意味着在其他时间段这些资源很大程度上是空闲的。一种比较流行的解决办法是利用在“基础设施即服务”的商业模型上整合的资源。云计算、服务导向的建筑和大型并行处理使大中小型企业都能够顺利处理数据的可变性问题。


价值定位

大数据最令人兴奋的地方就在于价值定位。人们预想大数据包含(或者有更大的潜力包含)比小数据更多的模式和有趣的不规则现象。因此,机构能够从分析特征丰富的数据中获得更高的商业价值,其他方法并不能达到相同的效果。用户用简单的统计方法和机器学习方法,或者即席查询、报告工具也能够从小数据中发现一些模式,而大数据则代表了“大”分析、更广阔的视野以及更好的决策,任何一个机构都不会拒绝这样的好处。


大数据的精确定义问题仍然是一个学术界和各个领域正在进行中的讨论,也许会有更多的特征(也许是更多的V)被加入到特征清单中。不管如何变化,这份清单都会包含大数据的重要性和价值定位两个不可或缺的特征。


【工业4.0俱乐部简介】

工业4.0俱乐部为国内第一家为工业4.0和智能制造为主题的聚合共同体。秉承集聚、分享、共创、发展的理念,联合产、学、研、政等打造工业4.0产业生态联盟,为区域及企业产业升级转型提供一站式服务。


(长按二维码,关注工业4.0俱乐部)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存