查看原文
其他

【周四阅读】深度科普 | 什么是大数据?

2017-03-30 十万个IT为什么

随着IT解决方案越写越多,需要科普的知识也要跟上节奏……


作者:Sam  编辑:曼曼掏粪工


近些年来,大数据越来越火热,但是有不少网友对大数据基本的概念还有些模糊。从字面上来看,大数据就是比较大的数据。那么这个“大”到底是指形状大,还是数量大呢?同时,这个大数据有什么技术要点,它到底又有什么样的前景呢?下面我们将一一解答。




一、BIG DATA概述

大数据(Big Data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。


大数据特点包括:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。


大数据的特点

从数量庞大、多样化的高速数据中联系上下文提取真知灼见,从而做到以前所不可能做到的事情。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。

·多样性Variety:管理多种关系和非关系数据类型及架构的复杂性

·速度Velocity:流数据和大批量数据移动

·数量Volume:从 TB 扩展到 ZB

·价值Value:物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。




二、BIG DATA技术要点

Big Data技术主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。


缓存篇

缓存在Web开发中运用越来越广泛,mem-cached是danga(运营LiveJournal的技术团队)开发的一套分布式内存对象缓存系统,用于在动态系统中减少数据库负载,提升性能。memcached具有以下特点:协议简单;基于libevent的事件处理;内置内存存储方式;memcached不互相通信的分布式。

Memcached处理的原子是每一个(Key,Value)对(以下简称KV对),Key会通过一个hash算法转化成hash-Key,便于查找、对比以及做到尽可能的散列。同时,memcached用的是一个二级散列,通过一张大hash表来维护。memcached由两个核心组件组成:服务端(ms)和客户端(mc),在一个memcached的查询中,ms先通过计算Key的hash值来确定KV对所处在的ms位置。当ms确定后,mc就会发送一个查询请求给对应的ms,让它来查找确切的数据。因为这之间没有交互以及多播协议,所以memcached交互带给网络的影响是最小化的。


分布式文件系统篇

谈到分布式文件系统,不得不提的是Google的GFS。基于大量安装有Linux操作系统的普通PC构成的集群系统,整个集群系统由一台Master(通常有几台备份)和若干台TrunkServer构成。GFS中文件备份成固定大小的Trunk分别存储在不同的TrunkServer上,每个Trunk有多份(通常为3份)拷贝,也存储在不同的TrunkServer上。Master负责维护GFS中的 Metadata,即文件名及其Trunk信息。客户端先从Master上得到文件的Metadata,根据要读取的数据在文件中的位置与相应的TrunkServer通信,获取文件数据。在Google的论文发表后,就诞生了Hadoop。截至今日,Hadoop被很多中国最大互联网公司所追捧,百度的搜索日志分析,腾讯、淘宝和支付宝的数据仓库都可以看到Hadoop的身影  。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据存储和计算任务。Hive是一个基于Hadoop的数据仓库平台,将转化为相应的MapReduce程序基于Hadoop执行。通过Hive,开发人员可以方便地进行ETL开发。


NAME/MASTER节点:主要存储与数据文件相关的元数据。元数据包括一个能将64位标签映射到数据块的位置及其组成文件的表格,数据块副本位置和哪个进程正在读写特定的数据块等。还有Master节点会周期性地接收从每个Chunk节点来的更新("Heart-beat")来让元数据保持最新状态。

GFS设计上主要有八个特点:

·大文件和大数据块:数据文件的大小普遍在GB级别,而且其每个数据块默认大小为64MB,这样做的好处是减少了元数据的大小,能使Master节点能够非常方便地将元数据放置在内存中以提升访问效率。

·操作以添加为主:因为文件很少被删减或者覆盖,通常只是进行添加或者读取操作,这样能充分考虑到硬盘线性吞吐量大和随机读写慢的特点。

·支持容错:首先,虽然当时为了设计方便,采用了单Master的方案,但是整个系统会保证每个Master都会有其相对应的复制品,以便于在 Master节点出现问题时进行切换。其次,在Chunk层,GFS已经在设计上将节点失败视为常态,所以能非常好地处理Chunk节点失效的问题。

·高吞吐量:虽然其单个节点的性能无论是从吞吐量还是延迟都很普通,但因为其支持上千的节点,所以总的数据吞吐量是非常惊人的。

·保护数据:首先,文件被分割成固定尺寸的数据块以便于保存,而且每个数据块都会被系统复制三份。

·扩展能力强:因为元数据偏小,使得一个Master节点能控制上千个存数据的Chunk节点。

·支持压缩:对于那些稍旧的文件,可以通过对它进行压缩,来节省硬盘空间,并且压缩率非常惊人,有时甚至接近90%。

·用户空间:虽然在用户空间运行在运行效率方面稍差,但是更便于开发和测试,还有能更好利用Linux的自带的一些POSIX API。


NoSQL

随着数据量增长,越来越多的人关注NoSQL,特别是2010年下半年,Facebook选择来做实时消息替换原来开发的Cassandra系统。这使得很多人开始关注HBase。Facebook选择HBase是基于短期小批量临时数据和长期增长的很少被访问到的数据这两个需求来考虑的。

HBase是一个高可靠性、高性能、面向列、可伸缩的利用HBase技术可在廉价PC Server上搭建大规模结构化存储集群。HBase是BigTable的开源实现,使用HDFS作为其文件存储系统。Google运行MapReduce来处理BigTable中的海量数据,HBase同样利用MapReduce来处理HBase中的海量数据;BigTable利用Chubby作为协同服务,HBase则利用Zookeeper作为对应。

近来NoSQL数据库的使用越来越普及,几乎所有的大型互联网公司都在这个领域进行着实践和探索。在享受了这类数据库与生俱来的扩展性、、高读写吞吐外(尽管各主流NoSQL仍在不断完善中),越来越多的实际需求把人们带到了NoSQL并不擅长的其他领域,搜索、准实时统计分析、简单事务等。实践中一般会在NoSQL的外围组合一些其他技术形成一个




三、BIG DATA前景

 “大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,和SAP花了超过15亿美元的在智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。大数据已经出现,因为我们生活在一个中有更多的东西,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。预计,到2013年,在互联网上流动的交通量将达到每年667


手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生。谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。


未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。




四、System x Big Data Solution

System x 大数据平台的定义…

针对 V3 的平台 – 多样性、速度、数量

·多样性 -“按原样”管理数据和内容

·可处理任何速度 - 低延迟流和大批次

·数量 – 大量静态数据和流数据


针对 V3 的分析功能

·以数据来源原本的格式分析它们 - 文本、视频、音频

·分析所有数据 - 而不是其中的一部分

· 动态分析 – 自动调整和操作


开发人员和用户可轻松使用

·开发人员用户界面、通用语言和自动优化

·最终用户用户界面和直观显示


企业级

·容错能力、安全性和隐私性

·扩展成本经济合算


丰富的集成功能

·可集成众多种来源

·可利用企业集成技术




System x 的端到端,整体解决方案

InfoSphere BigInsights – 静态海量数据存储与分析平台

InfoSphere BigInsights是 IBM 的管理和分析Internet级别数据量的半结构化和非结构化数据的强大易用方案,此方案基于开源Apache Hadoop的框架实现。InfoSphere BigInsights在此框架上增加了IBM独特的技术优势,如管理能力,工作流,安全管理,并融入了IBM研究实验室的独特和领先的数据分析,机器学习技术以及文本数据分析挖掘。所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。

BigInsights并不是对数据仓库的替换方案,它是对传统数据仓库的一种补充和延伸,整体构成一个更广义的的Internet级别的海量数据仓库。

基于SNC的解决方案

InfoSphere BigInsights 架构


推荐阅读

【周一阅读】掌握数据就是掌握了客户(福利最后一波)

【周二阅读】深度解析 | 工程师让你分分钟看懂高可用

【周三阅读】联想的IT变革和“双态战略”指引(文末有福利)

【周四阅读】“互联网+”转型时代:硬件建设是基础,应用才是根本目的!(文末依旧有福利)

每日推送一篇IT干货、新鲜科技、创意潮品,以及IT小知识等等。

给你千万个理由关注:

十万个IT为什么

不要等!

即刻长按二维码

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存