查看原文
其他

漫画:什么是大数据

2016-11-08 梦见 大数据

感谢作者  玻璃猫 (订阅号 梦见  ID dreamsee321) 投稿,如需转载,请与作者联系授权事宜。










大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。


Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.




































大数据通常都拥有海量的数据存储。仅根据2013年的统计,互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。


面对这样规模的数据存储量,依靠单台数据库服务器显然是不够的,需要以分布式文件系统(例如 HDFS)作为基石。











在传统的关系型数据库中,所存储的数据都是结构化的,例如:


     


但是在现实生活中,信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为:


用户张三, 于某某时间在商品搜索栏搜索了“苹果手机”一词,然后进入 XXX 商铺进行浏览,经过与店家沟通,讨价还价,最终以6000元的价格购买了 iPhone 7 “钢琴黑”款式手机一部。


诸如此类的用户行为数据属于非结构化数据,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 HBase)成为了存储大数据的更好选择。









如果没有更加快速有效的海量数据解决方案,那么如此大量多样的数据不但没有带来更多价值,反而成为了系统的负担。关于这一点,谷歌公司率先提出的MapReduce模型为我们带来了新的道路。


MapReduce可以简单的理解成一种分治方法:把庞大的任务分成若干小任务,交给多个节点进行并行处理,然后再把所有节点的处理结果合并起来,从而大大提升了数据处理效率。(关于MapReduce的详细流程,将会在以后的文章中进行讲解。)











人工智能:




以大数据作为机器学习的训练集,从而训练出拥有一定决策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通过大量围棋棋局的学习,最终拥有了打败围棋世界冠军的能力。



商业分析:




从大量的用户行为数据中挖掘出有价值的商业信息。典型代表是著名社交公司LinkedIn,他们通过用户之间的关联关系,绘画出学校、公司、人才之间庞大而复杂的信息网络。不仅如此,LinkedIn还通过大量求职者和招聘方的信息,分析出哪些公司正在迅速扩张,哪些公司正在流失人才,哪些公司之间正在展开人才市场的争夺。这些对于客户公司来说,都是无价之宝。



犯罪预测:




洛杉矶警察局曾经借助一套原本用于预测地震后余震的大数据模型,把过去80年内的130万个犯罪记录数据输入进去,结果发现其预测出的犯罪高发地点与现实惊人的吻合。后来该预测算法经过改进,已经成为了当地警局重要的参考依据,大大降低了当地的犯罪率。







这里所介绍的相关知识,只是作者对于大数据领域的浅层次理解。通过这篇漫画,希望没有从事过IT行业,或者不了解大数据的朋友们能够对大数据有一些初步的认知。


希望有经验的朋友们对本文提出宝贵意见,指出其中的纰漏和不足,非常感谢!




欲看更多精彩内容,欢迎关注订阅号 梦见



近期精彩活动(直接点击查看):

福利 · 阅读 | 免费申请读大数据新书 第13期 



END


投稿和反馈请发邮件至holly0801@163.com,谢谢!


大数据


为大家提供与大数据相关的最新技术和资讯。


长按指纹 > 识别图中二维码 > 添加关注


近期精彩文章(直接点击查看):

160904 2016年创业公司死亡名单:融资10亿、用户千万也救不活了!

160830 被失业!未来六大传统产业将这样被颠覆(超现实)

160829 为何你只能做出渣图表?数据可视化的十大误区

160828 2分钟读懂大数据框架Hadoop和Spark的异同

160827 说说什么是数据挖掘

160823 裁员浪潮+寒冬大逃杀,互联网人该何去何从? 

160820 39个大数据可视化工具,哪个才是你的菜? 

160816 上班族每次在地铁上花费37分钟,经过9.78站|2号线是上海经济命脉|上海地铁数据趣味研究

160812 五亿姓名数据分析|TF-IDF算法揭秘中国人名密码

160803 傅盛:深度学习是什么?

160731 力荐!大数据等各种IT技能图谱(全套13张)

160716 2016年上半年大数据方向就业形势重磅出炉

160714 关于反爬虫,看这一篇就够了

160710 他是比尔盖茨的偶像,用50年写出编程圣经,被奉为程序员鼻祖

160627 Hadoop创始人Doug Cutting谈未来大数据的技术

160614 世界顶尖数据科学家看未来十年大数据发展

160606 为不擅长编程的人准备的19个数据科学工具 

160522 长文 | 大数据思维的十大原理

160520 不让谷歌进来是对的。。。

160519 史上最全的大数据分析和制作工具

更多精彩文章,请在公众号后台回复000查看,谢谢。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存