查看原文
其他

新晋“小白”眼中的大数据世界

mint 大数据与人工智能 2019-10-31
点击标题下「蓝色微信名」可快速关注

TedTalk创始人DanAriely是这样调侃大数据的,他说:”大数据就像未成年人眼中的性行为,每个人都在讨论它,没人知道怎么搞,每个人都以为其他人在搞,所以每个人都宣称他们在搞”。

啊哈,interesting……

So,little boy,如此撩人的大数据行业,有没有成功吸引到你呢?反正笔者已经中招了,哈哈,偶然一次实习机会接触过以后,笔者就毅然决然、连滚带爬的来到了大数据门前,她是如此神秘、美丽,有时还有那么点小俏皮,她总是能在不经意间给你创造惊喜,额……当然,也可能是惊吓。她总是显得那么博学,对比,笔者可是深深折服啊。

“魔镜,魔镜,告诉我,谁是世界上最美丽的人?”,你是不是还觉得这段话停留在童话故事里,如果你真想知道的话,大数据能够准确无误的告诉你答案,神不神奇?你有想过修炼仙术延长寿命吗,是不是觉得不可能,大数据告诉你,有个叫乔布斯的凡人利用大数据,延长了好几年的寿命呢,惊不惊喜?想脱单吗?国外有个小伙可是利用大数据成功为自己找到了适合的另一半哦!

大数据就是这么优秀,为了得到她,笔者费尽心思的去了解她,毕竟,了解往往是成功牵手的第一步,下面,笔者把对大数据的一点粗浅认知整理一番来跟大家分享一下,欢迎吐槽!

1日常工作初印象

说起来,大数据工作者好像每天都是动辄千万级的case,哈哈,是不是听着振奋人心,可是要想把这千万级别的数据转化为千万级别的真金白银,作为一个行业"小白",摆在笔者面前的首先是一堆需要去学习和了解的技术和框架,以及一堆的疑问,千万级的数据怎么收集起来的?它们得放在哪啊?这些数据有什么用?我该怎么用它们?

伴着这些疑问,欢迎大家来到新晋“小白”目前身处的大数据世界逛一逛。

2千万级的数据怎么收集起来的?

为了弄清楚这个问题,笔者抓住了每次部门大牛给新伙伴培训的机会,默默整理了一下目前工作中处理的数据来源和组织方式:

首先,产品、运营、编辑、技术等各部门一起制定产品下一个版本的打点需求,需求评审完,数据部门会在相应的日志定义平台上进行新打点需求的日志定义,前端小伙伴依据日志定义进行用户行为埋点,新版本发布,数据将通过上图所示流程来到hdfs上供使用和处理分析。

3千万级的数据都在哪?

大数据,大数据,既然是所谓的超大数据量,那么大家是不是最开始都跟笔者一样,好奇数据放在哪里的呢?上文提到笔者工作中所使用的数据收集上来以后是存储在HDFS上,HDFS是专门存储超大数据文件的,为整个Hadoop生态圈提供了基础的存储服务。

当初想要搞清楚这个问题的答案的时候,了解到数据分为实时数据和离线数据,因此相应的存储也不一样。

笔者日常工作中的实时数据是利用kafka作为消息中间件,而近实时数据和离线数据分别存储在HBase和HDFS上,原因如下:

  • HBase数据导入到查询延时较小,一般应用于近实时数据;

  • HDFS容量大,获取整个文件速度慢,无法查询单条内容,故适合存储离线原始数据。

针对尚未提及但又十分重要的NoSQL数据库特别说明一下,所谓NoSQL,就是not only sql的简称,是非关系数据库,实际上,HBase即为NoSQL数据库。



4数据的提炼

当你拥有了如此海量的数据,而又有人告诉你,它里面蕴藏着无数的宝石待你挖掘的时候,你是不是在想,我怎么才能挖得到。答案就是,需要掌握一系列牛叉的大数据处理技术。

大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,因为最终是否真的提炼出来的是宝石,很大程度取决于数据质量。通常,一个好的大数据产品要有一定的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释。

以最终得到一张可视化报表为例,其大致流程如下:

首先,原始数据经过的是数仓体系建设里的第一道工序ETL,结果存在hive上的ods_view视图层。

然后,ods视图层的数据再通过我们使用的星型物理模型维度表和事实表建设这一套工序,得到主题模型层;

接下来,就需要结合实际的应用来构建业务应用层,以方便快速响应业务方的日常工作需求。

最后,依据具体的业务需求,使用spark、hive等得到统计结果,使用tableau等可视化工具进行可视化,得到可视化报表。

当然,数据最终的应用肯定不是如此简单,笔者资历尚浅,将来如能钻得更深,将数据应用得更为有价值,将继续与大家进行分享。

非大数据行业的读者们,有没有get到你平时看到的一张报表的来之不易,有没有觉得大数据团队的小伙伴还是挺厉害的,哈哈。同行小伙伴们,以上种种你们肯定都会了吧,如果这都没有,那你要赶紧努力去敲开这座皇宫的大门啦。如果你啥都会了,只想说:"你肯定在挖大宝石了吧,好羡慕。" 我也会继续加油的,fighting......

5结束语

嗯,就这么结束了,这就是笔者的“毕前半生所学”,好单薄。

笔者只希望通过这篇文章能让完全没接触过大数据的读者,在花费宝贵时间看完以后,对大数据有了那么点概念和认知,比如,你至少应该有惊叹于大数据居然能延长寿命吧,有了解到原来整个这么复杂,需要经过这么多工序,平时看到的报表原来这么不容易。

其次就是希望准备加入大数据领域大展拳脚的未来之星们,对你需要去学习的东西多了那么点认知和心理准备,至于要学的技术到底有多少,允许笔者将下图奉上(转自网络图片), 嗯.......祝你成功挖到宝石,学得开心哦!



更多精彩内容

长按扫码可关注


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存