五分钟学大数据 | 自由微信 | FreeWeChat

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

五分钟学大数据

基于OneData的数据仓库建设

本文目录：一、指导思想二、数据调研三、架构设计四、指标体系搭建五、模型设计六、维度设计七、事实表设计八、其他规范OneData是阿里巴巴内部进行数据整合和管理方法体系和工具。一、指导思想首先，要进行充分的业务调研和需求分析。其次，进行数据总体架构设计，主要是根据数据域对数据进行划分；按照维度建模理论，构建总线矩阵，抽象出业务过程和维度。再次，对报表需求进行抽象整理出相关指标体系，使用OneData工具完成指标规范定义和模型设计。最后，是代码研发和运维。其实施流程主要分为：数据调研、架构设计、规范定义和模型设计。二、数据调研1.

2021年11月19日

五万字 | 耗时一个月，整理出这份Hadoop吐血宝典

五万字Hadoop吐血宝典，由公众号【五分钟学大数据】全网首发。Hadoop涉及的知识点如下图所示，文档中全部包含：下载方式：小伙伴可以在我公众号（五分钟学大数据）后台回复「hadoop」获取完整PDF版（无套路，直接下载）👆可截图当前二维码，微信扫描后关注后回复「hadoop」文档目录如下：扫描下方二维码，对话框发送：hadoop

五分钟学大数据 -

2021年11月12日

美团数据平台及数仓建设实践，超十万字总结

美团技术团队的博客质量非常高，里面有许多关于大数据的文章，具有很大的参考价值。美团技术博客地址：https://tech.meituan.com但是博客功能简陋，没有基本的搜索功能，这对于我们查找相关文章非常不易。所以我把美团技术团队博客上关于大数据的文章，并且质量非常高的文章给整理了下来，按照离线数仓，实时数仓，数据平台，数据治理，数据分析等分类。组成了一本高质量的《美团数据平台及数仓建设实践》超全文档！整理的文档结构非常清晰，排版非常简洁，非常有利于我们查找及阅读。文档总共290页，10万多字，完全就是一本大数据书籍，并且比大部分书籍质量都高（因为这是美团数十名大数据技术专家的文章合辑）。这是能够真真正正将其中的实践经验，开发规范等应用到我们的实际工作中，

五分钟学大数据 -

2021年11月11日

最强最全面的数仓建设规范指南（纯干货建议收藏）

进入主页，点击右上角“设为星标”比别人更快接收好文章本文将全面讲解数仓建设规范，从数据模型规范，到数仓公共规范，数仓各层规范，最后到数仓命名规范，包括表命名，指标字段命名规范等！目录：一、数据模型架构原则数仓分层原则主题域划分原则数据模型设计原则二、数仓公共开发规范层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处理规范表的生命周期管理三、数仓各层开发规范ODS层设计规范公共维度层设计规范DWD明细层设计规范DWS公共汇总层设计规范四、数仓命名规范词根设计规范表命名规范指标命名规范一、数据模型架构原则1.

2021年11月10日

数据仓库之数据质量建设（深度好文）

进入主页，点击右上角“设为星标”比别人更快接收好文章数仓建设真正的难点不在于数仓设计，而在于后续业务发展起来，业务线变的庞大之后的数据治理，而数据治理的范围非常广，包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中，大家想下最重要的治理是什么？当然是数据质量治理，因为数据质量是数据分析结论有效性和准确性的基础，也是这一切的前提。所以如何保障数据质量，确保数据可用性是数据仓库建设中不容忽视的环节。数据质量涉及的范围也很广，贯穿数仓的整个生命周期，从数据产生->数据接入->数据存储->数据处理->数据输出->数据展示，每个阶段都需要质量治理。在系统建设的各个阶段都应该根据标准进行数据质量检测和规范，及时进行治理，避免事后的清洗工作。1.

2021年9月22日

数仓中指标-标签，维度-度量，自然键-代理键等常见的概念术语解析

作为一个数据人，是不是经常被各种名词围绕，是不是对其中很多概念认知模糊。有些词虽然只有一字之差，但是它们意思完全不同，今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。建议大家收藏此文，以后遇到不熟悉的概念可以在本篇文章中查找下本文结构如下图所示：一、数仓中常见概念解析1.

2021年9月1日

关于数仓建设及数据治理的超全概括

进入主页，点击右上角“设为星标”比别人更快接收好文章本文分为两大节介绍，第一节是数仓建设，第二节是数据治理，内容较长，还请耐心阅读！在谈数仓之前，先来看下面几个问题：数仓为什么要分层？用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。数据仓库之父

2021年7月21日

一文读懂大数据实时计算（好文收藏）

进入主页，点击右上角“设为星标”比别人更快接收好文章本文分为四个章节介绍实时计算，第一节介绍实时计算出现的原因及概念；第二节介绍实时计算的应用场景；第三节介绍实时计算常见的架构；第四节是实时数仓解决方案。一、实时计算实时计算一般都是针对海量数据进行的，并且要求为秒级。由于大数据兴起之初，Hadoop并没有给出实时计算解决方案，随后Storm，SparkStreaming，Flink等实时计算框架应运而生，而Kafka，ES的兴起使得实时计算领域的技术越来越完善，而随着物联网，机器学习等技术的推广，实时流式计算将在这些领域得到充分的应用。实时计算的三个特征：无限数据：无限数据指的是一种不断增长的，基本上无限的数据集。这些通常被称为“流数据”，而与之相对的是有限的数据集。无界数据处理：一种持续的数据处理模式,能够通过处理引擎重复的去处理上面的无限数据，是能够突破有限数据处理引擎的瓶颈的。低延迟：延迟是多少并没有明确的定义。但我们都知道数据的价值将随着时间的流逝降低，时效性将是需要持续解决的问题。现在大数据应用比较火爆的领域，比如推荐系统在实践之初受技术所限，可能要一分钟，一小时，甚至更久对用户进行推荐，这远远不能满足需要，我们需要更快的完成对数据的处理，而不是进行离线的批处理。二、实时计算应用场景随着实时技术发展趋于成熟，实时计算应用越来越广泛，以下仅列举常见的几种实时计算的应用常见：1.

五分钟学大数据 -

2021年7月5日

一文学会Hive解析Json数组（好文收藏）

进入主页，点击右上角“设为星标”比别人更快接收好文章在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平台调用数据时，要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。Hive自带的json解析函数1.

五分钟学大数据 -

2021年4月28日

Hive千亿级数据倾斜解决方案（好文收藏）

进入主页，点击右上角“设为星标”比别人更快接收好文章数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个任务的数据量只有几百万，它即使发生了数据倾斜，所有数据都跑到一台机器去执行，对于几百万的数据量，一台机器执行起来还是毫无压力的，这时数据倾斜对我们感知不大，只有数据达到一个量级时，一台机器应付不了这么多数据，这时如果发生数据倾斜，最后就很难算出结果。所以就需要我们对数据倾斜的问题进行优化，尽量避免或减轻数据倾斜带来的影响。在解决数据倾斜问题之前，还要再提一句：没有瓶颈时谈论优化，都是自寻烦恼。大家想想，在map和reduce两个阶段中，最容易出现数据倾斜的就是reduce阶段，因为map到reduce会经过shuffle阶段，在shuffle中默认会按照key进行hash，如果相同的key过多，那么hash的结果就是大量相同的key进入到同一个reduce中，导致数据倾斜。那么有没有可能在map阶段就发生数据倾斜呢，是有这种可能的。一个任务中，数据文件在进入map阶段之前会进行切分，默认是128M一个数据块，但是如果当对文件使用GZIP压缩等不支持文件分割操作的压缩方式时，MR任务读取压缩后的文件时，是对它切分不了的，该压缩文件只会被一个任务所读取，如果有一个超大的不可切分的压缩文件被一个map读取时，就会发生map阶段的数据倾斜。所以，从本质上来说，发生数据倾斜的原因有两种：一是任务中需要处理大量相同的key的数据。二是任务读取不可分割的大文件。数据倾斜解决方案MapReduce和Spark中的数据倾斜解决方案原理都是类似的，以下讨论Hive使用MapReduce引擎引发的数据倾斜，Spark数据倾斜也可以此为参照。1.

五分钟学大数据 -

2021年4月22日

以直播平台监控用户弹幕为例详解 Flink CEP

CEP是一个基于Flink的复杂事件处理库，可以从多个数据流中发现复杂事件，识别有意义的事件（例如机会或者威胁），并尽快的做出响应，而不是需要等待几天或则几个月相当长的时间，才发现问题。Flink

五分钟学大数据 -

2021年4月16日

Hive企业级性能优化（好文建议收藏）

进入主页，点击右上角“设为星标”比别人更快接收好文章Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。Hive性能问题排查方式当我们发现一条SQL语句执行时间过长或者不合理时，我们就要考虑对SQL进行优化，优化首先得进行问题排查，那么我们可以通过哪些方式进行排查呢。经常使用关系型数据库的同学可能知道关系型数据库的优化的诀窍-看执行计划。如Oracle数据库，它有多种类型的执行计划，通过多种执行计划的配合使用，可以看到根据统计信息推演的执行计划，即Oracle推断出来的未真正运行的执行计划；能够观察到从数据读取到最终呈现的主要过程和中间的量化数据。可以说，在Oracle开发领域，掌握合适的环节，选用不同的执行计划，SQL调优就不是一件难事。Hive中也有执行计划，但是Hive的执行计划都是预测的，这点不像Oracle和SQL

五分钟学大数据 -

2021年4月12日

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

模式对以上源表数据进行建模，需要将数据抽取为实体-关系模式，根据源表的数据，我们将表拆分为：用户实体表，订单实体表，城市信息实体表，用户与城市信息关系表，用户与用户等级关系表等多个子模块：①

五分钟学大数据 -

2021年4月7日

Spark性能调优-Shuffle调优及故障排除篇（万字好文）

进入主页，点击右上角“设为星标”比别人更快接收好文章Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念；然后针对HashShuffle、SortShuffle进行调优；接下来对map端、reduce端调优；再针对Spark中的数据倾斜问题进行剖析及调优；最后是Spark运行过程中的故障排除。一、Shuffle的核心概念1.

五分钟学大数据 -

2021年3月23日

万字详解整个数据仓库建设体系（好文值得收藏）

Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：a.

五分钟学大数据 -

2021年3月18日

硬核！一文学完Flink流计算常用算子（Flink算子大全）

进入主页，点击右上角“设为星标”比别人更快接收好文章直入正题！Flink和Spark类似，也是一种一站式处理的框架；既可以进行批处理（DataSet），也可以进行实时处理（DataStream）。所以下面将Flink的算子分为两大类：一类是DataSet，一类是DataStream。DataSet一、Source算子1.

五分钟学大数据 -

2021年3月12日

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如下图所示：RDD的重复计算对上图中的RDD计算架构进行修改，得到如下图所示的优化结果：RDD架构优化2.

五分钟学大数据 -

2021年3月4日

结合公司业务分析离线数仓建设

这样正向流动，可以防止因数据引用不规范而造成数据链路混乱及SLA时效难保障等问题，同时保证血缘关系简洁化，能够轻易追踪数据流向。在开发时应避免以下情况出现：数据引用链路不正确，如

五分钟学大数据 -

2021年2月25日

Hive底层原理：explain执行计划详解

partition；partial：局部聚合；final：最终聚合keys：分组的字段，如果没有分组，则没有此字段outputColumnNames：聚合之后输出列名Statistics：

五分钟学大数据 -

2021年2月20日

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

文件读取过程Client向NameNode发起RPC请求，来确定请求文件block所在的位置；NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode

五分钟学大数据 -

2021年2月8日

硬核！八张图搞懂 Flink 端到端精准一次处理语义 Exactly-once（深入原理，建议收藏）

消息，告诉协调者目前无法提交事务。第二阶段：提交阶段协调者收集来自各个参与者的表决消息。如果所有参与者一致认为可以提交事务，那么协调者决定事务的最终提交，在此情形下协调者向所有参与者发送一个

五分钟学大数据 -

2021年2月3日

Spark底层执行原理详细解析(深度好文，建议收藏)

Executor进程专属每个Application获取专属的Executor进程，该进程在Application期间一直驻留，并以多线程方式运行Tasks。Spark

五分钟学大数据 -

2021年1月29日

Flink可靠性的基石-checkpoint机制详细解析

次。请参考下面的可用重启策略来了解哪些值是支持的。每个重启策略都有自己的参数来控制它的行为，这些值也可以在配置文件中设置，每个重启策略的描述都包含着各自的配置值信息。重启策略重启策略值Fixed

五分钟学大数据 -

2021年1月27日

Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)

.sum("carCnt")2223//5.显示统计结果24ds2.print()2526//6.触发流计算27env.execute(this.getClass.getName)Window

五分钟学大数据 -

2021年1月25日

九个最容易出错的 Hive sql 详解及使用注意事项

五分钟学大数据，致力于大数据技术研究，如果你有任何问题或建议，可添加底部小编微信或直接后台留言阅读本文小建议：本文适合细嚼慢咽，不要一目十行，不然会错过很多有价值的细节。前言在进行数仓搭建和数据分析时最常用的就是

五分钟学大数据 -

2021年1月12日

数仓建设中最常用模型--Kimball维度建模详解

五分钟学大数据，致力于大数据技术研究，如果你有任何问题或建议，可添加底部小编微信或直接后台留言数仓建模首推书籍《数据仓库工具箱：维度建模权威指南》，本篇文章参考此书而作。文章首发公众号：五分钟学大数据，公众号中发送“维度建模”即可获取此书籍第三版电子书先来介绍下此书，此书是基于作者

五分钟学大数据 -

2021年1月11日

数仓面试高频考点--解决hive小文件过多问题

方式可以导入文件或文件夹，当导入一个文件时，hive表就有一个文件，当导入文件夹时，hive表的文件数量为文件夹下所有文件的数量通过查询方式加载数据insert

五分钟学大数据 -

2021年1月10日