大数据私房菜

其他

一文探究Hadoop(3万字长文,建议收藏)

17HDFS的java操作hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件3.7.1
2020年12月22日
其他

一文带你全方位(架构,原理及代码实现)了解Flink(3.2W字建议收藏)

flink-1.11.1-bin-scala_2.11.tgz)3.修改conf下面的flink-conf.yaml文件#指定jobmanager的地址jobmanager.rpc.address:
2020年12月1日
其他

非常全面的DolphinScheduler(海豚调度)安装使用文档

当一个工作流中,如果有一个或几个task执行失败,可以有继续和结束两种处理策略.继续策略:当其中一个或几个节点失败时,只有依赖它的节点会全部停止执行.而与它没有依赖关系,并行的节点仍将继续执行.
2020年11月8日
其他

一文带你深入了解kafka并提供52道企业常见面试题

当一个group中,有consumer加入或者离开时,会触发partitions均衡.均衡的最终目的,是提升topic的并发消费能力,步骤如下:假如topic1,具有如下partitions:
2020年11月2日
其他

一文带你走进HIVE的世界(1.8W字建议收藏)

hive.cli.print.header=true;但是这样设置只对当前会话有效,重启hive会话后就失效,解决办法:在linux的当前用户目录中,编辑一个.hiverc文件,将参数写入其中:vi
2020年10月29日
其他

你要悄悄学会HBase,然后惊艳所有人(1.7万字建议收藏)

布隆过滤器是hbase中的高级功能,它能够减少特定访问模式(get/scan)下的查询时间。不过由于这种模式增加了内存和存储的负担,所以被默认为关闭状态。hbase支持如下类型的布隆过滤器:NONE
2020年10月23日
其他

详解MapReduce执行流程

join(on&where)大厂高频面试题-连续登录问题朋友面试数据研发岗遇到的面试题简单聊一聊大数据学习之路朋友面试数据专家岗遇到的面试题HADOOP快速入门数仓工程师的利器-HIVE详解
2020年10月21日
其他

Hive与HBase的区别及应用场景

byHive调优,数据工程师成神之路数据质量那点事简述元数据管理你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年10月20日
其他

一文探究数据仓库体系(2.7万字建议收藏)

DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
2020年10月19日
其他

HBase应该如何优化?

byHive调优,数据工程师成神之路数据质量那点事简述元数据管理你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年10月18日
其他

HBase二级索引设计思想

byHive调优,数据工程师成神之路数据质量那点事简述元数据管理你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年10月17日
其他

简单讲讲布隆过滤器及其在HBase中的应用

布隆过滤器是hbase中的高级功能,它能够减少特定访问模式(get/scan)下的查询时间。不过由于这种模式增加了内存和存储的负担,所以被默认为关闭状态。hbase支持如下类型的布隆过滤器:NONE
2020年10月16日
其他

HBase-Rowkey设计

热点问题是大量的客户端只访问集群的一个或少数节点,大量访问请求会使该台机器的负载很高,直接导致性能下降,甚至Region不可用,而集群的其他节点却处于相对空闲的状态。3Rowkey设计原则1长度
2020年10月15日
自由知乎 自由微博
其他

数据库和数据仓库

byHive调优,数据工程师成神之路数据质量那点事简述元数据管理你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年10月12日
其他

Yarn的资源调度流程

byHive调优,数据工程师成神之路数据质量那点事简述元数据管理你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年10月11日
其他

HDFS读写流程

HDFS写流程客户端跟namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在,用户是否有权限等namenode返回是否可以上传client请求第一个
2020年10月10日
其他

数据建模知多少?

数据建模简单来说就是基于对业务的理解,将各种数据进行整合和关联,并最终使得这些数据可用性,可读性增强,让使用方能快速的获取到自己关心的有价值的信息并且及时的作出响应,为公司带来效益。3为什么要建模
2020年10月9日
其他

HIVE之UDF函数开发

byHive调优,数据工程师成神之路数据质量那点事简述元数据管理你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年10月7日
其他

Kimball架构和Inmon架构

Kimball架构利用了CIF中处于中心地位的EDW,但是此次的EDW完全与分析与报表用户隔离,仅作为数据来源,其中数据是维度的,原子的,以过程为中心的,与企业级数据仓库总线结构保持一致。
2020年10月6日
其他

公共层与数据集市层的区别

byHive调优,数据工程师成神之路数据质量那点事简述元数据管理你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年9月29日
其他

简述元数据管理

、运行参数、执行时间,执行引擎等。3.数据开发平台中数据同步、计算任务、任务调度等信息包括数据同步的输入输出表和字段,以及同步任务本身的节点信息:计算任务主要有输入输出、任务本身的节点信息
2020年9月24日
其他

Hive的join底层mapreduce是如何实现的?

如果没开启hive.auto.convert.join=true或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common
2020年9月23日
其他

Hive常用函数

jsonStr,p1p2,…,pn)-parse_url_tuple(url,partname1,partname2,…,partnameN)
2020年9月22日
其他

多值维度及交叉维度最佳解决方案

正常情况下,维表和事实表之间是一对多的关系,维表中的一行记录会连接事实表中的多行记录,事实表中的一行记录在维度表中只能关联上一条记录,不会发生数据发散的现象
2020年9月22日
其他

大表join小表,独钟爱mapjoin

byHive调优,数据工程师成神之路数据质量那点事你真的了解全量表,增量表及拉链表吗?缓慢变化维(SCD)常见解决方案全方位解读星型模型,雪花模型及星座模型Sqoop
2020年9月21日
其他

数据仓库中的维表和事实表

下钻是商业用户分析数据的最基本的方法。下钻仅需要在查询上增加一个行头指针,新行的头指针是一个维度属性,附加了sql语言的group
2020年9月20日
其他

深入探究order by,sort by,distribute by,cluster by的区别,并用数据征服你

reduce产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个
2020年9月19日
其他

Hive调优,数据工程师成神之路

影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。set
2020年9月17日
其他

数据质量那点事

决的最基本的数据问题关联性数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。真实性
2020年9月15日
其他

你真的了解全量表,增量表及拉链表吗?

如果表中信息变化不是很大,每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费优点1、满足反应数据的历史状态2、最大程度节省存储9月10号全量抽取到ods层create
2020年9月14日
其他

全方位解读星型模型,雪花模型及星座模型

星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家
2020年9月13日
其他

left join(on&where)

查询1on后面加and条件sql语句查询结果执行计划2把条件放在where后面
2020年9月10日
其他

Sqoop or Datax

对比功能dataxsqoop运行模式单进程多线程mrhive读写单机压力大扩展性好分布式不支持支持运行信息运行时间,数据量,消耗资源,脏数据稽核不支持流量控制支持不支持社区开源不久,不太活跃活跃
2020年9月9日
其他

你们公司还在用SparkOnYan吗?

1背景spark部署模型有以下几种:1Standalone独立模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用Standalone可以很方便地搭建一个集群2Apache
2020年9月7日
其他

Hive内部表外部表区别及各自使用场景

面试中常会问到这种题目:1.hive内部表和外部表的区别2.什么时候使用内部表,什么时候使用外部表这道题发到群里,又展开了激烈的讨论:这里我就来做一个总结:1.hive内部表和外部表的区别内部表:加载数据到hive所在的hdfs目录,删除时,元数据和数据文件都删除外部表:不加载数据到hive所在的hdfs目录,删除时,只删除表结构。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。
2020年9月6日
其他

数据仓库分层架构

辑表通常一一对应。明细粒度事实层(DWD):对数据进行规范化编码转换,清洗,统一格式,脱敏等,不做横向整合
2020年9月5日
其他

大厂高频面试题-连续登录问题

|+----------+-------------+-----+--+2.用登录日期减去排序数字rn,得到的差值日期如果是相等的,则说明这两天肯定是连续的select
2020年9月4日
其他

OneData方法论在XX的实践

点击上方“蓝字”关注我吧!#本文参考:美团OneData建设探索之路1背景由于前期缺少规划,随着集团业务发展,暴露的问题越来越多,给数据治理工作带来了很大的挑战,在数据仓库建设过程中,主要发现了以下几个问题:缺乏统一的标准,如:开发规范、指标口径等。缺乏统一数据质量监控,如:字段数据不完整和不准确,数据发散等。业务知识体系混乱,导致数据开发人员开发成本增加。数据架构不合理,层级之间分工不明显,数据流向混乱。缺失统一维度和指标管理。2目标基于公司现有的数据平台,完善数据体系架构、数据规范、模型标准和开发模式,从而驱动业务快速发展高人力成本、数据错误、浪费资源、杂乱无章、效率低下,这些经常出现的痛点,OneData都能轻松解决1核心思想
2020年9月3日
其他

left semi join和left join区别

org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
2020年8月21日
其他

Spark数据倾斜解决方案

分拆出来,意义不大。此时更适合直接对存在数据倾斜的数据集全部加上随机前缀,然后对另外一个不存在严重数据倾斜的数据集整体与随机前缀集作笛卡尔乘积(即将数据量扩大N倍)。适用:一个数据集存在的倾斜
2020年8月12日