探究HDFS、Hive和HBase:区别、联系及应用场景解析
三个组件各自作用 相互关系 应用场景
01
—
HDFS、Hive、Hbase的组件的各自作用
HDFS是Hadoop生态系统的分布式文件系统,用于存储海量数据,并通过分布式方式实现高容错性。HDFS采用横向扩展的方式,将文件切分成多个块,分布在集群的多个节点上。HDFS的主要作用是提供高效、可靠的分布式存储,适用于大数据存储和批量处理场景。HDFS适用于存储大量结构化和非结构化数据,如网站日志、传感器数据等。
Hive是一个基于Hadoop的数据仓库工具,提供了类似于SQL的查询语言(HiveQL),将查询转化为MapReduce任务执行在Hadoop集群上。它将存储在HDFS中结构化的数据映射为数据库、表和分区的概念,使得非技术人员可以方便地进行数据查询和分析。HDFS中存储的数据是文件形式,不是数据库形式,不能直接进行SQL分析。
HBase是一个面向列的分布式数据库,运行在Hadoop集群之上。它提供了高可靠性、高性能的随机实时读写操作,并适合处理超大规模的非结构化和半结构化数据。Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的版本.场景的场景是HBase可以用于存储用户行为数据和实时推荐。HBase适合存储和检索大量实时生成的日志数据。
02
—
三个组件的相互联系
Hive和HBase都是建立在HDFS之上的,可以直接访问HDFS中的数据。Hive通过类SQL语法将查询转化为MapReduce任务访问HDFS里面的数据文件进行查询处理。HBase则是一个独立的分布式数据库,通过HBase客户端直接与HBase进行交互。Hbases的数据文件也是存在HDFS上,只不过它存储数据格式是按照列式存储的。
hdfs里面的结构化数据文件里面存储的类似我们的表的数据,只不过数据是按照指定的格式存储在txt这种类似文件的文本文件中,但是hive可以把文件映射成表,直接访问数据。
而列式存储的特点如下图所示,是它的存储文件的形式,即按照rowkey 来存储,每一行的列不固定,可能随机变动。
Name Space
命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。
Row
HBase 表中的每行数据都由一个 RowKey 和多个 Column(列)组成,数据是按照 RowKey的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重要。
Column
HBase 表中的每行数据都由一个 RowKey 和多个 Column(列)组成,数据是按照 RowKey的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重要。
Time Stamp
用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会自动为其加上该字段,其值为写入 HBase 的时间。
以上就是hive 和hbase的区别,主要是存储数据格式、存储的内容,以及访问数据的方式不通。
03
—
组件的应用场景上的区别
摘要中提到为什么hive 可以作为离线跑批,但是不适合做实时查询,而hbase可以作为实时查询,为什么不能作为离线跑批了?
主要有两个方面的原因
1、hive访问的HDFS的里面的结构化数据,并没有做其它特殊的处理,依赖mapreduce的分布式作业能力,所以它可以作为跑批处理,就是大批量的数据处理。对于时延要求并不是很高。而hbase 访问数据是通过RowKey快速检索到需要的数据。所以访问数据很快,适合做实时数据检索和查询。
2、hive 里面提供hivesql语言,支持聚会,关联,复杂过滤,join等复杂的逻辑计算,适合用来做跑批的业务逻辑计算和处理。而hbase 没有聚合,关联,复杂的嵌套查询的语法,他只能处理简单的查询和过滤。语法上不适合做跑批处理。
类如:
基于行键的查询:
单行查询:
GET 'table_name', 'row_key'
范围查询:
SCAN 'table_name', {STARTROW => 'start_row_key', ENDROW => 'end_row_key'}
前缀查询:
SCAN 'table_name', {FILTER => "PrefixFilter('prefix_value')"}
列族和列修饰符的查询:
列族查询:
SCAN 'table_name', {COLUMNS => 'column_family'}
列修饰符查询:
SCAN 'table_name', {COLUMNS => 'column_family:column_qualifier'}
过滤器查询:
单一列值过滤器:
SCAN 'table_name', {FILTER => "ValueFilter(=, 'binary:value')"}
列前缀过滤器:
SCAN 'table_name', {FILTER => "ColumnPrefixFilter('prefix_value')"}
包含子串过滤器:
SCAN 'table_name', {FILTER => "QualifierFilter(=, 'substring:substring_value')"}
版本查询:
指定版本数:
GET 'table_name', {VERSIONS => N}
时间戳范围查询:
SCAN 'table_name', {TIMERANGE => [start_timestamp, end_timestamp]}
hive应用场景:
数据仓库和报表分析: Hive适用于处理结构化数据,用于构建数据仓库和生成报表。
hbase应用场景:
互联网广告和推荐系统: HBase可以用于存储用户行为数据和实时推荐。
日志处理和监控系统: HBase适合存储和检索大量实时生成的日志数据。
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作
往期历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化