其他
数仓相关面试题
数仓构建
关于数仓构建,推荐阅读:《数据仓库架构和建设方法论》、《企业大数据平台仓库架构建设思路》、《详解数据仓库的实施步骤》。
区别主要是数仓数据存储的地方不同,传统数仓数据存储在Mysql/Oracle等关系型数据库上,大数据数仓存储在Hadoop平台的Hive中(实际上是HDFS中),当然也有其他的数仓产品比如TD、Greenplum等。
数据的准确性,记得在一个统计网站上看过,好多数仓因为数据不准确被终止。数据的真正价值在于数据驱动决策,通过数据指导运营,在一个不准确的数据驱动下,结果可想而知。
元数据的建设与管理是其中重要的一个环节。元数据建设的目标是打通数据从接入到加工,再到数据消费的整个链路,规范元数据体系与模型,提供统一的元数据服务出口,保障元数据产出的稳定性和质量。首先梳理清楚元仓底层数据,对元数据做分类,如计算元数据、存储元数据、质量元数据等,减少数据重复建设,保障数据的唯一性。
在明确数据治理是数据管理的一部分之后,下一个问题就是定义数据管理。治理相对容易界定,它是用来明确相关角色、工作责任和工作流程的,确保数据资产能长期有序地、可持续地得到管理。
1. 数据质量保证原则:完整性,准确性,数据质量,及时性,一致性
元数据的理解?元数据管理系统?
元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL任务的运行状态。
结合Inmon和Kimball的集线器式和总线式的数据仓库的优点,分层可为ODS【-MID】-DW-DM-OLAP/OLAM/app(不同企业略有差异)。
空间换时间:通过建设多层次的数据模型供用户使用,避免用户直接使用操作型数据,可以更高效的访问数据。
面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。
【高性能】
数据仓库的构建将大大缩短获取信息的时间,数据仓库作为数据的集合,所有的信息都可以从数据仓库直接获取,数据仓库的最大优势在于一旦底层从各类数据源到数据仓库的ETL流程构建成型,那么每天就会有来自各方面的信息通过自动任务调度的形式流入数据仓库,从而使一切基于这些底层信息的数据获取的效率达到迅速提升。
【简单化】
数据仓库是所有数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中,对于应用来说,实现各种不同数据的关联并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能。
【历史性】
记录历史是数据仓库的特性之一,数据仓库能够还原历史时间点上的产品状态、用户状态、用户行为等,以便于能更好的回溯历史,分析历史,跟踪用户的历史行为,更好地比较历史和总结历史,同时根据历史预测未来。