其他
华为内部资料流出!揭秘华为数据湖:3大特点、6个标准、入湖流程
The following article is from 大数据DT Author 华为数据管理部
物理入湖是指将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。 虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用,大批量的数据操作可能会影响源系统。
第一,企业数据管理组织基于业务需求主动规划和统筹; 第二,响应数据消费方的需求。
明确数据Owner:为保证入湖数据的管理责任清晰,在数据入湖前应明确数据Owner。 发布数据标准:入湖数据应有数据标准,数据标准定义了数据属性的业务含义、业务规则等,是正确理解和使用数据的重要依据,也是业务元数据的重要组成部分。 认证数据源:原则上以初始源进湖,数据源认证是保证数据湖数据一致性和唯一性的重要措施。 定义数据密级:定义完整、明确的数据密级是数据湖数据共享、权限控制等的关键依据。信息安全管理专员向业务Owner提出定密需求,并与业务Owner确定定密规则,确定数据密级、定密时间、降密期/降密条件等,然后由信息安全管理专员在信息架构管理平台注册密级信息。 评估入湖数据质量:对入湖数据做质量评估,给入湖数据打质量标签。
虚拟入湖由数据代表实施,数据代表负责设计和部署虚拟表。 物理入湖由对应数据湖的IT代表承接IT实施需求,设计集成方案和数据质量监测方案,实施数据入湖。数据代表组织UAT测试、上线验证。
已经设计了包含基本特征元数据的索引表。 已经设计了信息架构,如业务对象和逻辑实体。 已经定义了索引表中每笔记录对应文件的Owner、标准、密级,认证了数据源并满足质量要求。
已经确定解析后的内容对应的Owner、密级和使用的范围。 已经获取了解析前对应原始文件的基本特征元数据。 已经确定了内容解析后的存储位置,并保证至少一年内不会迁移。
已经确定文件对应的Owner、密级和使用的范围。 已经获取了文件的基本特征元数据。 已经确定了关系实体的存储位置,并保证至少一年内不会迁移。
已经确定原始文件对应的Owner、密级和使用的范围。 已经获取了基本特征元数据。 已经确定了存储位置,并保证至少一年内不会迁移。
(欢迎大家加入数据工匠知识星球获取更多资讯。)
联系我们
扫描二维码关注我们
微信:DaasCai
邮箱:ccjiu@163.com
QQ:2286075659
热门文章
数据仓库、数据集市、数据湖、数据中台到底有什么区别?都得做吗?
数据湖与数据仓库的根本区别,在于前者是“市场经济”,而后者是“计划经济”
辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。