其他
华为内部资料流出!揭秘华为数据湖:3大特点、6个标准、入湖流程
导读:数据湖:实现企业数据的“逻辑汇聚”。
物理入湖是指将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。 虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用,大批量的数据操作可能会影响源系统。
第一,企业数据管理组织基于业务需求主动规划和统筹; 第二,响应数据消费方的需求。
明确数据Owner:为保证入湖数据的管理责任清晰,在数据入湖前应明确数据Owner。 发布数据标准:入湖数据应有数据标准,数据标准定义了数据属性的业务含义、业务规则等,是正确理解和使用数据的重要依据,也是业务元数据的重要组成部分。 认证数据源:原则上以初始源进湖,数据源认证是保证数据湖数据一致性和唯一性的重要措施。 定义数据密级:定义完整、明确的数据密级是数据湖数据共享、权限控制等的关键依据。信息安全管理专员向业务Owner提出定密需求,并与业务Owner确定定密规则,确定数据密级、定密时间、降密期/降密条件等,然后由信息安全管理专员在信息架构管理平台注册密级信息。 评估入湖数据质量:对入湖数据做质量评估,给入湖数据打质量标签。
虚拟入湖由数据代表实施,数据代表负责设计和部署虚拟表。 物理入湖由对应数据湖的IT代表承接IT实施需求,设计集成方案和数据质量监测方案,实施数据入湖。数据代表组织UAT测试、上线验证。
已经设计了包含基本特征元数据的索引表。 已经设计了信息架构,如业务对象和逻辑实体。 已经定义了索引表中每笔记录对应文件的Owner、标准、密级,认证了数据源并满足质量要求。
已经确定解析后的内容对应的Owner、密级和使用的范围。 已经获取了解析前对应原始文件的基本特征元数据。 已经确定了内容解析后的存储位置,并保证至少一年内不会迁移。
已经确定文件对应的Owner、密级和使用的范围。 已经获取了文件的基本特征元数据。 已经确定了关系实体的存储位置,并保证至少一年内不会迁移。
已经确定原始文件对应的Owner、密级和使用的范围。 已经获取了基本特征元数据。 已经确定了存储位置,并保证至少一年内不会迁移。
更多精彩👇