其他
有赞数据治理体系与架构
Editor's Note
何为数据治理?没有标准答案。我们不妨顾名思义:“数据”的“治”与“理”。“治”为整治,关注数据质量,保障数据稳定性、准确性,合理控制数据生命周期,降低成本;“理”为梳理和管理,数据的基本信息、状态、关联关系等,搞清数据从哪来到哪去到何处等。
The following article is from 有赞coder Author 有赞技术
举一个典型的场景:通过埋点日志,分析用户行为。如下图所示,一个完整的过程,经过n个系统、任务,产生各种类型的数据。那么问题来了:到底有哪些数据,谁负责的,通过什么任务产出,又被谁加工,是否被有效使用?这些,便是数据治理的初级诉求。
2.1.1 数据采集巧妇难为无米之炊,数据采集就是通过一定的手段,采集到各种类型的数据。其目标只有一个字:“全”,全类型和全量的数据的基本信息。
采集有两种方式:约定接口定时获取&提供SDK上报。前者不侵入业务,时效性低,但是获取方比较灵活(比如适时拉取全量);后者时效性更高,但是要求提供方正确使用(增删改的时候调用上报),且只适用于部分数据类型(有独立的数据运营方或系统)。二者各有利弊,因此需要根据实际情况权衡。不管哪种方式,接口的通用型和扩展性必须着重考虑。
可以将这部分工作概括为:血缘采集和应用管理两部分。
血缘采集(表、字段、任务)是通过一定手段,获取到数据的依赖关系,有自动和人工两种方式。自动解析主要应用于hql类任务,我们通过语法解析,可以识别出任务使用到的表/字段,以及写入的表/字段;人工方式是补充血缘必不可少的,因为有许多类型(脚本类、flink任务等),无法准确识别,需要人为正确指定任务使用和产出的表。 应用管理,目前是人工维护,效率较低,并且更新不及时。我们正在探索更有效的方式,此处是必要的,因为只有真正被业务使用,数据才有存在的意义。
数据校验,同样以hive表为例,支持分为表级、字段级的预定义或自定义的校验,异常告警。举个例子:对订单表的订单号进行唯一性校验,这是字段级的预定义校验,可以快速配置;对用户近七天浏览行为均值波动限定范围,这是表级自定义校验,可以自定义sql进行配置。通过这种形式,在数据更新时,自动检查,可以及时发现数据问题。
这方面,我们的工作主要有:
敏感数据识别。自动识别为主+人工打标为辅的方式,对所有数据做到数据级别的敏感级别定义。 权限控制系统。表+字段级别的权限控制,对于敏感字段的查询,进行脱敏处理;数据导出、删除均有专门的审核流程。 数据操作审计日志。所有数据操作,均记录日志,并提供工具支持查询。 数据备份。提供跨集群的数据备份功能,对于不可恢复数据,做自动化备份。 安全流程规范。数据的定义、职责、使用,均有明确定义。特别是对于数据导出的场景,需要严格的商家授权和内部审核机制。
数据地图。构建完整的数据链路流转图,知道数据从哪来到哪去。可快速定位数据,筛选和过滤数据,统计和分析数据的上下游情况,错误分布等。
将主要数据有效地采集(基础信息、趋势等)和有针对性地管理起来。10种数据类型,10w级数量。 提供基础的数据及任务的血缘关系,便于查阅。数万血缘关系,并在不断完善中。 基础完善的安全机制,含敏感数据管控(支持近10类敏感信息识别)、审计、权限控制服务和规范等。 相对成型的质量评估体系和质量提升推进办法。 初步的量化(各类分级、大盘等),做到可盘点和分析。 简要的分析功能和服务,以及配套工具,持续丰富中。
降低数据接入成本(当前需要前后端开发和数据适配) 客观地评估数据价值 如何充分地发挥数据价值
更多精彩
欢迎加入数据BI技术交流群。进群方式:请加小助微信(微信号:iom1128),回复:数据,审核通过 会自动拉你进群。
今日荐文
点击下方文字即可阅读
▼ 福利时刻 ▼
01. 后台回复「经典」,即可领取大数据数仓经典书籍。
技术大佬们在等你,各种资源定期分享~
Q: 关于大数据,你还想了解什么?
欢迎留言区与大家分享
觉得不错,请把这篇文章分享给你的朋友哦
入群请联系小助手:iom1128『紫霞仙子』
更多精彩,请戳"阅读原文"到"数仓之路"查看
更多精彩,请戳"阅读原文"到"数据分析"查看
!关注不迷路~ 各种福利、资源定期分享!