其他
数据资产,赞之治理
点击关注“有赞coder”
获取更多技术干货哦~
举一个典型的场景:通过埋点日志,分析用户行为。如下图所示,一个完整的过程,经过n个系统、任务,产生各种类型的数据。那么问题来了:到底有哪些数据,谁负责的,通过什么任务产出,又被谁加工,是否被有效使用?这些,便是数据治理的初级诉求。
2.1.1 数据采集巧妇难为无米之炊,数据采集就是通过一定的手段,采集到各种类型的数据。其目标只有一个字:“全”,全类型和全量的数据的基本信息。
采集有两种方式:约定接口定时获取&提供SDK上报。前者不侵入业务,时效性低,但是获取方比较灵活(比如适时拉取全量);后者时效性更高,但是要求提供方正确使用(增删改的时候调用上报),且只适用于部分数据类型(有独立的数据运营方或系统)。二者各有利弊,因此需要根据实际情况权衡。不管哪种方式,接口的通用型和扩展性必须着重考虑。
可以将这部分工作概括为:血缘采集和应用管理两部分。
血缘采集(表、字段、任务)是通过一定手段,获取到数据的依赖关系,有自动和人工两种方式。自动解析主要应用于hql类任务,我们通过语法解析,可以识别出任务使用到的表/字段,以及写入的表/字段;人工方式是补充血缘必不可少的,因为有许多类型(脚本类、flink任务等),无法准确识别,需要人为正确指定任务使用和产出的表。 应用管理,目前是人工维护,效率较低,并且更新不及时。我们正在探索更有效的方式,此处是必要的,因为只有真正被业务使用,数据才有存在的意义。
数据校验,同样以hive表为例,支持分为表级、字段级的预定义或自定义的校验,异常告警。举个例子:对订单表的订单号进行唯一性校验,这是字段级的预定义校验,可以快速配置;对用户近七天浏览行为均值波动限定范围,这是表级自定义校验,可以自定义sql进行配置。通过这种形式,在数据更新时,自动检查,可以及时发现数据问题。
这方面,我们的工作主要有:
敏感数据识别。自动识别为主+人工打标为辅的方式,对所有数据做到数据级别的敏感级别定义。 权限控制系统。表+字段级别的权限控制,对于敏感字段的查询,进行脱敏处理;数据导出、删除均有专门的审核流程。 数据操作审计日志。所有数据操作,均记录日志,并提供工具支持查询。 数据备份。提供跨集群的数据备份功能,对于不可恢复数据,做自动化备份。 安全流程规范。数据的定义、职责、使用,均有明确定义。特别是对于数据导出的场景,需要严格的商家授权和内部审核机制。
数据地图。构建完整的数据链路流转图,知道数据从哪来到哪去。可快速定位数据,筛选和过滤数据,统计和分析数据的上下游情况,错误分布等。
将主要数据有效地采集(基础信息、趋势等)和有针对性地管理起来。10种数据类型,10w级数量。 提供基础的数据及任务的血缘关系,便于查阅。数万血缘关系,并在不断完善中。 基础完善的安全机制,含敏感数据管控(支持近10类敏感信息识别)、审计、权限控制服务和规范等。 相对成型的质量评估体系和质量提升推进办法。 初步的量化(各类分级、大盘等),做到可盘点和分析。 简要的分析功能和服务,以及配套工具,持续丰富中。
降低数据接入成本(当前需要前后端开发和数据适配) 客观地评估数据价值 如何充分地发挥数据价值
扩展阅读
Vol.237