其他
干货 | 数据治理落地难?携程度假数据治理需求设计实践
作者简介
Leon Gu,携程数据仓库专家,负责度假数据中台和数据仓库等工作,专注于大数据、数据仓库、数据治理等领域。
一、前言
二、实践篇
低访问频率:报表及应用近三个月被业务方访问的总频次小于3次; 无维护责任人:责任人缺失、离职,并且没有业务方能够描述清楚其背景和口径; 报错无下游:长期报错的模型且无人报修,或者已无下游使用,这里说的下游使用包含了依赖关系和即席查询;
重复建设:维度和指标相同或者有包含的关系,可以直接合并; 口径统一:原先的指标口径不一致,通过梳理进行了统一后可合并;
清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解数据; 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够极大降低重复计算,减少烟囱式开发; 统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生;
原子指标:
派生指标:在原子指标的基础之上选择了一些维度或者修饰限定词。
三、总结
各业务线端到端重复建设浪费资源,人力配置不均衡,团队效率低
大量重复建设的模型、报表及应用,需求场景不清晰,历史包袱重
维度不统一,数据整合难度大;指标口径不一致,数据理解成本高
团队招聘信息
携程旅游BG数据仓库团队,负责数据中台、数据治理、数据仓库、数据产品等相关开发工作。感兴趣的小伙伴欢迎投递简历,邮箱:y.lan@trip.com,邮件标题:【携程度假数据仓库】+【姓名】
【推荐阅读】
“携程技术”公众号后台回复“新书”,
可免费获得两本书的试读样章~
《携程架构实践》
京东
当当
《携程人工智能实践》
京东
当当
“携程技术”公众号
分享,交流,成长