其他
分享 | 企业大数据平台仓库架构建设思路
点击上方蓝色字体,选择“设为星标”
回复”资源“获取更多惊喜
总体思路
强大的计算和存储能力,使得更扁平化的数据流程设计成为可能,简化计算过程;
多样的编程接口和框架,丰富了数据加工的手段;
丰富的数据采集通道,能够实现非结构化数据和半结构化数据的采集;
各种安全和管理措施,保障了平台的可用性。
模型设计
数据采集:把不同数据源的数据统一采集到一个平台上;
数据清洗,清洗不符合质量要求的数据,避免脏数据参与后续数据计算;
数据归类,建立数据目录,在基础层一般按照来源系统和业务域进行分类;
数据结构化,对于半结构化和非结构化的数据,进行结构化;
数据规范化,包括规范维度标识、统一计量单位等规范化操作。
数据架构
统计服务主要是偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,供前端的报表系统或业务系统查询;
分析服务用来提供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。分析服务的能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活、更节省成本;
标签服务,大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据通过打标签转换成KV的数据服务,用于前端应用查询。
数据治理
代达罗斯之殇-大数据领域小文件问题解决攻略
推荐系统之标签体系
欢迎点赞+收藏+转发朋友圈素质三连版权声明:
本文为《大数据真好玩》原创整理,转载需作者授权。未经作者允许转载追究侵权责任。责编 | 大数据真好玩
插画 | 大数据真好玩
微信公众号 | 大数据真好玩
文章不错?点个【在看】吧! 👇