其他
如何成为一个合格的数据架构师?
好文6031字 约11分钟阅读
写在前面
最早,数据架构师在IOE上工作;2009年,阿里云最早提出“去IOE”的口号,初代数据架构师革了自己的命;2015年,这一年产生的数据量是人类过去历史上所产生数据量的总和,从此进入了指数级增长阶段。数据架构师也演化出了2个大方向(平台型数据架构师、数仓型数据架构师)。本文以作者亲历视角,主要分享数仓型数据架构师的“修炼大法”。欢迎辩证看待、留言交流~
作者介绍
01
你想成为哪种数据架构师
目前数据架构师有两个大的方向:一,偏平台的架构师,对开源技术要求较高,企业一般会要求读过开源技术源码,或者参与过开源项目,偏平台的构建;二,偏数仓的架构师,对SQL能力要求较高,企业一般会要求掌握数仓理论,有数仓项目经验。
02
数据架构师的必备知识树
敲门砖:掌握一门开发语言
02
基本功:掌握一种数据库
03
必杀技:大数据技术
04
必杀技2:数据仓库
05
必杀技3:ELT技术
1、ELT概念传统的ETL (Extract-Transform-Load)是把T的部分放在中间的,在大数据环境下我们更愿意把T放在后面,从ETL向ELT进行演变。原因也很简单,这样我们可以充分利用大数据环境T的能力。数据开发也平台化了,例如阿里的DataWorks、Dataphin,将数据同步、清洗转化、任务调度集成在一起。
06
加分项:应用系统
一个应用系统是怎么诞生的?可以通过软件工程这门课程学习,需求分析、概要设计、详细设计、软件开发、软件测试、试运行、上线、运维、下线等整个过程。高可用:系统一个节点发生故障后能进行无感切换,这个很重要。 负载均衡:使压力均衡进行,它决定了系统的扩展性。 安全:磁盘阵列(raid0、raid1、raid5、raid10)、防火墙、授权、认证,及数据安全,防泄防篡、脱敏加密、防丢失等。
07
锦上添花:算法
监督学习算法:支持向量机(Support Vector Machine,SVM)、决策树、朴素贝叶斯分类、K-临近算法(KNN); 非监督学习算法:K-均值聚类(K-Means) 。优点是算法简单容易实现,缺点则是可能收敛到局部最小值,在大规模数据集上收敛较慢。可在图像处理、数据分析以及市场研究等场景应用; 强化学习(深度)算法:如果不想转职算法工程师,目前仅作了解即可。
数据准备(数据同步); 问题明确(明确分类还是回归问题); 数据处理(合并、去重、异常剔除); 特征工程(训练集,测试集、验证集); 选择合适的算法; 模型评估(若评估不合格,则考虑:①换算法;②调参数;③特征工程再进一步处理)。
03
总结:建立属于自己的知识索引
推荐阅读