数仓工程师如何避免沦为“提数机”
小B是一名数据分析师,经常靠“提数”维生……
by小AA
在数据分析过程中,你是否有这种困惑呢?,如果有,那请你接着读完本文。
作为数据分析师,慢慢的会发现自己的很大一部分工作是让数据仓库工程师“提数”,但是数据仓库工程师可不止会“提数”。
我感觉对现在大数据平台建设了解最深入的应该是数据仓库工程师。因为他要接入数据,处理数据,存储数据,也就是我们常说的“ETL”过程。
抽取数据,很多公司早些时候是没有平台化的ETL工具的,那么刚开始我们就要很经常的和Linux打交道了,shell成为了我们的必备技能,我们能用shell抽取mysql,抽取Oracle,抽取MongoDB,再加载到HIVE中去,这是每个初期建设数据仓库工程师的必备技能。
处理数据,数据仓库80%的处理数据是用SQL,但是数据分析师可能不这么认为,他们更喜欢python,R等,但是很多数据仓库建立的第一查询语言是SQL。数据分析师很需要学习SQL,而且需要熟练,可以学习SQL教程,上面还可以在线写SQL练习。
存储数据,大数据目前存储数据都是在HDFS或者MPP数据库,所以这两个技能是数据分析师需要了解的。
很多数据仓库/数据分析工程师会成为每天取数的“表哥表姐”。
如果最近你一直忙于取数,那就要思考一下了。
业务,取数都是别人给你业务逻辑,其实你可以主动参与讨论取数的业务逻辑,和业务部门互动起来,主动参与分析,由于你先拿到数据一步,你还有先天优势,可以优先验证分析业务逻辑,慢慢的会成为业务方便的专家。
技术,重复的日报,可以用发邮件的方式,避免每天取数的工作。取完数发邮件,你就要去学一一些脚本,比如python,这样你的技能慢慢的就get到了。
授人以鱼不如授人以渔,可以教会对方使用自助分析工具,或者主导参与业务分析。如果你还一直在取数的路上挣扎着,建议考虑下自己的职业规划吧。
从“表哥表姐”到分析师转变的过程中,一个容易被忽视的能力就是沟通和presentation的能力:怎么把你的分析结果说成一个最容易被听众接受的故事。
要去理解业务,而不是忙于每个需求的提数。给出人家一直想知道却不知道的信息,慢慢地他们也就更倚重你的分析接口而不是取数据接口了。
学会拒绝需求,部分数据仓库工程师会抱怨每个业务都催命似的要数据,要学会对数据需求的紧迫性优先级有把握而不至于手忙脚乱。慢慢的对业务的了解,可以让你有信心在业务找你要数据的时候跟他们探讨,拒绝他们的不合理需求。
presentation,老板一般不喜欢你讲技术,更喜欢听故事。分析的结果不要讲生硬的算法原理,把算法和业务分析结果,放在一起来讲。这个我们可以去学习下 Elevator Pitich。
作为分析师,感觉一定要多技能(艺多不压身),这样才能迸发多的点,打开你在做分析的思路。
另外,你的团队现在是哪种情况,会不会有“表哥”的经历呢?欢迎一起探讨!