查看原文
其他

傅一平:如何成为一名顶尖的数据管理专家?

傅一平 与数据同行
2024-09-26

关于如何成为一名数据管理专家,今天我就来谈一谈自己的认识,算是一个系统总结吧。
1、进入一个靠谱的平台
小说作家,比如刘慈欣,即使不工作,他们也能靠自己丰富的想象力写出水平非常高的小说。而数据管理是一门数据科学,也是实践的学问,但无论是科学还是实践,都无法靠漫无边际的想象力达到顶尖水平。
如果你有幸在一个研究机构,那可能会有研究数据管理的机会,但大部分的数据管理专家,还是来自于企业,因为企业提供了数据管理实践的平台。
我很珍惜公司提供的数据岗位,因为我关于数据管理的思考和创新,大都源于岗位实践的启发。哪天我离开这个岗位了,或者退休了,我的输出也就基本枯竭了吧,这个规律应该适用于大多数职场工作者。
但许多数据从业者仍然对自己的职业发展感到焦虑,觉得每天重复相同的工作,缺乏广度和深度,更别提成为专家级人物了,这可能受限于他们所在的平台。
阿里每年都搞云溪云栖大会,各位大咖轮番上阵,那么这么多大咖到底是怎么练成的呢?
我曾阅读过《淘宝技术这十年》和《大数据之路》两本书,这些书籍详细地介绍了阿里巴巴的技术是如何随着业务需求的发展而进步的,我想,专家的个人努力固然重要,但阿里提供的舞台更功不可没。
因此,要想成为一名数据管理专家,我们最好进入一家靠谱的有数据的公司,数据规模要足够大,毕竟有过1P数据处理经验的人,跟1G数据处理经验的人相比,需要的技能、所需的时间、能达到的高度是完全不同的,否则天花板马上就会到来。
大数据架构师更多会出现在拥有海量数据的企业,而企业数据治理专家则只会孕育在组织结构足够复杂的企业,这跟企业的特点是密切相关的,一定程度上讲,只有“企业的专家”,没有“专家的企业”。
2、拥有主动积极的心态
在我刚进入公司时,依然保持着大学时养成的学习习惯。我用了两年时间成为公司里的取数大师;三年后,我掌管公司全部报表,被同事戏称为“数据表哥”;五年时间,我成为数据仓库的项目经理。
然而,随后的十年里,我的专业技能陷入了停滞,大致的原因,应是失去了继续学习的动力吧。
在学校,应试教育激发我们学习的动力主要有两个:一是考试的压力,二是争做第一的冲劲。但当我们走入职场后,这些动力往往会悄然消失。原因大致有三个:
首先,职场的很多工作是熟能生巧的类型,达到及格标准不难。 
其次,职场少有横向比较的量化指标,数据管理这种偏后端工作更是如此,难以直观感受到与他人的差距。 
最后,新人一般处于公司“井底”的岗位,很难看到进步的空间,不知道自己不知道是进步的最大阻碍。
这是一个人走出大学后迈向平庸的开始。对我来说,甲方身份也一定程度干扰了对自己专业程度的判断。
当然,职场生涯并非总是一帆风顺,经常会遇到一些变数,无论是公司的变革、岗位的晋升、职场的要求、失业的威胁、心态的转变,或是生活的变故。这些变化就像是突然将井底的青蛙放到了广阔的天地,迫使它改变自己,以适应全新的环境。
以我为例,当时已在数据仓库领域耕耘多年,自认为颇有造诣。但当大数据崛起,需要转型去做大数据变现的时候,我是一脸懵逼。
面对新的商业模式、新的客户、新的平台和新的产品,压力巨大。特别是在跟外部专家交流的时候,明显感觉到自己与别人的差距。
接下来的故事很俗套:一个中年男人感受到了职场的危机,重新点燃了学习的热情,并努力提升自己的专业技能。为了给自己加压,开设了一个公众号,倒逼学习.....。
因此,说我的主动学习起点是环境驱动的结果,应该没错,当然学习的习惯一旦养成,飞轮就转起来了。
我有时也会羡慕那些天生就具备主动精神的人,他们满怀梦想,精力充沛,自我驱动,点燃他人,不仅赢在了起跑线,而且一直领先。
但无论是来自天性还是外界压力,主动积极都是成为专家的必备特质。
3、掌握跨领域的知识
但即使有了主动积极的驱动力,如果格局很小,视野偏窄,死守自己的一亩三分地,那也是井底之蛙,很难成为顶尖专家。
为了加强专业学习,我以前每周都有到亚马逊、当当去购买专业书籍的习惯,我会输入“大数据”、“数据仓库”关键词去检索所有新上市的大数据书籍,然后扫货。
虽然我如饥似渴的阅读,但在相当长的时间内,并没有感觉到自己在专业上有所长进,起初以为是时间积累不够造成的,后来发现不全是这样。
现在我很清楚,虽然数据管理算是一门专业,但其跟业务、应用、技术等跨领域的知识有千丝万缕的关系,要做好数据管理,钥匙往往不在数据本身。
比如,在规划大数据平台时,需对架构、底层的云原生、前端和后端等技术要有深刻理解;在进行数据治理时,需要补组织、制度、机制及流程的课;在开发大模型产品时,需要懂点MVP产品方法论;在做模型时,需对业务、场景、数据和算法都了然于胸。
合格的数据管理专家,一定是能对各领域的相关知识融会贯通的人。专家所以为专家,是因为他们能解决常规方法无法解决的问题,而这通常需要跨领域的知识。
如果死守自己熟悉的那一条专业线,那么我们可能永远只是个擅长制作报表的“表哥表姐”,或者是只懂SQL的工程师。
对此有所领悟后,我在做数据管理工作的同时,也在努力补足自己的短板。前年自己开始做数据治理,因此拼命的去补流程的课;去年开始搞数据架构,因此拼命的去研究TOGAF框架;今年又去研究大模型,希望跟上AI的步伐。虽然我是搞数据的,但我首先是个IT人,更是个管理者。
数据有一个1+1>2的定律,专业知识也是这样,当年自己傻傻的去找必须带有关键词“大数据”名称的书来读,这是陷入了思维误区。
查理·芒格很早就提出了跨学科的思维模型,认为其价值在于能够整合多学科的知识和原理,形成一个多角度、深层次的分析框架,从而提高决策质量并促进创新思维,这对从事数据管理工作的人非常有用。
虽然10年前我就已经知道这个思维模型,但现在才真正读懂它,而真要走出自己划定的专业舒适期是多难的一件事情啊。
4、明晰自己的成长路径
前面讲得都是道,有了道,再讲术才有意义。跟学任何一门手艺一样,在数据管理领域,3-4年可能有小成,但要大成,不仅时间比较长,而且挑战很大,这里以数据治理专家为终极目标(不包括数据技术研发为主线的专业),给出一条参考路径。
第一阶段:基础学习(半年内)
目标:适应公司文化,了解业务知识,掌握基本的数据模型和数据处理技能。
(1)业务知识:通过报表、指标等熟悉公司的业务模式、业务概念,比如我刚进公司的时候,花了3个月时间,把所有的报表、指标等文档都看了一遍,在了解报表指标的过程中,对于公司的业务也会有所了解。
(2)数据知识:对公司的数据模型体系进行理解,掌握常用表的结构和业务含义,比如我刚进公司的时候,把公司数据仓库的概念模型、逻辑模型、物理模型设计文档都看了几遍。
(3)数据技术:学习基础的数据库知识,包括SQL语言,熟悉公司的数据库系统如MySQL、Hive等,会使用公司提供的数据管理工具进行数据的操作,尝试按照业务需求进行取数的练习。
第二阶段:初步实践(半年-2年)
目标:参与数据分析和数据管理项目,在实践中加强对数据管理知识的理解。
(1)数据分析:参与公司的数据支持相关任务,包括但不限于临时取数,报表开发、专题分析等等,能够在导师的指导下独立完成。
(2)数据技术:理解数据仓库和数据集市的概念;理解关系型数据库的数据模型设计,包括ER模型、星型模式等;学习ETL(提取、转换、加载)过程,熟悉数据整合工具;参与公司的数据管理项目,从实际操作中学习数据的采集、存储、处理和维护。
第三阶段:独当一面(2-4年)
目标:成为团队中的关键成员,主持数据分析和数据管理项目。
(1)数据分析:习得更高的数据分析技能(比如机器学习等),独立完成复杂的的数据支持相关任务,获得领导和业务部门较高认可。
(2)数据技术:理解数据管理相关理论和方法,包括主数据、元数据、数据质量、数据标准,数据架构等等,学习项目管理的基本方法,能够独立主持一个数据管理项目。
第四阶段:初级专家(5-10年)
目标:成为某一领域的专家,推动数据价值规模变现。
(1)领域深入:深入掌握数据管理相关理论和方法,结合行业最佳实践打造创新型的数据产品和解决方案,较大推动公司数据价值变现,开始在内部或外部分享数据管理知识和经验。
(2)拓展边界:横向拓展知识边界,统筹协调能力进一步提升,能够跨领域解决问题。
第五阶段:高级专家(10年及以上)
目标:成为公司数据治理专家,最大程度发挥数据价值。
(1)顶层设计:深刻理解数据治理体系,能够结合公司战略给出数据战略,构建企业级数据管理制度、流程和平台。
(2)统筹落地:统筹推进各部门落实数据管理制度、流程和平台,对落地情况进行监控和审计,提出改进建议并实现闭环管理,推动数据要素价值的最大化,在行业具有较高影响力。
我进入公司的时候,没有人告诉我什么成长路径,走到哪算到哪。但如果在我陷入停滞或迷茫的时候,有人能提醒这条路径的存在,我的进步会多很多吧。
年纪大的人会后悔年轻的时候没做过某个事情,但其实年轻的时候不知道自己不知道,才是最遗憾的,因为努力无从谈起。
5、掌握科学的学习方法
人的认知有数据,信息,知识和智慧四个层次。我们读的那些书,上得那些课,无论是数据,信息还是知识,都只是用于训练自己大脑的不同层次的素材。专家往往能采用高效的学习方法,基于这些素材训练出更好的认知模型,这样在面对新情况时,相较于一般人,专家更能做出明智的推理。
这解释了为什么很多人即使有20年的数据管理经验,也成不了专家,而少数人工作2-3年就可以抵别人的10年。
万维钢在《学习究竟是什么》这本书中,系统总结了当今科学界关于提升学习效率的最新方法,我略加修改,姑且将这些方法统称为”改进型刻意练习“。改进型刻意练习包括7个方面的内容,分别是“只在学习区练习”、“分块反复练习”、“随时获得反馈”、“注意力高度集中”、“有一定学习间隔”、“变换学习场景”及“成长型思维模式”。
我讲几个对应的数据管理案例大家就明白了。
(1)只在学习区练习:取数的时候,别反复针对熟悉的领域、熟悉的表进行取数,要突破固有的业务领域,尽可能的进行全业务覆盖,每天能获得新的业务和数据知识,然后把各域的业务和数据融会贯通。取数的时候,总是思考用新的方法提升效率,比如把串行的改成并行的,把融合模型改进一下,把取数工具优化一下,把取数模版规范一下,诸如此类,几年后,你成为了取数大师,别人可能还只会耕作自己的一亩三分地。
(2)分块反复练习:学习数据管理知识体系,首先把要学习的知识拆成一小块一小块,比如首先拆成数据架构、主数据、元数据、数据质量、数据安全、数据治理等等,然后再进一步拆细,比如把数据治理拆成顶层设计、组织架构、制度流程、平台工具等等,如果有必要,再进一步拆细,然后针对每个细分模块进行反复的学习和实践,这样技能就“长”在大脑之中了。
(3)随时获得反馈:学习数据治理,光看理论和方法是不够的,你得获得足够的反馈,这就需要真刀实枪的上阵。我们得先抛出一个数据治理方案,然后老板和利益相关者对方案进行评估和反馈,我们再根据他们的反馈进行修改,然后再迭代,一个方案可能要迭代十几次,中间经过无数次的研讨,才能最终给出一个符合企业实际的方案,在持续的实践反馈中,我们了解了到了很多理论和方法没考虑到的情况,或者不够细化的地方,这些就成了我们对数据治理独一无二的领悟。
(4)注意力高度集中:数据治理我们写了1年的方案,几百页的PPT,这些PPT是大家智慧的结晶,它要求我们团队静下心来,调动大量的身体和精神,连续一个月就干一个事,全力以赴,绞尽脑汁,非常不好玩,但只有这样,数据治理的技能才能在大脑中“扎下根来”。
(5)变换学习场景:这让我想起自己学习数据治理的历程,我先看了DAMA,华为数据之道等书籍的阐述,有了初步概念,然后请教了业界的数据治理专家,对这些概念加深了认识,再然后就这些概念跟老板做了交流,现在还拥有了数据治理概念的一些实践,偶偶还会写写数据治理概念的文章,多样化的学习场景让我对数据治理的概念印象深刻,大脑依据线索提取的能力就会越强,有次别人问我元数据的概念,其实我提取的记忆是来自于跟老板的某次对话内容。
(6)具备成长型思维:学习重在实践,但实践中我们难免有出错的风险,因此出错的时候,你到底是迎难而上还是刻意规避,决定了学习的持续性。前者把每一项任务都当成成长的机会,会愿意花更长时间钻研难题,后者把每一项任务都当成证明自己能力的测试,它会害怕被证明能力不够,因此尽量选择简单的任务。但就是这么一个思维差异,导致的结果天差万别。因此,我特别喜欢皮实的员工,即使在开始的时候显得不那么“机灵”。
还有一点就是我们需要通过费曼学习法来验证自己的学习效果,如果你能把所学的数据管理知识用自己的语言重新组织,然后写出来,甚至教给别人,那应该算是达到了比较高的水平了,否则,就要思考下是否高估了自己。
6、选对数据知识的经典读物
关于数据管理各类专业的具体课程已经很多了,现在有了AI的加持,学习变得更加容易。无论想学什么,AI都会给你一个具体的、详实的课程指导。
下面是KIMI给出的数仓分层模型学习的课程设置建议,资源也都列出来了:
GPT-4O发布后,AI辅助教学的水平超越人类指日可待,并且7*24小时在线。我写过三篇关于如何利用chatgpt进行学习的文章,分别是《问了ChatGPT 上百个问题后,我断定ChatGPT可以重塑学习范式!》、《我用ChatGPT搞懂GPT技术原理,只问了30个问题,这是极致的学习体验!》、《没有读不懂的书,ChatGPT让我的理解力提升了1000%!》,大家可以作为学习的参考。
除了AI,如果要读书,我的推荐就是尽量先读经典,比如数据治理就是要学DAMA、DGI等经典框架。反正底层的大道就那么些,更多应基于实践的需要有针对性的学习,然后反过来找合适的读物进行拓展。
7、怀揣对新事物的好奇心
最后,我再讲下好奇心这个事情,因为我们所有的学习,首先需要始于一个问题,没有问题就没有后面的学习,专家也是在解决一个个问题中成长起来的,但问题是怎么来的呢?
大概取决于好奇心吧,好奇心越大,提问越多,收获一般也越大,由于好奇心不同导致的人与人之间的差距也是很大的。
ChatGPT是在2年前发布的,当时所有的人都在同一起跑线,但几年下来,现在少数人已经将其变成了工作的利器,而大数人则仍然原地踏步。有人会担心将来可能被AI取代,但真正的威胁可能并非AI本身,而是那些对AI充满热情和好奇心的人。
我的好奇心增强大概起于学习习惯的养成,读书多了好奇心的点数会增加,因为读书拓展了未知的边界
这种好奇心驱使我在2年内连续问了AI超过1500个数据专业问题,要事不抉问ChatGPT已经成为了我的习惯。
经常在周末,我会对着一众AI(ChatGPT、Claude、Kimi、Gemini、copilot 等)提问,从早问到晚,内容涵盖数据治理、数据管理、数字化、数据要素、数据建模、数据架构、数据目录、数据编织、数据网格,数据安全、BI、报表、标签等各个方面,我无所不问,AI则无所不答,而且经常有令人惊叹的表现。
应该来讲,有了大模型后,知识的获取更方便了,好奇心更容易满足了,这是时代赋予我们的新机会。
有人说未来的世界属于那些善于向AI提出问题(即Prompt的能力)的人,因为答案就在那里,关键在于你能不能提出准确的问题。
七个方面终于讲完了,可以看到,成为一名真正的数据管理专家的道路艰辛且漫长,很多东西也不掌握在自己手里,我们能做的,就是知道自己的不知道,控制自己能控制的,然后尽量每天进步一点,其他的,就顺其自然吧!

八个领悟:我在数据管理中的挑战与反思! 2288
麦肯锡逻辑思考力 2352
如何写好年终总结?V4.0 1903
2024年,我的数据工作计划 4675
我的2023年个人总结 6338
信息部门如何编写2023年度工作总结与2024年度工作计划 2645

查看全部文章

点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶
继续滑动看下一个
与数据同行
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存