查看原文
其他

数据分析入行半年之经验、感悟与思考

louwill 机器学习实验室 2019-04-22

转眼间这个当初志在分享数据科学技术和经验的公众号已经两个月没有更新了。真心的向各位关注我、督促我的各位老师、同学和数据科学爱好者、从业者们致个歉。今天这篇文章想跟大家谈一谈我个人从一名应届生到数据科学职场半年多时间的一些感悟、经验和计划,以及公众号从下周开始全面恢复更新的事情。

 

第一个感触是关于学历的。算是老调重谈了,但我还是想说一下。机器学习乃至数据分析是一个非常看重学历的行业,我小时候读书没多少天赋,全靠生拉硬拽才一路读下来,本硕都是普通高校,本身获得的资源有限,中间自己要是再跑偏点方向的话完全走不到今天这步,当初本科毕业报考了国内金融前五的高校,企图逆天改命一把,无奈不遂人愿,心灰意冷之下接受了调剂。后来适逢大数据兴起、统计学成为显学,数据分析一不小心成了21世纪最性感的职业,于是乎埋头扎身投入到这场洪流之中。

很多人以为数据行业薪资水平高,对自己大有沾沾自喜之意,认为自己才能了得,看其他行业颇有睥睨众生之感。殊不知这是当前时代下的薪资溢价,你的高薪资很大程度上要归功于赶上了好时代,不好好规划学习,潮流退了裸游的肯定是你。对于刚入职场的应届生,能力的事情还是不要太夸大为好,实事求是,虚心学习。扯远了,还是回到学历上来。去年参加狗熊会的人才计划,同学们一个个的要么C9要么985、211,我等四非高校的学生好生寒碜又无比艳羡。我们现在的高校毕业生面临的现实情况就是:所有人都告诉你学历不重要,但是所有人都在暗地里将你简历上的学校审视了几百遍以至于顺带对你打上标签从而对你产生最原始的判断。

所以对于985、211的同学,我没资格建议你们,打好手上现在的牌足矣。但对于跟我一样出身所谓四非的对数据科学非常感兴趣或者是觉得其他行业工资低想毕业后拿个体面的薪资的同学,我就不得不善意的提醒你们了:去考研,考个统计、数学、计算机或者是直接开设了数据科学相关专业的好一点的学校,数据专业和行业本身就是产学研非常紧密,就像我现在感受到的一样,工作期间的半年里,跟在学校读研没什么大的区别,该看的paper一样看,该撸的代码一样撸,唯一区别就是对你的学习能力和输出能力要求更高。所以,选个好学校、数据科学相关专业,一旦上了这条路我相信各位会比我强。对于像我一样本科时候没什么意识、读研也读的普通的同学来说,我的建议是您可要赶紧学习然后找份实习呀,去企业里写写SQL可比在学校自己拿本教材学能力提升来的快多了。

 

搞AI学历是门槛


第二个需要谈的是关于数据分析、机器学习乃至整个数据科学的理论学习的问题。公众号长时间没有写文章,但后台咨询问问题的人却是络绎不绝,很多都是关于学习的问题,大到数据分析怎么学,小到R语言如何做随机森林如何参数。很多人觉得数据建模、机器学习在弱化理论部分,现实工作中的工程实现谁还会从底层写起,调包调的不要太欢乐。

很多人张口就来深度学习、迁移学习,以为调个tensorflow实现了个手写识别就深通深度学习真理,却连基本的链式求导法则、方向梯度都没搞清楚,荒天下之大谬。万物皆有法,优秀的框架和轮子谁都喜欢,但是作为这一行的从业者,我的理解是:对于数据结构、机器学习理论和算法,乃至背后的数学推导,涉及到的微积分、线性代数、概率统计、凸优化、信息论等等都有一定的功底,随便一问知道集成学习的理论框架,能快速的写出GBDT的损失函数,对机器学习理论的学习深度决定了你将来在该领域的上限,而不是你包调的有多快。只有在这些算法理论你学的非常清晰的情况下你才可能在此基础上考虑它应用场景,如何落地,如何在产品中实现、让数据价值落地,这也是为什么优秀的机器学习工程师也必须具备产品经理的能力。

GBDT损失函数


所以,文章读到这里的各位,扪心自问一下:此刻的你能把常见的模型、算法做到了然于胸吗?李航老师的那本蓝皮书统计学习方法我读了三遍,每遍都有新的体会,算是常读常新了。尚在大学校园里的各位,好好把数学、统计和机器学习理论基础打扎实,在此基础上去从零开始写算法若能坚持下来大有脾益。现在社会人心浮躁,凡事以结果为导向,总想着报个网课三天入门人工智能,一个月找到高薪工作。结果只能是欲速则不达。所以各位好好学习,把基础打扎实,养得深根日后才能枝繁叶茂。

  

第三点想说一下数据的业务价值问题以及个人对未来三五年人工智能行业的简单的看法。还是因为狗熊会,因缘际会从北大王汉生老师以及他的狗熊会团队那里学到了最朴实的商业数据分析价值相关理论。自打工作之后不自觉的会将这种观念带入到实际工作场景种,老实说,因为公司业务场景的特殊性,自己大半年来一直都是在搞数据技术方面的工作,对于业务只能算是慢慢积累。数据自己不会产生价值,必须在技术在运作下从业务中来再到业务中去,结合实际的应用场景,才能实现真正的价值落地。

数据分析往后不大会是一个职业,而更可能是一个技能,是数据相关从业者的必备技能,而数据分析本身就是四成的技术六成的业务,所以数据分析师、数据挖掘工程师哪怕机器学习工程师们在基于模型分析的基础做业务决策的话,希望能对业务应用场景做最大程度的考量。技术可以学可以练,但业务真的不是一天两天就能学的会理解的透的,这需要积年累月的锤炼,需要长时间跟需求方打交道才能养成的。王老师之前在公众号文章里说往后企业最关键的数据岗位是数据产品经理,在下深以为然。数据产品经理是最晓得如何将数据价值落地的人,没有他们怕是行不通。

 

当前AI行业溢价严重


关于人工智能这个风口未来还能火几年我不敢乱说,但是我看到的是经过这阵之后国内的高校已经在跟上来了,比如之前南大在周志华老师的带领下成立了人工智能学院等等,当今这一块的人才缺口依然很大,但可以预见的是未来几年内我们的高校会培养大批数据分析师、机器学习工程师之类的人才,相关岗位的门槛也不再会高不可攀。目前市场上很多创业公司的都打着人工智能的幌子吸引投资,实际根本也没干什么智能的事儿。等到什么时候资本方没兴趣了,不买账了,这样在风口还穿个裤衩的公司可就不好过了,相应的这波人才溢价也就差不多了。当然了,对于功底扎实、能力出众的AI人才,我相信永远都会是市场的香饽饽。

以上是一些粗浅之见,仅从个人出发胡乱谈的一些。从下周开始,公众号将重新开始机器学习方面的内容分享,就我个人而言,目前正在努力学习数据结构与算法、继续加强在机器学习理论、深入linux编程以及继续提高python的coding能力上下功夫。感谢各位一以贯之的支持与信任。








一个数据科学从业者的学习历程

长按二维码.关注数据科学家养成记


文章已于修改

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存