查看原文
其他

关于提升机器学习能力的方法 | 从周志华《机器学习》到李航的《统计学习方法》

傅一平 与数据同行 2021-10-16

点击上方蓝字关注公众号

请您点击“与数据同行”以“关注”,关于数据的实践与思考,每周一我在这里等你!

作者:傅一平   就职于浙江移动大数据中心

机器学习、人工智能现在这么热,对于企业内搞数据的职场人士来讲,很多都想往这个方向发展,但怎么发展呢?

既然在企业内了,笔者认为实践为第一要务,业务、数据和经验最重要,因为这三个能产生最大的现实价值,没什么好说的。

如果想再提升,除了自己多思考总结,则要找行业厉害的人去学习请教,这样可以少走弯路,开阔自己的眼界,它山之石,可以攻玉,肯定没错的,比如看笔者的与数据同行的公众号?

再有,就是到学校进行系统的学习,但这个难度较大,一方面现在大学能开出这类课程的本身很少,另一方面一般实用性不会太高, 你看现在人工智能的大师现在都往企业跑,当然参加培训也是一种,但一般培训也是点到为止,靠的还是线下的自学功夫。

最后,就是自学了,其中一条重要途径就是看书,看好的机器学习的书,那什么是好的机器学习的书呢?

要谈这个问题首先得看你的预期是什么,机器学习也是分境界的:

第一层次是自创算法能力,这显然要求能知其然知其所以然,这个时候,数学成为了一个基本工具,没扎实的底子就不要尝试了,深度学习的三个巨头辛顿、本吉奥和杨乐昆显然是这类人,也包括现在很火的吴恩达、李飞飞等等,这类人大多处在学校或研究机构,当然现在很多也出来,因为研究需要资源,比如数据,但对于企业内大多数搞数据应用的人来讲,是达不到这个水平的,也没必要,因为企业以收益为核心,好用为第一要务,一个新算法的创新可能远不如另一个普通算法来的有用。

第二层次是应用算法能力,就是要求你是个应用算法的大家,一方面是个算法的集成大师,能够充分利用各类算法的长处去解决某个具体问题,包括能够基于工具灵活的使用它们,具备丰富的调参经验,另一方面是行业的业务和数据大师,是能将业务,数据和算法能很好结合的人,企业内有志于做机器学习的人应该努力往这个方向靠,但要理解和应用好算法并不是那么容易,比如同样是集成算法,到底采用随机森林、ADABOOST或是GBDT呢?只有对于各类算法理解深刻的人才能进行更好的选择,而这个理解深刻可不是掌握一个工具那么简单,它是需要一定算法领悟能力的,包括算法的构建过程,而要深入的理解就需要线性代数,概率论等数学知识,你也许需要看书来辅助理解,绝对不是仅靠经验看代码就能揣摩出来的,理论与实践总是相辅相成的。

第三层次是应用工具的能力,只要大致了解算法有哪些,掌握基本的数据挖掘方法,大致理解参数的意思,再结合自己的业务理解和数据处理能力,就可以愉快的干活了,企业内很多能称得上是数据挖掘师的应该处于这个阶段,大家水平的高低源于数据和业务理解能力,工具使用的熟练程度,比如R,Python等等,经验为王。

第四个层次是不借助机器学习工具,仅依赖业务理解和数据处理能力的数据挖掘工程师,其实很多人也可以做的很好,因为很多企业还没到需要算法提升运营水平的时候,凭借数据挖掘师强大的逻辑能力和规则配置能力,或者仅凭一个新数据的引入,也许就可以大幅提升挖掘效率。

注意,以上四个层次只是从知识掌握角度单一维度来区分,从现实情况来看,高层次的人并不意味着能产生高价值,很多第四层次的人贡献可比数据科学家大多了。

但从人工智能发展的角度看,越高层次的人,发展潜力就越大,这个应该可以达成共识,很多企业为数据科学家开出很高的工资,是对其未来寄予厚望,AlphaGo围棋本身无法产生价值,但其赋予了DeepMind这个公司非常高的估值,因为业界认可其算法的潜力,搞机器学习还是要着眼于未来,也许不能过于急功近利。

前面饶了一大圈,其实笔者要表达的是,搞数据挖掘的人不要仅仅满足于现状,持续的提升机器学习能力还是很有必要的,努力往高层次走吧,如果没有差异化,未来的竞争力就会打折扣。

职场的数据人士要达到第四、第三层次,其实不需要看书,实践即可,但要爬到第二层次,就要看一些书了,那么,职场的数据人需要看什么书呢?

周志华的《机器学习》这本书豆瓣上评到8.7,各种赞誉,感叹国内作者能写出这样的书来真不容易,既然这本评价很高,笔者就乘着国庆读了一下,精度了三分之一,后面的泛泛而读,因为最后读不下去了,这本书没有传说中的那么好,或者说,企业内的数据人员,并不适合读这本书来提升机器学习水平,更不适合新人。

周老师是机器学习的大牛,水平应该不是盖的,但显然这本书的阅读对象应是具有较高数学和机器学习水平的人,用它可以来梳理自己的知识体系, 权当作为参考书籍,但绝对不能成为一本学习机器学习的正书,很难想象对于想拿这本书入门机器学习的人来说,到底能有多少收获,诸如隐马尔科夫模型等都写得不好,跟李航的统计学习方法的阐述方式相差很远。

书里面学院派风格比较严重,各种旁征博引,但又没说透,读不懂是怎样一种体验大家都懂的,总觉得如果作者真正搞懂这些东西的话,是可以深入浅出的讲出来的,不应该是这个样子, CSDN,简书上很多文章都秒杀这本书。

当然也有可取之处,包括第二章的模型评估与选择、第四章的决策树、第八章的集成学习,第九章的聚类,的确起了开阔眼界的作用。

由此引出机器学习书籍选择这个话题,一本好书可以让自己少走弯路,以下是笔者的推荐:

首先,当然是李航的统计学习方法,虽然比较薄,内容不太全,但写得比较清楚,比如SVM一章,其将复杂的SVM理论讲的无比透彻,来龙去脉条理清晰,给出了大量证明,之前看网上很火的那个SVM入门教程,对svm的理解还是流于形式,知其然不知其所以然,这次看这本书解开了不少疑惑,从线性可分SVM(硬间隔最大化)、线性SVM(软间隔最大化),到非线性SVM(核技巧),每一节都是同一风格的安排:问题描述、形式化定义,学习的对偶算法,其中穿插证明,对于想迅速入门而且不喜欢读英文书的人来说,这绝对是一本经典之作。

如果要让笔者推荐机器学习的书,这本是中文中当仁不让的第一,看了李航的个人介绍,现在在华为的诺亚方舟实验室,希望有机会向他去学习。

其次,是CSDN和简书,笔者从那里学到了很多零碎的机器学习的知识,很多文章浅显易懂,远远好过市面上大多数书籍,当然你要成为一个有心人,没有找不到的浅显易懂的讲解方法,关键要有颗寻找的心,也不要认为机器学习的数学太难,自己就是看不懂,网上自然有大神来助你,一个算法再硬也硬不过一颗坚毅的求学的心吧。

最后,是机器学习应用的书,这些书往往理论和实践会做较多的结合,看了也是大有裨益的,近年也买了一些,不能说好,权当参考吧,当然,看同类的书太多其实不是好事,但笔者总想找到更好的书,因为每本书肯定有其闪光点,授业也可能有用,因此总忍不住就买下了。

1、《深度学习与计算机视觉》:刚买的,读了一半,这本书前一半在讲深度学习的数学预备知识,有些角度蛮好的。

2、《白话大数据与机器学习》、《白话深度学习与TensorFlow》:适合入门,这是一个经典系列。

3、《大嘴巴漫谈数据挖掘》:适合入门,当初有个愿望用一页PPT把一个算法用业务的语言讲清楚,因此疯狂的找这类书籍,希望获得启示,这个愿望已经初步实现了。

其他还有很多,诸如深入浅出数据分析系列、数据挖掘导论、数学之美、大数据分析的道与术、TensorFlow实战等等,每个人都可以基于自己所处的阶段去选择合适的书。

对于职场人士来讲,读专业书的目的性是非常强的,大多要精读,结合理论和实践形成自己的知识框架,天下很大,绝不仅仅是工作中碰到的那些,师傅领进门,修行和超越还是要靠自己,因此更要注意选择适合的书,这能节省很多时间。

话说最近出了本老外的经典书籍《深度学习》,很厚很厚,同样不建议买,除了翻译原因,其它原因见上,希望于你有启示。

历史足迹

传统BI的认知:

《我们需要什么样的ETL?》

BI一线管理者的二次创业?

《十幅图读懂BI自助取数系统!》

《为什么传统BI没前途?》

《为什么BI取数这么难?》

《BI自助取数是怎么炼成的?》

《报表系统的雄心? 》

《重新认识数据可视化》

《为什么数据挖掘很难成功?》

《如何才能做好一张报表?》


大数据的实践:

《大数据运维的思考》

《企业的数据中台的价值》

《部门有界,数据无界,大数据需要大胸怀》

《一个传统企业大数据发展的编年史》

《决战大数据的对内运营》

《为什么选择这样的大数据平台架构?》

《从“培训计划”说起,传统企业要培养自己的大数据人才》

《为什么没人愿意为大数据洞察报告买单?》

《业务人员的革命:从大数据运营是一台“戏”开始》

《我们需要什么样的大数据培训?》

《大数据需要什么样的合作伙伴?》

《不忘初心,大数据不是IT的狂欢!》

《大数据,悟道2016》

《我们缺什么,一次大数据头脑风暴的启示!》

《一个大数据应用是如何炼成的? 》

《一只传统企业大数据平台团队的绽放!》

《大数据,为什么不是传统BI的简单升级?》


数据管理的领悟:

《从DAMA出发,一个指标库到底是如何炼成的?》

《一本数据字典的三生三世》

《思考|谈谈数据管理的原则》

《重装上阵-大数据管理的实践和思考》

《我如何完成一本企业数据字典的编写!》

《为什么数据管理工作很难成功?》

《七幅图读懂企业的数据字典》

《六把武器? 谈谈DT时代的大数据资产管理》


数据人员的修养:

《用数据说话:一份不算总结的半年度总结》

《这五个灵魂问题,解决BI新人80%的困惑》

《数据分析师的自我修养》

《为什么有些人用3年的时间获得了你12年的数据分析经验?》

《经营分析师如何进一步提升自己的境界》

《数据从业者与PPT的进阶》


运营商大数据:

《运营商大数据运营的现状及思考》

《浙江移动发布手机终端大数据分析报告》

《联通的大数据反欺诈,依赖互联网公司靠谱吗?》

《电信运营商的反欺诈系统不会侵犯用户隐私!》

《DPI大数据之战,运营商的艰难抉择》

《PK BAT大数据?谈谈运营商大数据的价值》

《唯有数据创新,运营商才能实现大数据变现的突破》

《逆袭 | 运营商吸引大数据人才的七个优势》


我的读书笔记:

《理解深度学习的钥匙–参数篇》

《理解深度学习的钥匙 –启蒙篇》

《读吴军的智能时代

《如何清晰的理解区块链?》

《我如何理解深度学习?》

《进阶: 产品启示录》

《黑客帝国的前奏:工业大数据的崛起》

《互联网广告:大数据变现的颜值担当》

与数据同行

ysjtx_fyp

长按二维码识别,关注此号!



视频 小程序 ,轻点两下取消赞 在看 ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存