谈谈我的《深入浅出大数据系列讲义课程》
点击上方
作者:傅一平 博士 就职于浙江移动大数据中心 每周一我在这里等你
关注后点击精彩文章目录可浏览分类精品文章
今年在大数据培训上花了一些功夫,写了不少讲义,但无论是在公司内培训,还是到外面交流,发现当要把主题内容写出来、讲出来的时候,还是有无力感,反思一下,说明一方面是缺乏归纳总结,另一方面理解还有限。
微信公众号文章由于篇幅较短,兼顾的面尽量广些,因此内容的深度有限,到现在能吸引到不少关注者,也是受宠若惊,笔者现在每周还能写一篇,全赖大家的鼓励和支持,很多文章的观点现在看来贻笑大方,但也算是记录了当时的认识水平。
吴军在《硅谷来信》中刚提到,当100多期存量内容讲完了后,就需要加强学习和思考了,否则节目也做不下去了,笔者也有类似的感受,最近笔者写了不少中台的文章,觉得应该把自己的脑子也当成中台,凡是能沉淀整理的东西,一定要及时结构化、体系化的记录下来,这些经验和感受也许对它人有用。
但写微信公众号文章显然是不够的,因此,笔者决定写一个培训教材系列, 当能够把所实践的东西当成教材写出来,讲出来的时候,也许表明是真的掌握了,要做成这个需要改变日常工作笔记和读书笔记的记录方法,诸如工作笔记就不能仅仅写流水账了。
笔者在国庆已经整理了部分内容,姑且叫作深入浅出大数据系列吧,深入浅出是一种追求的境界,深入是理解的要求,浅出是表达的要求,两者相辅相成。
当前整理了五个讲义,分别是《大数据平台的理解和实践》、《如何进行有效的大数据管理》、《机器学习、人工智能及应用案例》、《电信行业大数据分析竞争法》及《电信行业大数据商业分析实践》,除了持续修改,未来还会增加一些更加专业的内容,比如营销平台,标签库,自助报表,自助取数等等。
其实这五个讲义是有前后逻辑关系的,第一课是讲技术平台的基础,这个解决计算和存储的问题,第二课是讲数据管理,这个解决数据建模和资产管理的问题,第三课讲机器学习,这个解决智能化的问题,第四个回到行业,讲企业如何基于前面三个基础去形成自己的竞争能力,第五个讲应用实践,五个方面层层递进,希望能端到端的解决大数据从平台到应用的问题。
当然笔者能力有限,只能基于实践写自己有体会和认识的东西, 二、四、五笔者是实践最多的,三其次,一最后,有些内容笔者实践的不多,只能算纸上谈兵了,鉴于笔者所在企业技术牛人很多,因此还是努力去学习和写出来。
下面对于五个讲义的目录做个简要介绍:
1、大数据平台的理解和实践
第一部分白话大数据技术是比较浅显的,笔者将大数据的理解做了重新的诠释,对于为什么要采用大数据技术,这些技术的特点,也会用图文案例的形式进行阐述,主要是为后面的讲解内容做些铺垫,希望可以给不大了解大数据技术的人一个形象的理解,对于熟悉大数据技术的,可以看看其中的表达方法,因为笔者刚接触到大数据技术的时候,是受到过认知挑战的,后来有次给一线业务人员去培训,用了非常形象的写法和说法,效果还是不错的,比如讲批处理、流处理啥的,用下面的表达可能更好点:
第二部分站在企业的角度去讲大数据面临的现实技术挑战,从采集交换技术,到存储计算计算,再到数据建模,再到数据开放,再到统一管理,会重点阐述一些技术的适用场景,主要是技术选择上的抛砖引玉。
第三部分主要是讲具体的平台架构案例,会从实践的角度讲讲为什么这么划分层次,每个模块的实际价值是什么,更多的是阐述自己的一些看法。
这个讲义最适合入门,主要是笔者学习的一些心得,也适合作为媒介与专业人士做些交流探讨。
2、如何进行有效的大数据管理
如果说大数据平台是硬技术,那么大数据管理就是软技术,笔者实践中深刻的感觉到企业一般会特别重视大数据平台建设和大数据应用,但对于大数据管理不够重视,可能跟其价值不好评估有关,其实大数据管理对于平台和应用是起到承上启下作用的,大数据管理中的数据建模可以看成是大数据领域中的“中间件”。
笔者会谈谈数据管理的意义,从实践的角度讲讲企业的数据如何做梳理,如何做采集,如何做建模,如何建立对应的机制、组织和流程,如何实施核心能力掌控,最后讲讲为什么一个强大的数据管理平台是如此重要。
数据管理类的书市面上凤毛麟角,可借鉴的非常少,估计主要因为是各个企业的业务和数据是不同的,由此形成的模型和管理也是相对个性化和行业化的,DAMA更多是一种道上的阐述,在术上乏善可陈,数据管理缺乏最佳实践。
这个讲义适合有一定数据管理积淀的人,比如笔者提元数据的二级互动,对于新手来说可能是无感的。
3、机器学习、人工智能及应用案例
笔者这个讲义也是入门用,一方面是为了说清楚机器学习的内涵,另一方面是开阔眼界,毕竟当前机器学习实操的课程不少,工具也很多,任何一个人都可以用R、Python较轻松的做出一个逻辑回归。
第一部分会讲清楚机器学习的概念,都是图文的形式,常用的每个算法用最通俗的语言表达出来,基本不用公式,个人觉得理解每个算法的出现背景和优劣很重要,搞数据挖掘的其实是有点闷骚的,比较容易坐井观天,因此这一部分可能于他们也有益。
第二部分会讲人工智能和深度学习,非常简单直观,就是入门用的,后续会增加诸如CNN等内容,在较短的篇幅中讲清楚也是考验功力的。
第三,第四部分开始讲实践,笔者在运营商工作,因此围绕通信行业谈谈数据和应用的案例,主要是一些有体会的东西。
4、电信行业大数据分析竞争法
主要从运营商的角度把前面的内容串接起来,从运营商做大数据的背景,大数据平台建设,到数据,标签,建模,应用和产品等等,说明运营商在大数据领域的潜在能力。
5、电信行业大数据商业分析实践
主要讲运营商面向大数据价值变现要储备的五个核心能力,这是差异化竞争优势所在,同时重点谈对外变现的案例和对内变现的思路等等,这个可能对一些传统企业有启示意义。
深入浅出大数据系列讲义囊括了大数据方方面面的内容,有人会说泛而不专,的确有这种问题,但笔者觉得大数据是一门系统化学问,要推进大数据工作要兼顾很多方面,不能有特别短的短板,比如只知道数据却不知道应用,创新往往来自于跨界,比如数据管理里面很多问题是要靠技术解决的,你不能不了解硬的技术,而长板也许1个就够了。
梳理出基本的目录后,一方面对于专业方向看得更清楚,另一方面学习和工作中碎片化、灵感化的东西可以快速纳入到对应讲义的部分, 有助于补足短板,完善自己的知识框架,有助于系统化的解决工作中的实际问题。
现在得到上有各种学习方法的介绍,笔者也受教很多,但落地还是需要结合实际开展,也许写个讲义是一种吧,理解不深的东西显然是不敢拿到讲台上去忽悠的,这也算是一种修炼吧。
由于讲义涉及的内容很多,很多也还没写好,笔者会适时将其中的精华内容通过微信公众号发布出来,欢迎关注。
历史部分文章
(关注微信公众号"ysjtx_fyp"后点击精彩文章目录可分类浏览全部)
传统BI的认知:
大数据的实践:
数据管理的领悟:
《七幅图读懂企业的数据字典》
数据人员的修养:
运营商大数据:
我的读书笔记: