【41计划打卡-03】《大数据时代》读后感
今天来谈谈我最近看的一本书《大数据时代》,作者维克托·迈尔-舍恩伯格。
相信这本书看过的人不在少数,我也不是第一次看了,不过好书,就是经得起推敲,常看常新,最初这本书是我以为高中老师了解了我的专业之后给我推荐的,上次翻这本书也是前年的事了。和市面上很多很浮躁的炒概念的书不太同,这本书确实是经过一些思考,能告诉读者在当前,需要做什么,能做什么以及怎么做,当然,要想学技术,这本书一点都没有。下面我讲讲我从里面读到的东西,当然,也有一些我个人的理解。
长文预警,不信,你看右边的滚动条,还不行,就看我的排版,没错,都是字。
1
对于大数据是什么,各方面,各种人给出了各种各样的定义,更有甚者把一些很简单的事扣上了“大数据”的名头,显得逼格很高,而在这本书中,作者给出的是这个概念:
不用随机分析法这样捷径,而采用所有数据进行分析处理。
简单地说,就是不用随机抽样,而是采用“样本=总体”的方式进行各种数据分析,IBM对其进行了一些细化给出理解,即处理的数据具有Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)的特点,成为“5V”特性,当然还有一些书籍添加了其它元素,都是一家之言,我也不多列举了。
“样本=总体”是一个非常大的变革,过去因为各种原因,进行各种统计分析并不能使用所有数据,所以采用的是抽样调查,即使我们知道抽样调查存在很大的误差,但是因为一些限制必须使用。
其实可以看见,大数据的出现非常依托计算机技术的发展升级,因为计算机的出现,令我们的计算更快速而且准确,也让我们获取的数据更加多样化,新的数据如点击率,搜索率,浏览数时间,评论文本等,都是我们在计算机技术发展到一定程度之前所没有办法的得到的。
另一方面,大数据还受到数学学科的推动得以进一步发展,从最初的描述统计,到数据挖掘中涉及的诸如关联规则、聚类分析等,还有目前所非常火的两个概念——“机器学习”和“人工智能”,其实都是非常依托数学学科的。然而,由于最初的大数据主要由计算机类专家发展起来的,而部分知识其实在数学界已经非常常见,所以出现会出现名词或者知识上的重叠,如“学习”和“迭代”,其实是类似的含义,监督学习和分类也有非常接近的意思。
个人认为,计算机技术和数学学科的结合,成为推动大数据发展、应用的原动力,这就是大数据,但是,大数据只是很大的一项技术,只能算一种工具,他需要背景,需要被应用,目前,无论是生物、化学、物理等科研方面,还是金融、互联网等方面,都慢慢地开始应用大数据技术,就像一块高性能芯片装在机器人身上一样,让机器人拥有了新的功能或是更高的性能。
但是,还是个人观点,我还是对这个概念持比较谨慎的态度的,真正厉害的技术并不需要随便扣一个其实还不明朗(其实是在大多数人眼中的不明朗)的概念上,用来显示自己多高大上,而只需要娓娓道来,就能展现其用途,正如真正的大师,不需要多高端的服装,就只是穿一套简单甚至残破武术服,也能吊打各种菜鸟,实力说明一切,不是么。
在书中,作者分为了三个部分,简单地说就是思维变革,商业变革和管理变革,我下面就按照这个思路去谈谈我的看法。
2
首先,根据作者观点,大数据就是一种统计技术的变革,因为计算机技术和数学研究,从最初的随机样本计算,能到现在的全体数据计算;然而因为全体数据计算,数据会存在一定的混杂性(例如统计人员在记录数据的时候少个小数点);而且,因为数学并不能完美的描述现实,看好,至少目前并不能做到完美,而且现实生活某些方面似乎也并不需要太过深入,所以,思考问题的时候并不需要考虑“为什么”,只用考虑“是什么”和“怎么做”即可,这里讲了三点,因为,这章就讲了3点,简单的说就是更多,更杂,更好。
说得通俗一点,环境允许,或者一个记录员千辛万苦得到了这么多数据,我只是抽样使用其中一部分,那岂不是浪费了其他数据?再者,抽样带来的误差非常难消去,(例如,一个999男1女的团体统计性别比例,抽样调查,就有很大可能会是全为男性,如果误差要求很高,例如要修建厕所,那算错了就很尴尬了?如果全体作为样本,就能避免这种尴尬)所以,在条件允许的情况下,尽可能地使用全体数据更加能表示全体,这点毫无疑问,而现在,在计算机技术的发展下,我们有条件对所有数据进行处理,那肯定就拿来用!
但是,数据拿到的多了更容易接近实际情况,这点是有前提的,那就是,数据全是正确的,然而,试试往往并非如此,用更多的数据意味着引入更多的错误,包括记录错误(如记录员少输入了一个小数点),计算机错误(如编辑数据的时候没保存,而电脑死机)等(自己编的,但是都是真实存在的问题)。这就是在大数据情况下数据的复杂性甚至是错误性,这时候我们多了一个或者说在以前可能并不重视的工作——数据预处理,这个在大数据环境下必须做!
学过概率论与数理统计的都知道,有一个概念叫做相关系数,还有一个概念叫做作回归,其实在大数据下,这两个工具都非常常用,用来表示事物之间的关系,当然的,还有关联分析,距离分析等,都能够用得到,用来检验事务之间的关系是否紧密,但是都存在一个问题,很多事物之间,数据上存在关系,但是事实上八竿子打不到一块,风马牛不相及,例如,GDP和一棵大树的成长满足格兰杰因果关系,例如啤酒和尿布在关联规则上存在很大的关联度,这都可以被成为数学上的“相关”,一个事物的发展或者变化和另一个事物有关,但是实际上,并不一定有关系(当然,啤酒和尿布这个是可以解释的,但更多情况下,似乎是解释不了的),而在处理实际问题中,我们会考虑先接受数学上的结论,而并不追溯为什么存在在这种关系,很多时候,数据挖掘就能通过数学工具找到这些关系,利用这些关系为实际应用服务。
当然,上面都是核心观点,里面还有些细节的内容,不赘述,自己去看吧。
3
在本章,主要讲讲一些商业上的变革。
首当其冲的,是数据化,说的更加通俗一些,叫做量化,即平时所说说的“量化”分析。因为数学的崛起,没错还是得夸数学,令很多用语言难以表示的事物能更加容易描述。先举个例子,我要估计一直股票的走势,如果用定性的话说,就是“明天会大涨”,但是并没有体现这个“大”有多大,“涨”又是怎么个涨法,如果是定量的说,可以说“明天有99%的概率涨100%”,这就很清楚了,99%说明可能性非常高,100%说明明天不仅涨,涨的非常多,所以大家也能尝到了量化的甜头,而这个,在金融数学里面称之为VAR。再举一个例子,也照应一下目前几个做文本挖掘的伙计,我通过在论坛里面厮混,知道“大闹天竺”这部电影被很多人喷,影评一般,但是,其实其他电影似乎也有这种情况,我就不知道,到底哪个还算好一些,于是,我对豆瓣、猫眼等的评论进行统计,给出正面评价的有多少人,负面评价的又有多少人,比例又是多少,于是我就能有比较清晰的对比,定量到人数,到比例,比直接说很多很少更加让人理解。借助数学,其实是数据,我们能更清晰的了解一些实际情况。
但,定量化真的就这么简单吗?绝对不是,例如,评价一个地区的缺水情况(2016年美国数学建模竞赛试题),其实就是考虑这个地区有多少水,详细点,有多少能用的水,脏的和提去不了的不算,再仔细点,必须是人均用水,再详细一点,这个数据还需要和其他地方进行对比,这个数据是可比的,甚至是可加减的,当然需要用一个数来表示,例如你考试考了89分,他88分,说明在这次考试中你考的比较好,评价缺水最终也需要一个数表示,可见,其实并不简单。
考虑量化的,还有很多方面,上面提到的困难主要因为概念的抽象性以及部分数据的难获取性,另外还有一些,如文本的定量,方位的定量,音频、视频的定量等等,其实也非常复杂。
价值,作者提到了数据的价值,数据收集时是会考虑数据整体的使用而收集的,但是当你进行分析的时候,因为目标并不需要运用到所有数据,例如你在分析学校学生每个班的学习水平时,可能不需要用到同学的学号,只需要每个同学的成绩,这时候学号就是无用的数据,在实际情况下,能用到的数据能可能只是冰山一角,但是,这冰山一角相比其他无用数据而言,却是如钻石比石头那样宝贵,数据在特定情况下有其特定的价值,数据挖掘是挖掘知识,但是其实还是在挖掘数据的价值,数据的价值,或者说,价格,也因此变得昂贵了起来,大量的数据公司开始出现,当然,一些关于数据性质的概念和研究也开展起来,数据的再利用,数据集成,数据折旧等。
上面提到了,数据公司的出现,其实,是反映在大数据的后阶段。大数据时代,贯穿其中的三个话题是数据、技术、思维,开始的时候技术和思维是属于比较前沿的,比较流行的,随着技术和思维的进步,部分后进组织也迎头赶上后,数据成为制胜法宝,于是有了各种和数据有关的企业和组织,技术、思维、数据企业也开始逐渐分工明显,形成一条产业链。
另外还要提到的一个很严肃的问题,就是“专家”和“数据科学家”的问题,个人认为,由于数学的高度抽象性,其能解决的问题就非常广泛,在学校的现状是,以金融专业为例,部分老师非常青睐学数学的学生,只需要补充部分背景或者业务知识,即可很快加入研究,部分老师都是本硕数学专业,博士金融等专门领域,所谓的“专家”,似乎有被“数据科学家”吞并的趋势(所以大家还不好好学数学?),或者说,新兴的部分领域已经不需要专家,或者说,更加需要类似“数据科学家”这样的人才,如大家可能比较熟悉的电子竞技,即电竞领域,数据分析师可能比“专家”更好,首先,电竞并没有太多的前车之鉴,像足球、篮球等领域就有比较悠久的历史总结出了很多理论和经验,但是电竞没有,但是却迫切的使用,大数据给予了电竞的教练和选手更多的信息,迅速总结出了理论和战术套路。那么,其他行业看到大数据的作用了,那么会不会引入呢?答案很明显了。
在这本书中,所谓的专家和数据科学家的区别在于,其决策的提出是基于经验和主观判断,还是数据和模型。
4
那么现在来说说管理上的变革,是对各位大老板的?并不,包括我们本身,其实说白了,就是决策。简单地说,就是大数据能帮助决策,这个帮助的程度甚至可以到代替人的角度,AlphaGo就是一个例子,在下围棋中,自动进行决策。
首先,大数据依托计算机,最大程度减少了人类本身存在的情感、偏见、失误等的问题,还能尽可能的保证精确,还能快速计算,不厌其烦,除了拉闸基本任劳任怨不会停下,这样子能让决策更加理性和正确;其次,获取数据,换句话说,信息更加及时,渠道也更加多,程序员不可能去数网站的点击量,但是计算机可以,而且知道的是实时的信息,目前很多信息都需要实时获取,决策实时进行,例如交通疏导等,这时候计算机决策变得十分高效;还有,信息的二次甚至多次利用,人脑的记忆很强,但是也很难比计算机强,强大的数据库技术能够存储更多的数据,这些数据在一定条件下能使用。
建模是利用大数据进行决策的基础,根据某些业务背景和数据训练得到模型就能够通过运行模型得到决策意见。所以,算法设计师、数学建模人员、数据分析师等等职位或者说是身份就显得尤为重要。
看完这本书,还是能学到很多东西的,看我呕心沥血的写了这么多东西就知道。看到这里的估计就是真爱了,总结一下吧,下面是比较迫切需要知道并且需要尝试做的东西:
理解大数据,别瞎扣帽子,内行看来,不会显得高逼格,而是low,认真做技术,做实用派更加好。
别拿任何理由拒绝学数学了,数学都不敢学真别在这个领域混了(我说的比较直,但个人觉得是真相)。
计算机技术,多少也要懂一些,至少你得会利用计算机作为工具去做一些计算、分析、建模。
看待数据的观点需要改变了,对数据的价值和清洁性(就是数据里面是否存在错误或者不合理内容的量)要有严谨的考虑。
别以为自己是大老板就啥都不用学,我指的是技术,否则难以服众,那你还有什么资格当老板?(对已经是老板的是,对还不是却想当老板的,也是)
能定量尽可能定量,否则,你让下属“买点吃的回来”,他带回来的你并不想吃或者太多太少。这里的定量的概念扩展了,是说东西尽可能细致精确,类似“深化改革”之类的话,其实比较考验听者和说者之间的默契。
先知其然,用之,再分析其所以然。目标是核心,实现是任务,有时间再来看为什么然后改进创新。
技术是枪,思维是战术,但是数据是子弹,没有了数据,啥都白搭。
保护并利用好自己的隐私。
没啥,这条我就是为了凑个整。
好啦,写到这,还是那句话,本人水平有限,有什么问题欢迎各种渠道和我讨论。
QQ:545281848