读者来稿 | 浅谈大数据时代

2018-04-25 电子书支援计划 电子书支援计划

大数据、机器学习、数据挖掘、深度学习这些在当下被无数次提到的名词其真实意义是什么?他们真的被正确使用了么?

比如说,曾经在广播电台里听到主持人说,“根据大数据我们计算出这个餐厅的位置在地图上的 XX 市”。又比如说,面试的时候被问到大数据是什么,面试官给的答案是“高速,大量,低价值,多样性”。我们总喜欢加入一些高大上的词语,令言语变得更有力量。可是殊不知越质朴的文字,越有打动人的魅力。其实这些听起来令人费解的词语,本质是数学,统计和计算科学。

好吧,显而易见,大部分事物的本质都很简单。

来随便聊一聊吧。大数据是随着计算机、网络的普及,我们有能力将日常生活中产生的数据都收集起来。随着数据量的日益增长,无数的信息被囊括其中,大数据时代应运而生。在这个时代里,由数据产生了技术。在这个时代里,数据是一切的基础,没有数据的技术宛若空中楼阁(所以可能末世来临,我们是最没用处的一个职业)。在这个时代里,如果能得到你的一切相关数据,那么在一定程度上能还原你的人生轨迹。

举个简单的例子,曾经在学校里上过一门课叫数据可视化,老师让大家安装一个记录步数地点和时间的 App,假期结束后把数据导出来任我们自由发挥。从这批数据里,我能从每天的数据里知道对于你这几天的相关信息。

比如说,有个人先坐车到 DC,再从 DC 坐飞机飞到 SF,在 SF 机场坐地铁去了三藩市,之后在三藩市里闲逛。我可以从地点判断你的去向,从点的密集程度判断你的移动方式。所以想想看,如果我能知道你的支付信息,那么我就能够判断你的消费情况、购物喜好、家庭情况等,如果我知道你的社交网络,那么我就能够判断你的喜好,谁不偏爱顺你心意的人呢?这也是 Facebook 这次信息泄漏后果如此严重的根本原因,还好小扎国会听证会可以撑住全场(想看他的听证会)。


好了扯远了,收!
那么机器学习、数据挖掘、数据分析又是什么呢?收集到的数据里含有很多信息,但是要通过合适的方式才能发现其中的规律,所以人们就总结了如何从中获得价值的方法,从而诞生了数据科学这个新的领域。如果将这个领域类比成武林,那么其中有很多不同的流派,语音、文字、结构化数据等,每个流派都有一套自己的修炼方式,但其根本是同源的。所以如果想要真正的了解,需要从统计学开始系统地学习。

简单的举一个例子,监督性学习。监督性学习中机器好比一个懵懂的小孩,我们不停的用已有的知识教导他,告诉他圆圆的、红色的水果是苹果,告诉他黄色的是梨子,告诉他绿色的、圆圆的是西瓜。经过不停的比较、修正、学习,那么当你给他一个新的物体时,他能够通过已有的特征根据以往学习的经验来判断这是西瓜、苹果还是梨子。之所以需要机器,是因为不同的物体有许多不一样的特征,数亿级的量级下单凭人工想要完全发掘是不可能的,所以机器学习、数据挖掘都是帮助我们快速寻找规律的工具。

感谢本文作者 @嘭 的优质输出

专业背景

本科中山大学,研究生美国弗吉尼亚大学统计系,目前从事互联网人工智能方向。

点击「阅读原文」查看她的知乎主页,认识她!

向她提问