论坛实录丨玩转地理大数据,发掘更多地理价值
点击图片填写用户调查问卷,留下您的注册邮箱
免费获得3个月GeoHey平台标准版服务
众所周知,当下数据资源的重要性日益提高、数据应用多样化以及应用价值不断提升,空间数据的重要性在地理信息服务行业日益显著。
那么如何高效智能的处理日益增长的空间数据呢?有这么一群人,他们正在把机器学习、神经网络分析和数据孵化等先进智能的方法运用于空间数据获取、处理和分析等方面。
我们一起来看看他们是怎么做的。
https://v.qq.com/txp/iframe/player.html?vid=u0522bdm85f&width=500&height=375&auto=0
以下是演讲实录:
大家上午好!我是极海数据总监高楠,我一直致力于为用户提供地理大数据,帮助大家获取地理大数据,治理地理大数据,并从地理大数据中获取地理价值,然后从中获益。
今天我将从五个方面为大家讲述如何玩转地理大数据,如何从地理大数据中获取我们的大数据价值。这里总共涉及到五个基本的、传统的问题,如搜集数据,提高数据质量等等。
首先,我们先说最近半年一直在讲的一个话题,叫做新零售,这是当下比较火热的一个概念,时常听到很多业界的人士在谈论,大意就是要做好线下的生意,在这方面我发现有一套书特别好,叫做《新零售三部曲》,其中有一个书名道出了我的心声,因为它强调了地理的意义,那么地理的意义何在呢?接下来我们就来探讨一下。
这里讲的第一个例子是一个传统的广告营销。这里有四幅图,大家一定不陌生。如今所有的人都在用智能手机,可以说机不离手,手在机在,这里的四幅图,尤其是高亮的广告部分,大家可以看到,几乎所有的APP都有广告,不同的是你看到的广告和我看到的广告不一样,那这些广告是怎么来的呢?
根据传统的做法来看,所有的广告跟我最近上网浏览的数据相关。所以在这里可以看到,我最近浏览了一些汽车评测的视频和网站,因此APP会向我推荐汽车相关的广告,暗示我可能需要买一辆汽车,这样的广告数据,通过线上数据分析,确实跟我有极大的相关性,但我并不会打开它,因为我认为它跟我没有很大的关系,为什么这么说呢?
如果我们的广告商获取了我经常打开的APP的位置是家和公司,他就会发现这两个位置实际上是离的很近的,只有三公里,我每天上下班只需要骑自行车就好了,如果他推荐了一个自行车的广告,那我一定会欣然打开。
我再举一个简单的例子,如果我们要投放广告给大学生,我能不能针对玩王者荣耀的人投放广告呢?显然不行。我能不能给玩王者荣耀、同时使用大学生借贷产品且提交了课程表的APP的人投放广告呢?似乎是一个不错的想法。但是如果你要做这样的事情,就需要给数百上千的APP定义哪些APP是大学生会用的;且每出现一款新软件,你就需要去做一个定义,可以想象这是非常巨大的工作量。
我们想了一个简单的办法——既然你的APP每被打开一次就搜集一次我们的位置,何不直接找一找那些在学校里面经常打开APP的人呢?你不需要关注他用什么APP,只要知道在这些地域范围里面,这些人经常打开APP就好了,我给这个区域里面的人投放广告就可以了,就免去了前面提到的很多烦琐的事情。
所以这里出现的第一个问题就是,学校数据从哪儿来?我们不仅仅需要学校的数据,还需要小区的数据,甚至医院的数据,公交的数据,商场的数据,笼统的说,我们需要数百上千的数据。获取这些数据是一件非常痛苦的事情,这个过程到底艰难在哪里?
我们在以往做数据的过程中最大的困难是我没有数据,数据匮乏,但如今物联网、互联网数据非常庞大,你去实际操作的时候你就会发现力不从心,为什么?因为数据越来越多,增长的速度越来越快,数据太大了。
现在TB级的数据随处可见,你随便拿到的都是数百万,甚至上亿级的数据,我们用传统的办法已经非常难去处理这样的数据。大家一定会想到要借助机器的力量来解决,也可能会想到应该用到爬虫的技术。我们暂且不论爬虫和反爬虫之间的正确与否,如果我们能够保证机器的运转保持在90分的高分上运算,每十只爬虫就有一只会出错。
假设我一个月要采集一百份数据,那我要花十天采集所有的数据,每个月都要更新,结果是什么?每个月你要花一半的时间去审查那些错误的数据,错误的爬虫,每天处理一个,你总共要处理十天。所以这个是很困难的事情。为此我们搭建了一套系统来做这件事,并且定期更新这些数据,效果还不错。
当你搜集了一箩筐数据的时候,你一定还会发现一个事情——这些数据里面好像有一些不太对劲的地方。我们来看看这里有一些特殊的现象。
这里有三个场景,都是和位置相关的。第一个场景特别有意思,中南海里面的数据非常丰富,有4S店,有小吃,各种餐饮餐馆全都在里面,特别好玩,但这显然是不可能的。中间这个地方可以看到,蓝色区域是我们一个比较正常的区域,而我用粉红线画出来的区域,你会发现好像有两个数据叠在一起,但是他们分成两块,这样的数据似乎受到了某种不可描述的感染。
第三张图,我是一个自行车的爱好者,我去找一家复古的自行车店看一些零配件,我辛辛苦苦跑了很远找到这个地方,发现这个店已经成为永久不存在的一个店。所以我们在上网查询这些数据的时候就会怀疑 ,这样的数据值不值得信任,值不值得我去使用。如果我用这样的信息做分析的话,肯定很难保证我们的分析质量。
为了解决数据在位置上出现的问题,我们做了非常多工作。我们所有进来的数据,都会做一系列的规则上的过滤,还有技术上的处理。比如说有的数据在水面上,水上肯定不会有数据,除非它是跟水有关的数据有些数据可能过期了,有些数据加密混淆,有些数据根本不在地球上,还有数据各种各样的坐标系,大家一定遇到过这样的情况,有些数据可能直接给个坐标,就是00原点,在大海中央,这样的数据我们都需要过滤。
而这仅仅解决了一部分的位置问题,还有另外一部分让我们非常意外和惊喜。比如有人跟你说,五样小吃人均一万、两居的房租下来人均10万,如果有个人经常跟你描述这样的事情你会觉得这个人极度的不可信,因为他描述的事情是有问题的,是天方夜谭。但大家看,我刚才说的三个例子,是真实存在的。
前面一个就是我们说的10万块钱的小吃,你去看评论会发现实际上是九块九,但是后面的评论说没想到10万块钱可以吃这么好的饭,还有人调侃给了五星,价格相对优惠,可以去尝试一下。这样的数据我们不能说它是一个错误的数据,数据是没有对错的。如果你去餐馆吃饭,给个五星他送你一瓶可乐不是很正常的事情吗,快递小哥给你送外卖,求你给个五星,你也就给了,没什么问题。这些数据都是真真实实存在的,没有对错,只是看这些数据值不值得我们信任。如果我们能想到一种办法,把一大堆数据里面可信赖的部分筛选出来,并用来做决策,就极有可能得到我们可以信赖的结果。
在这里,我们引入了一种方法,叫做机器学习,来解决上述问题。为什么要用机器学习?我前面已经提到了,在大数据时代,任何一点微小的问题都会放的很大。就刚才我们所举的那几个例子,我们想到可以用一些规则筛掉那些价格奇高的小吃、不太合理的房价,不过如果用这样的方法,全国三百多个城市,每一个城市都要设置一个房价规则的话,基本上是没办法完成的。
那我们用机器学习的办法是什么原理呢?这里有一组表情,我们要做的事情就是把表情分成三类,高兴、不高兴,还有不知道是什么表情。我们从中选取一些表情作为训练数据,然后去分析每一个表情,有五种特征,分别是脑袋、颜色、眼睛、眉毛、嘴巴,我们把所有这些样本数据的所有特征放到机器中去训练,机器会把这5种特征转换为机器所认识的语言,即我们所说的模型。
用这样的模型可以做什么呢?当新来一个表情的时候,我们把它放到模型中,机器会分析它的5种基本特征,是不是小方的脑袋,是不是嘴角上扬,是不是还有点眉飞色舞,如果是这样的话它是一个开心的表情。同样的我们可以想像,这5种要素中,如果缺少一个,比如说缺少了嘴巴,我们找到了一个表情是小方脑袋,然后小方绿脑袋,并且它是眉飞色舞,没有嘴巴,这时候我们的模型最大可能认为它是一个笑脸,因为多数笑脸都是方绿脑袋,并且眉飞色舞,我们可以把所有的数据看作一个表情,这样我们可以找出来哪些是别墅,哪些是小区,哪些是高档小区,哪些是低档小区。我们甚至可以做一些复杂的事情,比如有卡迪尔和劳力士的商场可能就是一个高端地段的豪华商场。
刚才我说了卡迪尔、劳力士、商圈、地段,这里涉及到了非常多的数据,至少有品牌的数据,商场的数据,还有商圈的数据,如果我们要对刚才的事情进行分析,就要把三个数据结合到一起进行分析,所以我们在这里要说一个问题,就是把所有的数据结合在一起来使用。
我们有数百种数据,如果没有任何关联,在使用数据的时候,其实相当于把一份数据重复使用了一百遍。就像这里刚才说的那几个场景,一份数据之间如果没有关联,那么你做交通只能分析交通的事儿,你做房产只能分析房产的事儿,你做购物只能分析购物的事儿,你没办法分析更复杂的东西。如果你要分析一些比较复杂的问题,你需要把数据全部结合在一起。你能够分析多复杂的问题,完全取决于你能把数据结合到什么样子。
这里有几份数据,有道路的数据,有公司企业的数据,有商圈的数据,有写字楼的数据,我们做的就是把这些数据全部联系在一起,到底怎么样把所有的数据联系在一起呢,思来想去,只有位置。我们来举个例子,北四环上面有什么呢?千鹤家园、盘古大厦、五矿大厦,北四环路在亚运村,GeoHey在千鹤家园,我们可以用地理上的关联把它联系在一起,这就是关联。
把刚才的事情详细说,如果你要做今天这么一件事情:要找亚运村里面所有北四环路上的所有的IT公司,并且他在商务楼里面办公,商务楼在5块钱以下,那么只有用这样的方法才能把这件事做出来,如果不用这样的方法,那将会是一件不可想象的事情。这只是关联四种数据,如果关联更多的数据呢?如果每一样都要做空间关联的话这是非常痛苦的事情。
我们再来看,这是我们公司的一个地址,这个最后要怎么用呢?
我们公司地址是北四环东路108号院1号楼2003室,我想把所有的数据都关联到我们公司地址,怎么做?我们可以把我们公司的地址完全补充出来,大概有十几项信息,意味着十几项数据。我不仅把商圈跟我们公司关联上了,如果我想知道我们公司附近的道路是不是拥堵,还可以把道路的数据关联上,想知道我们公司的小区是什么样的小区,就把住宅小区关联上。
用位置的方法可以把所有信息和数据关联起来。细心的同学一定发现这个里面有个比较要命的问题,我怎么能保证所有的地址描述都是标准统一的呢?比如说这里,清华就是清华大学,帝都就是北京,我们平时说三里屯酒吧,其实就是指的南三里屯路,说GeoHey就是北京极海纵横信息技术有限公司。
首先我们想一个问题,地址的变化虽然多端,但变化再多,就像我刚才说的那幅图里一样,其描述方式就只有那么十几二十种,为什么不可以把这些地址的描述都看成一种表情特征?我们从数据里面找出这些我们觉得描述相对比较准确的拿出来作为我们的训练样本对它们进行训练,利用训练结果我们再来做预测,再来找我们的数据里面哪些地址写的不是那么好看,把那些挤眉弄眼的数据纠正回来,弄成眉飞色舞的数据。在这里我们继续用机器学习做这件事情。
回归最初,我们刚开始谈的是投放广告的事情。我们要把广告最终投放给大学生,在前面做了那么多花哨的工作,做了数据获取、质量提高,做了数据关联,最后一定要把所有的数据用起来,用到向大学生投放广告这件事情上。大家最关心的其实就是我们用地理大数据,能不能在最后找到各自关心的人群,能为我们做一些决策上的支持。那我们怎么才能回归到人群中去呢?
举个例子。我家楼下一共有两家理发店,我非常好奇为什么这里会有理发店,因为我上班的时候不会理发,一般是下班的时候理,这就意味着理发店周边有很多居民楼,而不是写字楼。进一步思考,如果有两家的理发店,为什么会是两家呢?如果一家理发店每天的生存的成本是一千元,理一次头发五元,调查发现一般有十分之一的居民去理发,这样基本上可以算出,这里至少有两百人理发,小区可能大概有两千个人。除了理发店,蛋糕店是不是这样,商场是不是这样,快餐店是不是这样?如果你可以把所有的地物都算一遍,我们是不是基本上可以推算这个区域至少有多少人。所以用这样的方法我们把所有的事情进行了关联。
我们还做了类似的事情:延伸一些数据。我们可以算一算所有写字楼里的人一般都在哪些商场里面购物,算一算电影院吸引的人群在哪些小区。如果这种数据已经做出来,并且可以直接使用的话,我们发现投放广告这件事情就变得特别简单。
最后我想强调一件事情,我们做所有的事情一定要从获得地理大数据的价值出发,从前面讲的所有东西我们可以看到,我们做这件事情如果缺少可靠的数据,所有科学的辩驳都会是无源之水,无本之木,如果想要要避免这样的事情,那就是前面讲的5个方面:首先我们找到一个非常传统的问题,针对这个传统问题去找各式各样的地理的数据,把所有的地理数据变得值得让人信赖,然后通过各种技术手段将它们整合在一起,最后我们要把所有的数据延伸到我们个人,让个人能从中受益。谢谢大家!
目前云平台已逐渐开放各类公共数据以供下载哦,点击下图即刻注册获取吧。
点击下图▼体验最新的云平台服务
点击下图▼进入极海博客
加入我们
扫描图片▼关注我们
有空常到我们的知乎“Hey狗哥”逛逛
联系合作
contact@geohey.com
Tel:13910118699 张先生
欢迎加入GeoHey技术支持QQ群:
164183186