查看原文
其他

论坛实录丨如何用地理大数据实现商业智能?

geohey 极海纵横 2019-06-30

点击图片填写用户调查问卷,留下您的注册邮箱

免费获得3个月GeoHey平台标准版服务

在先进的云计算、大数据和人工智能技术的支撑下,极海地理大数据服务逐渐应用到地产投资洞察、商企选址、场景营销、城市规划等多个垂直领域。


以下是2017WGDC极海专场案例分享板块的演讲实录,商务总监张京涛和高级商业咨询分析师夏君天将通过精彩的案例,为你解读极海如何利用地理大数据实现商业智能。


以下是视频内容:

https://v.qq.com/txp/iframe/player.html?vid=p0524e31g66&width=500&height=375&auto=0

以下是演讲实录:


人工智能在客群画像、地产投策领域的应用  


张京涛现场演讲实录:


非常感谢大家还能继续听我们的分享,我是极海负责合作伙伴和商务的张京涛,提到人工智能我自己还是蛮感慨的,为什么这么说呢?去年大家见面的时候聊的还是大数据,今年人工智能就在两会上写入政府的工作报告了,发展真的是太快了。在这个环节我和我的同事夏君天,用我们的一些案例和大家一起聊一聊,看一看我们极海用哪些新技术,做了一些哪些有意思的项目。


我们作为一个技术型公司,虽然现在取得了一些小小的成绩,但是我们不能忘掉初心。极海这个团队95%都是技术人员。可以说是一个典型的以技术为驱动的公司,我的小伙伴们每天都在做技术的讨论,大家的进步都非常快,包括我,虽然一直做商务,现在也可以用机器学习和客户直接进行一些交流。我这些学霸型的小伙伴们,用了大量的精力,在今天正式推出了最新版的、具有完全自主知识产权的一站式地理云平台。

我们为什么要强调完全自主知识产权呢?在大数据时代,我们要处理的数据的特点是量大人多,因为比较创新,而且客户的需求也在不断的变化,所以传统的GIS平台和互联网地图不太能满足这种新的需求。自主知识产权可以让我们不断地把这个平台的功能做一些增加,这样可以更好地响应客户的需求。


第二点,今年的6月1号,发生了菜鸟和顺丰为了数据的互怼事件,现在企业用户对数据的安全性越来越重视,我们只有拥有自主知识产权的平台才能把我们的云平台离线部署在客户那里,以私有云的方式满足政府和企业级客户对数据安全的要求。


第三点,现在如果只用企业的内部数据,不用外部数据,好像不能称为一个真正意义上的大数据项目。巧妇难为无米之炊,这些外部的数据就是米,所以我们极海又为大家准备了丰富的地理标签数据,我们希望通过一站式的地理云平台,给大家做到万事俱备,只要你有想法,就可以切实的体会到地理大数据给您带来的价值,这就是我们核心的初衷。

 

我们极海服务的第一批客户,是一些大数据公司,如信百,量子等,他们在商业、零售等行业已经做了很多大数据项目,可以说自身的技术实力也非常强,只不过在地理的维度上有所欠缺。术业有专攻,因此他们选择了和极海合作,来弥补他们自身地理方面的短版。

第一步需要做的工作是把他们自身的海量数据线上做图本身他们对数据蛮敏感的,因此要求我们把地理编码的平台离线部署在他们企业内部。他们自身的数据容量都是几千万级,比如说信百有几千万个商业会员,商场会员的文字地址,量子有几千万的企业的注册地址,我们需要把这些文字的地址转化为经纬坐标,同时在地图上展示出来。这个环节说起来容易,做起来真的蛮难,我前边的两位同事都提到了地理编码,为了提高上图的精度,我们并没有采用传统的模型,而是采用了机器学习的模型,对地址进行切割和标注。至于上图的精度,用过的这些大数据的公司对我们的反馈是,优于互联网地图公司提供的在线地理编码服务。

 

在做完了客群上图以后,下一步的工作就要进行画像。说到画像,我们必然会用到外部的地理数据。来看一看这些商场的会员住在哪个小区?这个小区是高档小区吗?看看企业注册的写字楼是否是为甲级写字楼?同时还有反向数字编码的要求——我们给平台输入一个经纬坐标,需要平台反馈给我们这个地理位置的一些属性和其他标签,比如,我们扔进去一个经纬度,他就可以告诉我们这个地方是绿茶茶厅,绿茶经营的是广东菜,他的消费是87一位。地理编码和数据标签这两个产品听起来蛮简单的,但它应用的场景非常广,包括后来我们做政府的智慧城市项目,也用到了。做地理大数据首先从上图开始,上完图以后在智慧城市中对城市进行绘画时,就需要对地打标签,对人打标签,而我们接触到的地理数据绝大多数都是文字地址。因此我们感觉做大数据需要修炼好自己的基本功,地理编码和数据标签就可以说是地理大数据的基本功。

 

第二个和大家分享的是一个房地产案例。熟悉我们的朋友都知道,最近两年来,我们给十几个房地产上市公司做了几十个城市地图,在房地产上肯定有些心得,我不过多的去谈做的这几十个城市地图,我随着第一位发言的思路,谈一谈最近今年一个广州的房地产集团公司为什么选择了极海。这个房地产集团总部在广州,有二十几个城市分公司,这些城市分公司有一项非常重要的工作,就是每一个季度,都要出所在城市的投资报告,这个投资报告,既要给区域的老总汇报,也要上交给集团公司的投策部门。

左边的这幅图,是他们绝大多数城市分公司采用的方式,从互联网地图截一张图,然后再用photoshop在地图上做一些标注的工作,截出来放在PPT里,再发给集团的投策部门。


但是有的时候,需要放大地图来看一看这个板块的细微情况,有的时候需要缩小地图看看整个城市的宏观面貌,这个图片就不能起到这个作用,而且每一个分公司用的统计方法、分析手段也非常不一样。这让集团公司觉得很是头疼,他们听说我们极海做了很多的城市地图给其他的公司,就找到我们,跟我们聊。在聊的过程中他发现我们不仅可以直接投报告,还有公有云平台,即使他们没有专业的GIS平台,做点数据图、面状图,甚至运用空间分析的工具和方法,对他们来说也是易如反掌,非常简便。


而且在做的过程中每一个环节都可以把地图的成果分享出来,能促进组内对整个工作的协同。他们用我们极海的云平台有三点优势,一个是操作简便,第二是可以让各个分公司的分析方法一致,第三是地图可以按阶段随时分影出来,实现协同办公,这三点让他们集团和20多个分公司都买了我们的公有云帐号。


这是他在我们的框架下基于数据自己配置出来的广东佛山城市地图,左边能看到它有很多指标,以前他们做数据的方式是每个城市自己用自己的渠道去购买城市数据,但这样会差次不齐。

 

极海的数据具有几个特点:

第一,数据是多源数据。前边很多人都说互联网上数据太多了,但是很多数据质量并不好,而我们的多源数据在质量上有明显的优势。我用房产数据举一个例子,我们的房产数据来源于链家、搜房、安居客等众多公司企业,我们把这些数据整理加工成极海自己的房地产数据,这个前边也讲了,是用到很多机器学习的方式。


第二点,有了数据肯定需要定期更新,定期更新也在考验一个公司的数据积累能力,因为我们有的时候想要某个东西三年前的数据,你要没更新怎么能有三年前的数据呢?我们现在的数据有的按月更新,有的按天更新,有的按季更新,这样就可以找到整个阶段的历史性数据。


第三个特点是数据的分类清晰,我们接触的数据有十大类,二十多类,一个全聚德烤鸭店和黄焖鸡米饭就是不一样的。


第四个特点,我们的数据的标签非常齐全,我们不仅有千鹤家园小区的经纬度,还有它的名称,还有千鹤家园的物业、建筑面积、它的总户数等等,有了标签维度丰富的数据你才能有做更多指标的可能。昨天很多专家也都讲到,今天之所以能进入到人工智能这个时代,不仅仅是因为有了海量的数据,也因为有了高质量的数据,我们能在这两年之间和十几个房地产公司展开合作,最主要的一个原因也是因为我们有这种高质量、多维度的数据。

 

在做完数据的工作之后,我们继续和广州总部商谈,用这种机器学习的算法,还能做什么呢?——做多源数据的融合。怎么更好地给板块画像,怎么更好地给板块聚类,甚至怎么更好地去预测板块未来招拍挂的价格。最后,我们给他们推出一个让机器自动写报告来帮助投策人员工作的产品。

这是2016年我们给北京一个房产中介公司推出的机器写报告的工作平台,根据每个月更新的数据,机器会自动利用30多大类数据做400多项小指标的运算,生成一份一百多页的PPT报告,大家觉得生成一份一百多页的报告大约需要多长时间?就用一分钟。我们把北京分成了两千多个交通小区,在一分钟之内就能同时出两千份一百页的PPT投策报告。我们希望跟房地产公司等各行业的客户合作,通过这些新技术,把他们从以前不熟悉的技术工作中解脱出来,让他们把自己更多的精力,投入到他们更擅长的专业里去,真正做到术业有专攻,共赢,提高他们的工作效率,也同时大大的促进他们的工作成果。

现在企业自己内部的业务数据越来越多,外部的多源数据获取也越来越容易,价格也越来越便宜。我们怎么把这些多源的大数据进行整合,最大程度地挖掘它们的有效价值呢?根据这些数据能否做出预测?这个是我们有了人工智能才敢想的。很庆幸,我们极海的小伙伴们,很早就对人工智能的算法非常痴迷,我们在2016年的时候就实实在在的把这种机器学习的算法,带入了几个地理方面的领域,前面我的同事徐翔用了很大的篇幅做了讲解,我们也用人工智能做影像的地物识别,而且已经给中科院做了很多项目。在下一个环节,我的同事夏君天也会讲我们怎么把人工智能用在大型零售商的选址过程中。

从2015年3月,我们给第一个用户信百这家大数据公司提供服务开始,到2017年的6月,我统计了一下,我们给以上的客户一共提供了72个服务,我们的革新收到了客户的反馈,也得到了客户的信任。在此我们也非常期望在座的各位如果对这种新技术感兴趣,非常欢迎大家加入到我们极海的大家庭,无论你是来这里工作,还是来这里实习,我们都非常的欢迎。这样我们可以一起实实在在地用一些新技术去踏踏实实的做一些项目,公司有进步,个人有进步。下面我把我的话筒交给夏君天,由她给大家分享人工智能在零售这边的案例。

 

人工智能在零售行业的应用  


夏君天现场演讲实录:


谢谢京涛。大家好,我在极海负责商业咨询,今天想给大家分享几个项目实例,刚才那张logo墙上落了一个很重要的客户,因为跟他们的保密协定非常强,没有办法把他们的名字放上来。所以今天,我会用一些模拟的数据把这个案例带给大家。


刚才我同事讲到,人工智能是一个很古老的概念,但是到近年在技术发展支持下才迎来井喷式发展,其实位置智能也是一样,如果说我们还停留在数据找不到,或者质量差,没有办法去满足传统分析模型要求的这个阶段,那就没有办法再往后谈应用了,所以我们首先需要的就是今天我其他同事也反复提到的这些新时代的技术储备,来搭建起这个桥梁。这个桥梁它通向哪里?我们谈的位置智能,它到底是不是一个真命题呢?我们来看看技术先行者的美国。


我来GeoHey工作之前就是在美国做地理信息建模的工作,那边这个行业的发展已经非常惊人了,这几个数字来自几年前波斯顿咨询集团的一份权威的行业报告。

地理信息服务年产值达到了百亿美元的级别,为什么他能做到这么大的规模,而且还在持续增长,就是因为在这几十年中很多分析优化的方法已经探索成熟,而且已经被无数次证实它能在各个行业中提供决策支持。


在这里,我强调决策的支持,具体来说,比如我这个产品要不要进入一个城市?我这个地产项目如果在这儿开发能够带来多少收益,或者我这个城市想修一条地铁线,怎么样设置线路,能在最大程度上疏解城市的交通。为什么强调决策,因为我们做一站式的平台,用户可以查询、可以展示,这些都是在效率提升的层面上,以前我们做得到,而现在我们做的更快,更加方便,这本身就是一件非常有价值的事情。与此同时,我们还想到下一个层面去做以前做不到的事情,也就是人工智能的引入。

现在这张图是我们做城市板块分析的截图,我可以去查询比较每一个板块上各个维度的信息,而人工智能给它带来的是什么呢?是通过机器来学习所有这些信息,按我们现在的数据量,有几百个维度,我能去提取出它的特征,能预测,比如这些板块对银行业务的需求有多少,它对烟草销售的需求有多少,在做网点布局、做优化的时候我们就能基于这个维度的数据准确的给出结论了,加入人工智能,任何一个位置,都可以提炼一个标签然后再提炼出一个预测的结果。


我接下来讲帮沃尔玛做选址的案例,他们之所以找到我们也是挺有意思的,刚才提到在美国地理信息这个行业现在的发展,作为一家美国公司,沃尔玛他们觉得要选址就必须做位置智能,在中国大家为什么不这样做呢?

其实为什么不做原因也很简单。这张图大概说明了美国效果很好的位置智能市场细分模型是怎么建立的。它先要把人群细分,比如这组叫Milk and Cookie代表的就是中产有孩子的家庭,平均三个人住在独栋的房子里,年龄已经30多岁,另外这一组Young and Restless,意思是年轻躁动,表示收入中产 ,两个人住在公寓里,不到30岁。他们真的把人群划分到这么细致的程度,把街区上做了标识,到底哪些人群住在这里。


我是做快餐的,我只要建立关联,知道我的顾客是来自哪个人群,我知道去哪儿开店或者去哪儿宣传我的店。所以沃尔玛的想法也是一样的,他们对于自己的客群有定位,然后就碰到了瓶颈——

去哪儿找这些人呢?比如我要不要去天津开店,如何开,开几家,在哪儿开,在中国他们习惯用的数据是没有的,前一半已有客群的画像只能依靠自己去扫街、发问卷,而后一半潜在客群更难寻找。后来沃尔玛找到我们,问利用极海这边的地理大数据和机器模型的算法,能不能做出类似于美国那样的分析,于是我们帮他们做了这件事情。

这张图依然说的是人群的事儿,你会发现它的描述方法变了,我没法直接知道这个街区里家庭的年收入是多少万美元,就像刚才看到的数据。那用什么代替它呢?


比如用房价靠谱吗?我们最初以为房价对人群指控性是非常高的,我们把它交给机器学习,却被淘汰了。拿北京为例,四环以里,这些人一直住在这儿,可是房价已经高到什么程度了?沃尔玛关心人群的购买力,最终模型发现什么样的指标重要呢?比如说这个街区有两家干洗店,还有三家品牌咖啡厅,机器学习告诉我们说,这个街区的人是我们的潜在客群。另外一个街区,有两家宠用品物店,还有一个婴儿孕托,机器发现他们也是潜在客群,他们的会员转化率比上一个街区还要更高。我们最终以类似这样的方式做出了中国数据特色的机器学习模型,通过这种特征能够找到每个街区里面有多少潜在的客户。

这张图是我们模型效果和传统分析的对比,横轴上一共十几家商店,纵轴是他的会员数,蓝色的两条线是商圈内的会员数值,深蓝是实际数值,浅蓝是我们的模型数值。黄色的线是通过我们机器学习的模型来预测的销售潜力。我们看到A店和B店之间差异非常大,我们这边作为技术的提供方,最开始只是看机器算出来的数,最后我们双方做解读的时候他们发现我们的结果非常对,B点这个城市他们本来就怀疑可能城市的潜力已经开发尽了,所以他们觉得剩余的潜力不大,A城市他们本来能预期能像最高的城市一样好,可是实际上,他的表现差了很多。


我们的模型告诉他,上限确实也有那么高,但因为整个城市都是国际化,这里有太多人购买进口商品,也可能因为这个城市的人开车比较少,所以稍微远一点就不一定到商店买东西了。灰色的线是很中规中矩的一个数值,黄色的预测是在我们机器学习精度够的情况下得到的大胆分析,也很庆幸的得到了客户的认可。

 

刚才的模型可以认为是对静态人群的分析,把北京划分成两千个街区,计算每个街区的居民对某一个行业的需求,下面这个例子则是动态研究的分析。

想象一下,如果我想考虑的目标不是三个会员店,而是普通的沃尔玛购物超市,红色的圆就是一家一家的超市,如果有人每天下班路过我的店门口是不是他成为我顾客的机会就会特别高呢?在方案设计模型选择的阶段对需求场景的认识非常关键,大多数人都是周末从家里开着车集中采购大量的商品,所以我们关心的就是这些人住在哪儿,在这里我们接入移动设备轨迹点,上面的图显示每个城市每天接入数据的条数,多的时候达到千万的级别,最后通过大数据的建模识别出每个设备工作日的朝九晚五在哪里?他通常的轨迹是什么样子的?我看哪些轨迹会经过我的店附近,然后我去追踪他住在哪儿,在哪儿上班,这样我就可以非常有针对性的去宣传,去搞活动,去投放广告,这类项目的验证也是非常的成功。

 

回到这张图,举一个我们自己觉得挺有意思的例子,在东边我们分析北京东四环的超市,发现很多周边的人流来自通州,这很好理解,还有相当一部分人流来自顺义,数据告诉我们,确实顺义那边很多人会南下来上班,成为了我们的潜在客群。所以我会想到去那边宣传我的店。


之前说的居住人群模型、人流模型,其实可以把他们都想象成是人工智能平台的组建,我评估一个位置适不适合开一家新的沃尔玛超市,可以先用人流模型定位路过的人住在哪儿,然后看这些人是什么样的群体,有多大的转化率,包括其他分析,比如新店和老店的竞争,一个城市的市场容量等等,我们建模、提供解决方案,还是要落到最早说的,去支持决策。在技术不断提升、可用的数据和模型算法不断丰富的基础上,我们在平台中拓展了越来越多的场景。


ps:后台回复“WGDC”即可获取专场完整版视频及PPT资料哦~


点击下图▼体验最新的云平台服务

点击下图▼进入极海博客

加入我们

扫描图片▼关注我们

有空常到我们的知乎“Hey狗哥”逛逛

联系合作

contact@geohey.com

Tel:13910118699 张先生

欢迎加入GeoHey技术支持QQ群:

164183186

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存