查看原文
其他

极海让位置贴上商业标签,打下智能决策基础

Qing 极海 2023-10-13

极海,作为位置驱动的决策智能化科技领导者,全面探索从服务形态、数据、技术到应用落地的创新思路和方法。数据,作为决策分析的土壤,极海一直致力于提高更准确的数据,助力更精准的智能决策服务。而在许多商业投策、规划场景中,地块的商业属性数据必不可少。


如何准确描述任何一个地块的商业属性,是一个看起来挺简单,实际上挺有挑战的一个事。

所谓“合适的商业属性”,是想用一个或者几个简单的词,来最贴切的描述一块区域的特点,比如北京王府井大致等于购物+外地旅游+步行街,又有常常被认为是中国硅谷的中关村,也可以用科技企业+高等教育来简单概括。这些地块区域,既可能是一个城市商圈,也可能是一个购物商场,一条普通街道,很可能没有一个边界来划定它们,那就更没有既定的指标来评价,或者描述它们。


想要找到一块地的贴切描述,靠人的经验来推断肯定是不客观也难以完成的。好在尚有一些规律可循,无论是王府井的购物、旅游,还是中关村的科技企业、高教,这些地域标签都可以从归纳这片区域的poi的类型和数量得到。那么需要我们做的就是找办法从全部的poi信息中提取出最合适标签,但是单纯的统计各类poi的数量过于简单粗暴,能包含的内容很少。


自然语言处理技术

能不能帮我们回答这个问题呢?

作为人工智能两大研究热点之一,自然语言处理技术和图像处理一样,得益于机器学习的迅猛发展,已经可以解决相当多的和语言相关的问题。从自然语言处理技术中寻找方法解决我们的问题,看起来是个不错的思路。

经常阅读资讯类app或者网站的人可能会注意到,文章常常伴随着几个精简的词作为标签贴在文章后面,方便大家阅读相似类型的文章。可想而知的是,文章肯定不是被简单归类到某一类的类型之中,而是存在着一对多(一篇文章多的标签)的关系。这样的情形就和我们遇到的问题十分相似了。


如果文章可以从词语中提取出标签,那么区域也就能从poi里找到答案,这项用于文章标签/文章主题的文本分析技术就是主题模型(topic model)。

主题模型关注的问题是,从相当多的文章中学习训练,提炼出合适的主题表示/标签(词汇分布),用提炼到的标签标记新见到的文章。我们将一块区域当做是人们一起写成的一篇关于地理特征的“文章”,这片文章的词汇就是各种有品牌名称的poi,把各个区域组合一遍,就得到很多篇可以用来当做主题模型训练数据的素材,应用主题模型自然而然也就提炼出我们需要的地理属性标签了。


分析过程一点也不复杂,这样的好处是让我们获取的标签更具有可解释性,不像其他一些机器学习模型难以应对客户追根究底的诘问。但是,面对这样的问题并不是人人都有能力去解决,因为问题的难点落在了数据的准确性,只有让众多的品牌对应到正确的品牌名称下,分析的种种条件才能得到满足,要得到这些规整好品牌的数据,谈何容易,数据是智能决策的基础,拥有更智能的数据,才能为最终的应用提供强有力的保障。


极海在数据准确性上下了很大功夫才满足这样的分析要求(生产了包含数万个品牌的poi数据库),助力更精准的智能决策服务。关于给区域贴上合适的属性标签,自然语言处理技术中还有其他方法可以利用,好好地利用机器学习的研究工作能带给我们更多好成果,使极海能提供更精准的位置驱动的智能决策服务。


更多关于智能数据的相关研究

请关注我的Blog 



往期精选


关注极海

点击阅读原文,领取新用户优惠

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存