查看原文
其他

极海品牌监测的数据价值,从何而来?

极海 极海品牌监测 2023-10-13


极海推出的品牌监测产品,受到越来越多的关注。众多咨询师、数据分析师、选址专家以及门店管理者和投资决策者普遍关注两个问题:一是怎么保证数据的高频更新,另一个是怎么保证数据的准确。


极海在国内首创的以门店位置作为关键维度、最快更新频率以“天”为单位、提供全量数据下载的产品,是一次在垂直领域对线下大数据技术及其价值挖掘的认真实践。


线上(各种App、小程序、网站)数据的采集,尤其是面向人群画像和用户行为的数据,在互联网技术深度发展的今天,毫无疑问已经做到准实时更新了。


抛开从大数据库系统和数据中台再支撑各种数据分析和应用的时间损耗,现代数据系统、弹性的云计算及优化了的算法完全可以保证数据的时效性。但数据所体现出来的准确性,尤其是对人群画像准确的勾勒,仍然走在进化的路上。通过给一个目标ID赋予更多的标签来实现尽可能的真实,可以认为,这种准确永远都是处在相对准确的近似中。


而传统上,线下(物理世界)数据的更新和准确性保障一直都是难题,直到今天还远未得到解决。


目前看来人类大规模采集线下数据的途径,有三个方法:


①人口普查以及相似类型的专项问卷调查;


②高德、百度这些导航地图服务商们依靠专业的采集车及设备“测绘”数据、处理数据,再以大众搜索和程序接口的方式提供查询;


③是卫星、无人机对地进行观测,拍摄“照片”,然后从照片中解译、加工、比对而获得地面(甚至地下)信息。


这三类工作,基本都能保证采集到的地物位置的准确(甚至可以说相当的精确),但因为周期长、更新慢,肯定无法保证数据过期后的失真。


那么,极海是怎么做的呢?我们敢于突破传统方法,归根结底还是因为大数据的整体发展到了一个全新的阶段。大体来看,极海是借助了大数据的三大特征。


多源正交性

对于多源正交,吴军老师举了一个很好的例子解释:名片扫描软件的OCR识别普遍都能保证98%的准确率,而加州的一个数据科学家率先通过识别之后去名片主人所在公司的网站“交叉验证”一下信息,这一步非常简单的操作就可以将准确率提高到99.9%——数据的两个源头越是不相关,正交带来的效果越好。


我们品牌监测产品采集的数据,首先来自品牌商的官网,其次来自品牌商的官微和小程序,再次,地图网站、点评等其它来源提供补充。虽然这些源头并没有完全满足“90°垂直正交”的要求,但尽可能找到多源信息,这是一个提升准确率最可靠的方法。


以钱大妈为例,其官网上在一些城市并没有店面信息,但小程序中可以查到相关门店。



▲ 钱大妈官网成都市一家门店都没有,说明官网更新比较慢,但官网通常被视为最权威的数据发布渠道。


▲ 小程序返回的是当前位置或者查询位置附近最近的几家店,如果想获取全城的所有门店,还需要专业的数据技术。



▲ 百度地图只能显示目标店面“曾经”存在过


从百度地图上可以搜索到成都市有108家门店。通过百度这样的地图网站,目标地物的位置虽然容易获取,但地图网站提供的数据不能判断门店的开关情况,只能表达这家店曾经存在过。而网上有关钱大妈融资的PR稿件中说的钱大妈门店超2000家,预计今年销售120亿元。对于2000这个数字的准确与否,投资人或者竞品分析师从新闻稿中是不容易验证的。


专题剖面性

大数据不能发现目标对象的所有特征,只可以在有限几个剖面上找到可信赖的相关性规律。


比如对一个今日头条用户的画像,Ta喜欢什么类型的新闻是可以准确预测的,但Ta对日常所购商品的品牌喜好,通过大数据打出来的标签可信度是很低的(但在头条的系统中,这类标签一定会长期维护)。所以一类数据适合识别一类特征而并不能保证对另一类特征的判断,这是大家的共识,也是联邦训练这种技术会有很大发展空间的原因。


因此极海品牌监测产品,将极海的能力聚焦于门店的位置。通过长期的监测,积累门店的开关情况,这种位置类型的数据,识别的是品牌商对线下位置布局的看法和扩张效率。极海在数据上提供的多种维度,也是围绕位置所作的标签。而像门店的业绩,单品的销售,这类数据虽然也非常重要,但并非极海数据所能覆盖并保证质量可用。


▲ 截至11月3日,钱大妈在全国拥有2484家门店


平衡取舍性

早期大数据的书籍都会提及沃尔玛啤酒尿布、塔吉克少女怀孕的故事,这类故事讲述了如何通过发现数据的相关关系来预测用户行为或者事件发展。


相关性即是能量取舍的一种体现,当无法解释因果的时候,或者说严格探究因果而耗费资源太大,而先用相关关系粗线条、低代价发现数据的规律,再从频繁重复的事件中探寻原因。


众所周知,大数据中夹杂了大量的无效数据,是拼命获取全量数据还是用聪颖的慧眼聚焦到有效数据上,一直都算是大数据的争议话题。


类似的,在门店位置和数量绝对准确与实时高效更新之间,极海的工作选择了一种平衡。用耗费能量最小,又保证数据可用,通过加速更新,快速迭代的方式,使数据动态的趋于绝对准确,极海是用实时和相对准确的平衡性来增加大数据的价值密度。


除了关注数据源本身具有的挑战,极海更注重从流程上保证数据的可用性和数据质量。


极海品牌监测的数据通过这四个步骤实现从0到1的数据订阅服务:


第一步  数据的采集

极海品牌监测数据的第一来源,绝不是市场的二手资源。


如上文所述,我们通常都是直接从连锁店官方渠道收集数据。我们认为官方提供可用服务(比如小程序下单)所体现出来的数据最具客观性。在采集数据的过程中,我们要尽力提供的保证是数据更新高频、 门店开关情况清晰。


第二步 赋予位置标签(地理编码)

极海品牌监测数据最突出的特色在于门店的坐标,可以认为是为门店打了位置标签。这一专项技术叫做地理编码。


 钱大妈部分成都门店的地理坐标标签


我们会通过品牌商在其官方服务上发布的地图与文字地址的对应,以及在高德、百度等地图网站上进行交叉验证。地理编码的程序化过程为全自动执行,交叉验证中出现的歧义会有人工介入判断、处理。


第三步 数据的检查与验证

极海品牌监测数据在发布前会被执行严格的质量控制,以确保数据符合我们的高标准。我们首先要保证的是所有发布的数据位置正确,其次要保证的是每个门店的开关情况可以被监测和更新。


比如我们发现通常连锁品牌商对直营店位置的发布相对准确,当我们无法验证加盟店的准确性时,我们先发布直营店的数据。在质量控制的工作中,需要大量的人工参与,并由极海的数据总监最终决定数据上线前的取舍。


第四步 数据的发布

极海品牌监测数据的发布第一原则是简单化交互。


我们的平台旨在当用户需要的时候以最简单的形式提供所需的数据,所以当前正式VIP用户获取数据的方式即是品牌门店可以全量以Excel文件的格式下载。后续我们还会为开发人员提供编程接口(API),也会为专业GIS工作者,提供GIS软件的数据格式和相关API。


极海品牌监测本质是一个数据订阅产品。极海的数据伙伴们所做的工作和用户场景类似,是使用已经下载到本地的数据再做文章,我们发布出来的图表是在启发用户怎么用好极海提供出的数据成果。


在不断迭代的过程中,我们坚定的认为,对于任何数据产品,数据本身的质量(包括准确度)的提升存在一个无限游戏的生命周期。在这其中,除了各个品牌商为了进化Ta们自己的服务水平而从源头上提升门店数据的准确率,极海所作的工作是改进技术手段和增加数据质量控制的人力投入。另外一只可借助的力量,就是您作为用户的参与和反馈。


在我们地理数据这个大行当,与用户共生共长,其实是有很好的榜样值得我们学习的。效仿维基百科,OSM(OpenStreetMap)是人类历史上第一个通过众包方式更新的全球级别地图。


这是共创经济和人力传感器一个最好的实例,我们即便做不到这样全球参与的级别,也非常期待我们的用户和极海的小伙伴共建一个社群,更新数据、发现数据的漏、误。极海的小伙伴们非常欢迎用户的反馈,我们一起来维护这个独到的线下数据宝库。


品牌监测,是极海的数据,更是您的数据。


*绿色标注且有下划线内容,点击可跳转链接。



图、文 / 极海CEO 王昊



想要实时把握竞品门店数据,了解行业新动向,极海品牌监控平台(https://stores.geohey.com/)来帮你!



它是基于互联网公开信息,进行高频维护整理的品牌门店数据服务平台,目前已收录500多个品牌超过30万家门店位置数据及运营动态,并持续更新品牌列表,大部分品牌都可以做到每天更新。

拓展阅读>>>>>辅助零售品牌精准决策,极海品牌监控平台正式上线。

近期重磅>>>>>2020·极海新品发布会入场券限量预售


扫码添加极海客服



如果您对极海感兴趣,欢迎长按图片,识别二维码联系我们!


十一期间5大行业50个品牌门店排行榜


更多极海内容

请戳一戳

关注新动向

关注微博

@极海GeoHey

关注知乎

极海GeoHey

联系&合作邮箱

contact@geohey.com


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存