查看原文
其他

实战 | ​​商户客户地理大数据营销法

金融电子化 金融电子化 2022-09-24

欢迎金融科技工作者积极投稿!

投稿邮箱:newmedia@fcmag.com.cn

                                           ——金融电子化


文 / 交通银行软件开发中心  李亚日  柴具白  俞书浩




改革开放的40多年,中国经济飞速发展。交通银行虽然已积累了大量客户,并且这些客户中不乏需要资金往来的商人,但他们中很多人并未在我行开设专门的对公账户。如果我们能够有针对性地吸引这一部分客户,就可以在一定程度上提升银行利润、增强竞争力。本文旨在利用TF-IDF余弦相似度算法,以广东省数据为例挖掘商业银行客户中潜在商户,并为商户营销业务提供有力支持。


大数据和地理大数据

随着科学技术的发展和信息时代的来临,“大数据”已经成功地进入了我们生活的方方面面。在商业银行的业务开发中,大数据也逐渐成为了大家关注的中心。一方面,商业银行相比其他新型的科技企业起步早,积累了大量涉及各种业务条线,并直接关系到民生民计的数据,足以真实、动态地反映客户的经济特征;另一方面,近几年互联网金融快速发展,随之而来的是金融行业竞争加剧,银行业利差不断收窄、甚至出现了剧烈波动的情况。面对这些来自各方面的挑战,商业银行如何发挥自身数据规模和数据质量优势,探索并获取出有效信息、快速识别潜在用户、提高存贷款收益成为了一个重要的研究课题。


联合国教科文组织曾表示,超过80%的人类活动信息都与地理空间位置相关。除了普通大数据的基本特征外,还具备时空性,这也意味着这些数据的粒度更细、密度更高、范围更大、与国计民生更加相关。如何借助地理大数据更加有效地在商业银行庞大的客户群中寻找到潜在商户,并进行精确营销,在一定程度上决定了银行能否在激烈的竞争中脱颖而出。


商户对银行业务发展的重要性

商户指的是市民阶层开办的有实体生产经营场所的中小微企业。改革开放以来,商户逐渐走上历史舞台,并逐渐在中国经济发展中扮演着不可或缺的角色。


1.身份具有二重性。一般来说,银行商户同时具有个人客户属性和类似公司的经营行为。这种身份的二重性特征导致他们在之前的商业银行服务体系中的定位不清晰,一直游离在银行服务业务之外。作为银行客户,他们既无法享受到区别于普通个人客户的具有针对性的商业服务,又不完全属于公司业务板块的服务范围。因此,对商业银行来说,向商户群体提供专属的综合金融服务,满足其生活和生意的双重需求,是深入挖掘此类客户群体、填补过去服务空白、增加银行存贷资金的有利契机。


2.行业分布广,交叉影响力强。个人商户分布在社会各个行业,从街边摆摊的小商贩到大型连锁商铺,几乎覆盖了我们生活中衣食住行的方方面面。作为社会和商品经济中必不可少的组成部分,个人商户在未来必将成为商业银行重点服务的客户群体。此外,商户之间常常会以同乡、亲戚等为纽带形成圈子,虽然还没有达到同业协会的规模,但由于其与上下游商户联系紧密,可以通过“朋友圈”构建交易网,形成交叉营销几率高、口碑营销传播快的交易模式。这一特征决定了商业银行优质的服务和良好的品牌可通过链式效应迅速传播,促进银行商户服务业务的扩展。


3.经营规模小,资金交易频繁。个人商户一般只是交易中间的一环,既承接了下游顾客消费资金,又要向上游供货商或原料商支付款项。交易对手及账号繁多,资金收付、归集和管理的需求旺盛,结算账户内时常会逗留大量短期流动资金,低成本存款占比高都是这一类商户的主要特点。这也意味着他们可以为商业银行提供大量现金,同时也可以降低银行的存款成本,增加贷款规模,提高存贷款收益。


商户客户地理大数据营销实践

为了更加精确地挖掘银行客户中的潜在商户,我们采用“相似度计算”方法对客户地理信息进行描写分析。相关数据全部来源于交通银行广东分行,包括交易流水、客户居住地、单位所在地、经常使用地址等,由于百度地图、高德地图、国家的标准地址库中的经纬度可能不同,所以我们统一采用淘宝物流4级地址的标准地址库确定批发市场地址。


1.潜在商户识别的目标。首先对广东分行全部客户的交流流水进行初筛,然后通过客户的居住、单位和常用地址中任意地址与批发市场地址的模糊匹配情况,判断客户成为潜在商户的可能性,而且可以定位到具体某个批发市场。


2.地址数据处理。由于客户地址和批发市场地址来源不一致,我们首先需要对地址进行标准化改造,即识别出具体的省、市、区、县、街道等信息,并对这些信息分配不同的权重;而针对地址中出现的其他文字,比如小区、商场名称等我们采用IK Analyzer方法进行分词处理。


比如广州某服装城的地址是“广东省广州市荔湾区站前路195号”,通过我们的标准化分词,就会被整理为“广东省”“广州市”“荔湾区”“站前路”和“195号”,其中省市区三级地址代码来自地址库。我们将标准的地址库建立倒序索引,并将标准化后的地址区域从大到小排列。从文本起始位置开始,我们采用最大长度优先的方式匹配所有词条,尽可能地减少短词对文本匹配的影响。最后,我们还对所有匹配结果进行标准行政区域从属关系校验,确保地址标准化后结果的准确性。


3.文本TF-IDF余弦相似度算法。接着,我们对两个标准化后的地址结果集使用“余弦相似度算法”计算地址匹配度,从而判断是否为潜在商户。


余弦相似度是将两组数据量化为向量空间中两个向量,并用其夹角的余弦值衡量两个个体间差异的大小。


在分析中,我们首先将数据转化为向量。比如,对比“广东省广州市荔湾区站前路195号”和“广东省广州市荔湾区站前路195号XXX层”这两个地址时,可以发现其中只有最后的“XXX层”不同。按照标准化分词后结果出现的次数,我们可以将其分别转化为[1,1,1,1,1,0]和[1,1,1,1,1,1],计算余弦相似度为91.29%。但是,如果对比“广东省广州市荔湾区站前路195号”和“广东省广州市越秀区广元西路121号”这两个差距较大的地址,我们所能转化出的两个向量就变成了[1,1,1,1,1,0,0,0]和[1,1,0,0,0,1,1,1],余弦相似度的结果为40%。值得说明的是,虽然我们主要采用的是TF-IDF余弦相似度算法并且TF代表词频,但鉴于地址数据的特殊性,词频计算在地址相似性判断中意义不大,我们在计算过程中也并没有对这方面进行过多处理。


考虑到城市内的批发市场和商区往往成片分布的特点,我们又加入了“逆文档频率”作为权重进行调节。这也意味着,文档频率更高的城市名的权重低于文档频率较低的区名的权重,而每一条数据中都会出现的“广东省”的权重几乎被降为0。为了方便说明,我们可以简单地将省的权重定为0,区的权重定为2,其他不变。那么“广东省广州市荔湾区站前路195号”和“广东省广州市荔湾区站前路195号XXX层”这两个地址对应的向量就变成了[0,1,2,1,1,0]和[0,1,2,1,1,1],余弦相似度相应变成了93.54%。而对于“广东省广州市荔湾区站前路195号”和“广东省广州市越秀区广元西路121号”两个地址,向量变成了[0,1,2,1,1,0,0,0]和[0,1,0,0,0,2,1,1],计算得到的余弦相似度为14.29%。由此可见,经过权重调整,通过相似度可以更加明显地识别出相似的地址。


4.结果展示。我们将相似度超过50%的两个地址作为匹配成功的地址输出,以便业务部门确定潜在商户客户、定向推送商户业务信息。


成果、不足与展望

如果不做地址数据标准化,几乎无法发现任何潜在商户,将地址数据标准化之后,2021年7月共发现了300多户潜在商户可营销。


但在我们的数据库中还存在着一些时间比较久远的数据,这些数据虽然是有效的,但由于历史和区域划分变动等原因,在我们的相似度计算中可能出现无法匹配甚至错误匹配的问题。


在之后的进一步探索中,我们将对算法和数据进一步优化,增加GPS经纬度和地址的埋点数据,提高匹配的准确性,并做成产品化的地理分析工具。


另外,我们还计划使用已有商户的交易对手、法人关系等建立社交网络,利用算法进行分群,并发现新的潜在商户及商户中的大V,便于营销(见图1)。

图1  发现新的潜在商户及商户中的大V


(栏目编辑:张丽霞)






往期精选:

(点击查看精彩内容)


● 实战 | 基于大数据的资金交易智能风险引擎实践

● 实战 | 运维基础能力中台化,营造场景建设生态圈

● 实战 | IP地址冲突检测方法研究与实践

● 实战 | 基于敏捷模式的分层自动化测试体系建设与应用

● 实战 | 数字孪生技术在数据中心运营场景的应用






《金融电子化》新媒体部:主任 / 邝源  编辑 / 傅甜甜 潘婧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存