查看原文
其他

地址定位与风控的美丽邂逅(启蒙篇)

2017-05-11 侯局长 众安数盟
↑ 点击上方“众安数盟”关注我们



 本文导航 



2800

1.相遇 —— 地址信息在信贷领域的频繁出现

2.相识 —— 从地址的来源及类型认识地址

3.相知 —— 剖析各类地址在信贷风控中的应用可能

4.相许 —— 信贷风控领域中地址信息的应用实践

01

相遇

在信贷业务中,地址经常作为申请时的必要资料之一。但长期以来,绝大多数对于各类地址的实际应用似乎一直局限于贷前审核中的实地尽调以及贷后管理中的落地催收。局长在写本文之前到万能的百度搜索以下关键词,结果很尴尬。


图1. 地址应用现状截图


看到这个结果不禁让人反思,在言风控必提大数据的当下,地址信息怎么就这么不受“待见”?局长认为,大数据的独特魅力一方面体现在对新数据源的不断索取和挖掘,更重要的一方面,是从已有的数据中不断挖掘出新的价值并在业务中实践。本文就来聊聊这个在大多数信贷业务中都能获取的地址中那些被人忽视的价值。


画外(写过论文的都知道,没参考文献是多DT的事情……)

02

相识

让我们先从地址的类型和来源上对信贷业务中的地址做一个重新的认识。一般来说,地址被分为两类,一类是家庭住址,另一类是工作地址。在很多信贷业务,尤其是现金贷业务中,这两类地址通常是客户提供信息中的必填项。


但此处局长抛出一类新的地址,这类地址叫户籍地址乍一看,户籍地址似乎和家庭住址很像,其实两者之间还是有很大区别。对于处在城镇化快速发展阶段的当今中国,流动人口是一个庞大的群体。在最新的《中国流动人口发展报告》中,2015年我国流动人口达到2.47亿,约占全国人口的18%。其中超过50%来源于中心城市。从年龄来看,流动人口的平均年龄是29.3岁,综上因素,流动人口在信贷业务中的比例不容小觑。


在这三类地址之外,还有一种较难定义的地址:收货地址收货地址其实一定程度上是单位地址和家庭住址(甚至是户籍地址和他人地址)的集合体,尤其对于电商平台而言,收货地址是一个覆盖率极高并且真实性相对有所保障的信息源,活跃客户通常会留下不止一个收货地址。我们对收货地址可以通过一些手段实现类型区分,区分类型后的收货地址可以对照前三类地址的用法深入探索。鉴于收货地址的特殊性,之后会单独有一个专题分享如何对收货地址的类型做自动化识别。

 

我们再来看看地址的来源,回归到信贷业务中,地址的来源无非是两类:客户自己提供的,以及业务方从官方渠道获取。之所以区分这两类,为的是暴露其中的一个潜在但不容忽视的风险点,那就是信息的真实性。对该风险点的解决办法在后续章节会有具体介绍(耐心看,不许直接跳到后章)。


现在我们对地址已经有了一个最初的印象,接下来进入到相知环节,局长带大家看看不同模样的 “她”能带给我们什么样的故事。


03

相知

无论是哪一类地址,在使用上都存在着一个最大的问题,这个问题就是地址文本的非结构化。


市场上有数据服务商提供地址标准化服务,其底层逻辑基本都是分词。目前大多数的分词服务一般能够实现对省份,城市,区县,道路,路号的切分。地址标准化服务确实是很多地址实际应用的基础,但在这里,局长对地址标准化服务强调一个新要求,即地址的纠错和补齐。为何要有纠错和补齐?因为地址很多情况下是由客户填写,地址中免不了会有缺失和错误。


看表1中几个例子,其中第1个例子中地址缺少区县,第2个例子中地址缺少省份,第3个例子新城市广场并不位于建邺区,而是鼓楼区。但通过地址标准化服务,对于原始地址信息是可以做到补齐和修正的。这也为我们后续将提到生成各类地域一致性的衍生变量提供基础。



表1. 地址纠错补齐示例


解决了最通用的标准化后,我们来盘点一下信贷类业务中各类地址在贷前风控中的应用可能。


按之前对地址类型的区分,我们通过表2来一览家庭住址,单位地址以及户籍地址分别能提供哪些对信用评估有价值的信息。局长这里只对其中一些有趣的或不那么明显的维度加以说明,比如集体户籍识别,集体户籍的识别有两种方式,第一种是对大量的户籍信息计算同户籍下不同证件号的数量,洗出集体户籍库;第二种是归纳集体户籍库中的户籍文本特征并设计规则


那么集体户籍和风险评估之间如何建立关系?在使用的过程中,我们可以尝试与其他信息进行多维交叉,比如年龄,家庭住址所在城市是否与户籍所在城市一致,户籍地址是否为农村等变量,从而识别某类高风险特征人群。


表2. 各类地址应用维度列表

04

相许

在尝试应用之前,我们先要考虑一下地址来源,如果地址信息是客户自己提供,那么地址是否可信一定是后续所有地址信息应用的前提。


地址的可信度校验总结起来大体有两种方法,第一种方法是根据LBS信息,LBS信息可以从一些移动应用云服务商获取或与运营商合作通过基站定位,通过经纬度的聚类我们会发现大多数客户都聚集在两块区域(工作地点和家里),如果对经纬度数据的时间标签进行分组(比如夜间和工作时间)分别聚类后取中心点经纬度,再通过反查我们可以大致定位客户的家庭住址及工作地址,如果客户提供的家庭住址与该推断住址经纬度距离偏移较大,说明有很大可能该客户提供了虚假家庭住址(总有特殊情况,比如客户因项目驻场出差近几月都住在某酒店的情况,所以核验虚假后建议采取转人工措施,或与其他维度交叉应用以减少误杀)。


第二种方法是根据客户在电商平台上以该地址作为收货地址的频次进行辅助判断,不过此类信息通常要通过一个模型化的处理以达到较好效果。图2是某小额信贷产品中地址可信度模型对信用风险的辨识效果,该样本平均坏样本浓度为10%,可以发现随着可信度评级提升,风险逐步下降。局长建议更好的做法是将两个方法结合起来,进一步增加覆盖率和准确率。目前局长正在对该模型做进一步耦合调优,并针对不同类地址单独开发模型,待威力加强版出炉后做一个专题分享。


图2. 地址可信度与风险


 在判定地址相对可信的基础上,我们可以逐一对相知环节提到的各类应用点进行量化验证,以家庭地址中的价值类信息为例,在某信贷业务的实际业务数据中,通过匹配房价信息后做的量化验证,会发现房价越是拉得开的城市,该维度对信用的区分能力越好。


如果要从逻辑上加以解释,小区均价一定程度反映了客户的资产水平,可以间接映射到对客户偿付能力的评估。图3为上海房价与信用关系的典型案例,可以发现样本分布呈现倒U型,中间段对信用的区分能力较弱,但最高区间房价和最低区间房价的客群在风险上有相对明显的差异,这在逻辑上也和人的主观认识相吻合。不得不说的是,该维度的有效性和城市有直接关联,不同城市价格水平不一,需要根据实际的分位数进行区间切分,同时底层依赖的房价词库清洗质量会直接影响该维度的量化验证结果。该维度单一看是弱变量,甚至通过传统的逻辑回归模型或许很难入选到模型变量中,不过对于算法大牛来说这还是问题吗?


图3. 上海小区均价与人群风险


 精彩预告 



地址文本中蕴藏的信息量太大,本文这次就先分享到这里(局长表示码字累了需要休息)。觉得不过瘾?想要持续获取更多精彩干货,长按下文二维码关注我们,之后还会陆续推出“当信贷邂逅地址(进修篇)/(极客篇)/(番外篇-收货地址识别专题)”!!!
众安科技

众安科技致力于在线实时大数据风控,为小微互联网金融平台、互联网化进程中的传统金融机构提供基于场景化的大数据风控解决方案,切实全面解决其面临互联网化新业务模式下的核心风控需求。




54 28376 54 15535 0 0 1959 0 0:00:14 0:00:07 0:00:07 3601

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存