查看原文
其他

知识图谱在农信社风控领域应用 6 大难点问题解析

VOLVO twt企业IT社区 2022-07-03

知识图谱是现实世界的个体和个体间关系的真实反映,提供了从“关系”的角度去分析问题的能力。将知识图谱理论、图挖掘算法、图数据库技术应用于信贷风控领域,能够很好的解决已有分析手段效率低下的问题,极大提升银行贷前、贷中、贷后的风险防控水平。常见的应用场景有担保圈分析、受托支付排查、内外利益输送排查、冒名贷款识别等。

为了帮助大家了解如何在风控领域使用知识图谱,社区专家VOLVO撰写了最佳实践文章《知识图谱在农信社风控领域的应用》(点击可阅读),并在社区线上答疑活动中为大家答疑解惑,以下是活动后由专家整理的6个关键难点,供更多感兴趣的朋友参考。


问题一:知识图谱系统的建设核心是什么?该如何选型?

解答:

建设核心是图数据的存储和分析方法。不同的核心,外围使用的方法也不同。

以titan为例,它是集成在hadoop上的。数据的分析加工主要在使用sparksql和graphx,结果会存放在titan中,数量较多的明细流水会放在hbase中,常用的查询关键字,姓名、手机号码等会放在elasticsearch中,三者通过key相互关联。

如果换一种图数据库,比如neo4j,整个外围都会跟着调整。所以图数据库的选型不能进场图数据本身考虑,而应该结合整体规划,建设成本,多系统间的关联关系层面进行统筹考虑,甚至可能会为了大局牺牲一些效率。


问题二:知识图谱系统的关键特性有哪些?

解答:

1.当然是可视化展示,知识图谱的魅力之一就是让人直观的看到多实体之间的关系,能用图标示的就不要哔哔

2.多种服务提供方式,有些服务使用方,不需要图,那么可能通过api或者批量文件的方式比较合适。所以从系统建设角度来看,最好能提供多样的服务对接方式,满足前端服务使用方的不同需要,发挥系统价值,是值得考虑的地方。

3.查询速度,在用户进行图操作,例如实体查询、关系推演扩展时,系统响应时间应该较低,避免大并发情况下用户体验的降低。

数据建模、批量时间相对来说,外界感知不到,因此不那么重要。


问题三:为满足关键特性系统的架构或组件选择是怎样的?(主要针对hadoop架构)

解答:

1.可视化需要开发一个专门的知识图谱展示界面,将知识图谱中的实体、关系属性等以美观已操作的方式展示出来,因为颜值即正义。可以借用当前比较流行的bootstrap等前端开发语言。

2.为满足快速查询,可以将部分索引关键字放在索引es中,索引命中后在使用key去titian中查询。

3.多种服务方式,需要从设计时就进行考虑,至少满足三种api、可视化界面、批量文件。批量文件主要从hive中进行导出,而api接口则需要开发一个服务层,将所有图数据库的命令行操作转换为对应的api接口,轻量级的开发一个java服务放在tomcat中,有条件的可以使用微服务框架。


问题四:知识图谱适用场景有哪些?

解答:

主要涉及关系分析的场景,利用账户、自然人或者资金交易形成的关系来判定结果是否可用时,比如担保圈、分析实际控制人、实际受益人、识别冒名贷款。而且通常,数据分析的深度在3度到5度,才能体现出优势。

分析深度小于3度,与传统关系型数据库没有太大差别,大于5度有可能引入较多的噪音数据。当然不排除某些场景下分析5度以上数据的可能性。


问题五:知识图谱的建设都有哪些重要的环节,需要注意什么?

解答:

从自身项目实施来看,有三个地方:

1.建模时多系统数据的融合,比如客户的信息存在多个系统中,核心、信贷、理财等,因为系统建设时间不一、多次升级等问题,导致数据不一致,数据质量较差,这样就需要花费很大精力去处理数据质量问题,还可能导致程序返工。

2.模型开发过中,选择那些业务场景也很重要,知识图谱不是万金油,有些场景比较费力。应该选择那些跟关联关系分析相关的,有明确结果,业务人员能够明确正确与否的应用场景,便于展示这个工具的优越性。

3.交付前的测试也很重要。因为知识图谱基本上都是需要融合各个业务系统的数据,涉及面较广。因此要给测试过程留够时间,便于测试人员发现一些数据处理上的遗漏。


问题六:脏数据的处理机制是什么?

解答:

知识图谱作为下游系统其实没有好的办法处理脏数据,基本上有两种策略:

第一:确定一个优先级,某个属性以哪个系统为准,当两个系统不一致时,不管对错永远以某个系统为准。

第二:前一种方法不适用的,就将这些数据打入“冷宫”,放到一张表里,定期拿出来,找原系统进行数据修正,这是一个比较漫长的过程。

不过好在,80%以上的数据是正常的,脏数据多数由于客户长期未发生业务,渠道无法强制客户更新数据。


本文内容来自社区交流,主要由VOLVO分享并整理。

VOLVO,在读博士,有10年IT行业从业经验,某省联社大数据平台项目群项目经理,负责行内Hadoop平台及平台上各功能模块的的设计、优化、实施和交付,不断满足行内各业务领域的数据需求。


相关阅读:

知识图谱在农信社风控领域的应用

最全的知识图谱技术综述 | 收藏


点击阅读原文关注社区"知识图谱"技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。


下载 twt 社区客户端 APP

与更多同行在一起

高手随时解答你的疑难问题

轻松订阅各领域技术主题

浏览下载最新文章资料


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存