查看原文
其他

用户画像构建与应用

林月冠博士 DataFunTalk
2024-09-10

导读 今天分享的主题是信贷场景用户画像构建与应用,将结合信贷场景的特殊性,深入讨论如何建立一个服务于整个信贷业务场景的用户画像特征体系。

今天的介绍会围绕下面五点展开:

1. 信贷场景用户画像构建方法

2. 信贷场景用户画像构建实践

3. 信贷场景用户画像应用

4. 扩展方向

5. Q&A

分享嘉宾|林月冠博士 奇富科技 数据挖掘技术总监 

编辑整理|刘步龙

内容校对|李瑶

出品社区|DataFun


01
信贷场景用户画像构建方法

1. 信贷用户画像业务目标

信贷用户画像构建的核心目标是在深刻理解信贷业务需求和约束的基础上,将算法、大数据等专业知识转化为可操作的用户画像建设项目。利用人工智能和大数据技术,推动画像项目落地,并在核心业务场景中实现应用,以实现闭环效果。

当前业务场景的核心需求主要包括以下几个方面:
  • 提升业务指标:公司的核心目标是盈利,因此需要在获客、经营、风险、催收等环节提升业务指标。
  • 提升对自身用户的认知:借贷市场不断变化,客群构成和质量都在变化,因此实时、准确地认识客户情况非常重要。
  • 提升客户满意度:通过画像构建,提高客户满意度,增加客户留存率。
  • 防范系统和客户风险:通过画像构建的信息,有效防范潜在的系统性风险和客户风险。
  • 配合合规改造:确保业务在合规框架内运营,配合合规改造的需求。
这些方面的工作将帮助实现信贷用户画像的全面应用,为业务提供更好的支持。

2. 信贷用户画像做什么

用户画像构建的工作包括三个主要方面:
  • 融合多源内外部数据:在信贷业务场景中,为了提升业务指标,会引入多种内外部数据,既包括结构化的数值、图像,也包括非结构化的文本、图像、语音和视频等。语音数据主要涉及营销客服、催收等场景的机器人或人工客服与用户的对话录音。视频数据涉及广告素材和用户认证相关的视频信息。
  • 用户信息标签化:将用户信息进行标签化,采用从简单逻辑规则到算法建模再到最终模型融合的方式。通过这一过程形成结构化、易用、稳定的标签和特征。
  • 服务于信贷业务全流程:将画像特征的结果应用于信贷业务的全流程,并随着业务需求和市场变化不断升级完善画像标签体系。举个例子,在获客端,可能某个阶段更直接重视质量,而随着业务的深入可能会兼顾获客中小微企业主的占比。
3. 信贷用户画像构建技术难点

在用户画像构建中存在以下四个主要难点:
  • 数据的收集和整合:首先是数据的收集与整合,信贷场景下的内外数据源多且杂,需要有效地清洗与整合,剔除脏数据。
  • 隐私和安全的保障:由于涉及到用户个人信息和隐私数据,需要保障隐私和安全。数据获取需要获得完整、合规的授权链路,采用有效措施确保数据的安全和保密。敏感数据需按照规则进行脱敏,避免泄密。
  • 数据验证与精准度评估:构建用户画像后,需要进行有效性验证,确保在实际业务中的准确和可用性。基础画像可以通过 ground truth 和交叉验证进行评估,而一些场景下可能需要采用问卷调研等方式进行评估和验证。
  • 实时性和动态性:有些画像越稳定越好,如广告设备维度预测的性别,如果波动很大,说明模型构建得不够好。有些画像则越能反映用户行为和情景的变化越好,如我们通过用户埋点信息挖掘出来的需求画像。这些画像从数据获取、数据处理到画像生成都需要高效的数据实时处理和更新机制支撑。

4. 用户画像建模流程

用户画像构建的核心流程包括以下几个步骤:
  • 画像理解:从算法和数据的角度定义画像,清晰认知画像的价值。理解画像的定义对于算法和数据的角度是至关重要的。
  • 数据了解与准备:了解数据的采集方式,进行数据探索分析,如可视化分析等。对数据质量进行评估,并进行数据清洗、变换以及特征工程,以满足模型的需求。
  • 模型建立:选择合适的算法,进行算法调优,可能会建立多个模型,并对模型进行融合。
  • 评估:制定评估标准,从技术指标和业务指标两个维度对画像进行评估。评估合格后,将画像或特征上线部署,并建立相应的监控和线上测试服务。
  • 迭代与更新:画像的构建并非一次性完成,在需求变化、认知深入以及新的有效数据源增加的时候,需要对画像进行升级。画像的构建过程是一个闭环迭代的循环。
这一流程确保了画像的质量、实用性,并使其能够适应业务需求的不断变化。

02

信贷场景用户画像构建实践

1. 用户核心画像

核心用户画像主要包括以下九类特征:
  • 小微身份:表示用户是否为企业主、个体户等。虽然在工商数据中无法直接查找相关信息,但他们在用户行为、质量和需求等方面表明其与工商的小微身份相近。
  • 行业信息:可以基于国标的行业分类,并从风险和需求角度重新优化行业分类标准。采用规则和 NLP 算法进行构建的行业框架能更好地反映用户的行业特点。
  • 学历标签:包括专科以下、专科以上,本科以下、本科以上等分类。可能会细分专业、理工科等类别,甚至根据毕业学校的等级进行分类,以提高对用户风险的区分度。
  • 房产标签:包括是否拥有房产以及房产价值,并通过挖掘房产地理位置,关联小区、周边商圈、周边 POI 分布、人流等信息。
  • 车产标签:通常来自第三方数据,包括车辆的基本信息,如车辆的品牌、档次、价值、年限、残值等信息。
  • 收入标签:采用多种方式进行建模,可以是回归、多分类或单分类等,结合业务指标评估收入分的稳定性和可解释性。
  • 负债信息:挖掘用户在消金、小贷、消费贷、银行等机构的负债信息,了解用户的整体负债情况。
  • 竞品信息:通过特征挖掘,获取用户在消金、小贷、消费贷、银行等领域的竞品信息,帮助了解用户的竞品使用情况。

2. 用户画像体系

画像的特征体系还包括基础画像和特征画像两类。基础画像包含通用的年龄、性别、设备偏好、APP 偏好,以及用户的习惯、所属地域,所属地域可以衍生出许多属性,比如出生地、手机和身份证所在地。除此之外还有航旅,比如坐飞机或者坐高铁的习惯,以及 Wifi 接入,POI 的信息等等。

第三个层面就是特征画像,其粒度更细,涵盖范围更广。它包括信息流广告特征,主要是从 RTA 请求中抽取的特征,如不同媒体的请求、广告位,请求的次数、时间分布、设备信息等等,都挖掘成设备广告特征。此外,还有一些营销类的特征,如电销的营销行为。还有埋点的特征,对于埋点特征,用户通常已经下载了APP,并且大部分已经完成了注册,用户再去登录,一定与其需求或者关注点是强相关的,所以从中可以挖掘出很多特征。我们也会把业务中各个环节的累积行为数据挖掘成相关的特征,比如从注册到授信、动支、还款、逾期、催收等,还有调额调价这种业务的主动行为,以及经营行为带来的用户反馈,也建成相应的特征主题表。

除此之外,为了方便使用,在提供特征宽表给业务使用时,往往也会结合具体业务侧的应用建立分场景的模型,如 PreA 质量分、PreA 意愿分、动资意愿分、信用子分等。对小微企业主,挖掘企业相关的经营类的特征,比如上下游供应链、税票等信息。除此之外,我们也会通过关系网的特征,去挖掘一些画像标签,或者是一些特征字段。在常规数据源和手段之外,关系网往往能带来不错的收益。

3. 信贷场景画像构建技术框架

这页 PPT 想讲讲用户画像构建的技术框架和整理的思路。

其实,互联网信贷场景数据挖掘面对的是两个核心的问题,第一个问题是用户有没有借钱的需求,第二个问题是能不能把钱借给这个用户,他有没有不还钱的风险。相应地引出挖掘的核心问题,即用户意愿和用户质量。

在构建画像特征时我们首先利用内部数据。但内部数据是有限的,挖掘和建模的收益也有上限。因此会有针对性的引入对目标敏感的外部数据,如 sdk 数据、运营商数据、金科服务商数据、专有数据服务商数据等。

有了目标和数据,我们采用的挖掘方法包括通用的机器学习算法、深度学习算法,以及图计算、序列识别、大语言模型等一些较前沿的算法。

在实际中我们会分阶段去构建画像特征,如在获客阶段,我们会针对海量设备去构建设备维度画像。在新客、贷中、贷后各个阶段用户数据越来越丰富,我们会建立对应的画像。

在外层我们通过规则和建模的方式去建立 IDMAPPING GROUP 体系,将不同主键下的特征打通共用。

4. 多数据源融合

在实际中,多数据源的融合通常采用三种主要方法:
  • 特征层面融合:将不同数据源的特征整合在一起,形成一个宽特征,并建立单一模型。这是一种较为通用的方法。这种方式有一个问题,就是在引入新数据源的时候,需要将新模型应用到所有的样本上,难以平滑过度。
  • 单独建模再融合:不同数据源分别建模,然后使用多个模型进行融合。例如,对外部数据和内部数据分别建模,然后将两个分数进行回归融合。这种方法可以降低不同数据语境之间的耦合,但也可能引起更新问题,类似于特征层面融合。
  • 置信度融合:不同的数据源单独建立模型,利用各自的模型分给画像赋置信度,最后融合时取最高置信度的结果。对于实事类的数据样本,我们可以把置信度赋予最高值。这种方式的优点是易于向前兼容,但整体指标会比前两种略差。
选择合适的融合方法取决于具体业务场景、数据质量和模型效果的要求。每种方法都有其优点和缺点,需要根据实际情况进行权衡和选择。

5. 画像部署

画像部署主要涉及对画像产出结果的封装,以满足不同场景的使用需求。这通常包括实时生产,旨在为实时模型和实时策略提供支持。一般会有一个实时平台来支持实时生产。此外,还包括离线生产,为离线模型和离线策略提供支持,类似于 T+1 的场景。一些业务动作可能不需要即时执行,例如大规模用户老客风险评估、提额、降额等,这可以采用离线方式定期执行。

另一方面,将画像灌入知识图谱中,主要用于支持业务分析和预测,并能够支持在线筛选和用户圈选。通过这种方式,能够快速查看所关注用户的画像特征与业务指标。整个过程是为了更好地支持业务决策和优化。

6. 画像效果及价值评估

对画像效果和价值的评估主要从以下三个方面考虑。首先是模型的技术指标,包括AUC(Area Under the Curve)和模型预测结果稳定性的 PSI(Population Stability Index)。其次是画像特征对下游模型 AUC 和 KS 的 Delta 提升的评估。第三是对画像整体的评估,包括准确率、召回率、不同置信度的覆盖率等。对于自身的画像,可以通过调研问卷等方式进行评估。

此外,还需考虑多个数据源的交集、差集以及每一块的一致度,同时进行接近于实时的评估效果。最后是从业务侧的角度对画像成本进行评估,包括数据成本、开发成本等,并进行收益测算。同时要关注画像在业务表现方面的可解释性,确保挖掘结果与业务理解一致。如果发现画像结果与业务理解存在较大差异,可能需要进一步分析,考虑是否需要调整画像构建的方法,结合常识和经济环境等进行综合考虑。

7. 画像管理

在画像管理方面,有以下几个关键点:
  • 建立标准规范:制定逻辑衍生、评估报告、命名规则等标准,确保评估报告完善,验证准确性的标准得以实施。
  • 口径统一:实现核心画像的横向打通,统一口径,确保新老画像的一致性。
  • 信息融合:强调多数据源融合,不断提升画像的准确率和覆盖率。
  • 版本管理:管理多版本并行,实现平滑切换,最小化对系统的影响。
  • 监控报警:提前发现问题,早期解决,包括执行情况、数据稳定性以及业务指标等的监控。
  • 知识体系:建立清晰、全面的知识体系,包括字段解释、加工和挖掘方案等。
  • 画像服务:实现可视化管理,涵盖在线离线生产和部署、特征库的维护、自动化建模以及高效回溯等功能。
03

信贷场景用户画像应用

用户画像在信贷业务中的应用主要体现在增长获客、风险管理和客户经营等方面。具体而言:

增长获客阶段:通过挖掘设备维度的画像特征,提高获客精准度。降低获客成本,确保获客效益。增加获客规模,通过优化模型和特征,提升前筛模型的质量。
  • 贷前阶段:优化反欺诈,提升 A 卡性能,优化准入策略和额度价格策略。通过画像和特征的不断优化,为前筛模型提供支持,提升效果。
  • 贷中阶段:提升贷中 B 卡性能,优化策略,优化风险结构。通过画像特征优化,提升贷中 B 卡和交易 B 卡的性能。
  • 贷后阶段:提升贷后质量模型的指标,优化催收策略,确保催收效果。通过画像特征的不断优化,提高模型对贷后管理的指导作用。
  • 经营层面:包括精准营销和经营算法,根据营销目的建立相应的模型,例如促动、促完或沉睡客户召回。
用户画像在这些方面的应用,旨在全面赋能信贷业务,优化业务流程,提高决策效率,降低风险,增加客户满意度。

04

扩展方向

用户画像的扩展方向主要包括:
  • 图计算:利用同构异构图建立各种关系的数据,通过图传播、聚类、图神经网络等监督或无监督学习的方法构建风险、经营、获客等场景的画像特征。这种方法以关系为基础,能够更全面地理解用户在不同场景下的关联,为画像特征提供更多维度的信息。
  • 知识图谱:利用知识图谱输出人、企业、行业等关联性的画像信息。对于行业关联,可以包括上下游供应链、开票关系、对手方等;对于人员关联,可以包括企业法人、董监高等。通过知识图谱的推理,填充用户画像中缺失的信息,产出更为完整的风险和经营画像的特征。
  • NLP 和大语言模型:利用自然语言处理(NLP)和大语言模型,从电销、催收、征信等文本中挖掘用户的表征信息。这种方法能够更深入地理解用户在沟通和交互中的特点,从而提升对用户的经营和风险管理能力。
这些扩展方向旨在进一步丰富用户画像的内容,提高画像的准确性和深度,从而更好地服务于信贷业务的增长、风险管理和客户经营等方面。

05

Q&A

Q1:公司大模型相关在做的有哪些应用的探索,效果怎么样?

A1:大模型已经在催收、电销等业务中得到明显的应用效果。

Q2:画像应用里 a 卡、b 卡、c 卡代表什么意思?

A2:A 卡(Application Score Card)是指贷前准入环节的申请评分卡,用于贷前审批阶段对贷款申请人进行风险评估;B 卡(Behavior Score Card)用于贷中管理,利用借款人的还款及交易行为,结合其他数据预测借款人未来的还款能力和意愿,推测用户是否会逾期。B 卡通常又分调额 B 卡和交易 B 卡;C 卡(Behavior Score Cardi)用于贷后催收管理,在借款人当前状态未逾期的情况下,预测未来该笔贷款变为坏账的概率。

Q3:画像的输出通常是什么?

A3:通常是一些结构化的表。举个例子,比如用户有没有车子,用 0 和 1 表示,另外我们会把标签的概率值或置信度也带上。还会包含模型版本、更新时间、数据源。

Q4:可以再深入介绍一下模型融合吗?

A4:同一个用户不能在同一个标签下面有多个互相冲突的结果。比一个用户有没有车。可能在征信报告里看到他是有车贷的,那么大概率是有车的,还可能通过外部保险数据中看到他有车险,还有可能会用内部所有数据建模预测其有车没车的概率,最终可能得到多个结果,而业务希望的是只有一个结果,才简单好用,不会使策略过于复杂。这时就需要将结果融合成一个,这里就是刚才提到的三种方法,三种方法各有优劣,目前我们更多采用的是置信度融合的方法。

Q5:可以介绍一下深度学习的主要应用场景吗?

A5:深度学习的应用场景,首先就是文中提到的 ABC 三个卡片,还有一个场景是挖掘行为序列模型。另外,自然语言类相关处理的模型也会用到深度学习的算法。我们不会纯粹地为了使用前沿算法而去用,而是结合具体业务需求。

Q6:如果样本包含很多客群,分客群单独建模效果会更好吗?

A6:分客群建模一般都会效果更好。样本空间或者模型的空间会比较小,那么每种样本的类型就比较小了,如果说样本量够大的话一起去建模也 OK。但是我们通常要看客群的大小,如果客群都比较大,一般会拆开做。有些客群特别小,直接小样本去训练模型都很难达到一个拟合的状态。这个时候可以放一起去建模,效果会更好。最终怎么用,其实还是结合我们去锚定的一个评估集去验证的。

Q7:多部门各自建立画像的融合问题是怎么解决的?

A7:多个部门是合着做效果更好,还是分开做效果更好。这主要看部门之间的协作模式。我的经验就是说核心画像和特征会去共创,然后非核心的可以分散开来做。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


林月冠博士

奇富科技

数据挖掘技术总监

中国科学院博士,12 年算法研发与业务实践经验,聚焦于金融信贷领域的数据挖掘、风险与经营建模。目前负责奇富科技数据挖掘工作,搭建了金融信贷获客、营销、风险管理的全场景用户画像与特征体系。

往期推荐


Data Fabric 在数据集成场景的实践

大模型在新能源汽车行业的应用与最佳实践

如何从0-1使用 Apache Arrow 构建新数据系统

大数据分析平台之云原生 OLAP 架构的最佳实践

当"狂飙"的大模型撞上推荐系统

B 站标签系统落地实践

因果性学习范式初探

OLAP的统一及技术趋势:StarRocks 架构和实践分享

快手基于 Flink on K8s 的生产应用实践

快手专家:如何成为好的数据产品经理?

百度基于云原生的推荐系统设计与实践

高性能 LLM 推理框架的设计与实现

点个在看你最好看

继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存