其他
用户画像构建与应用
导读 今天分享的主题是信贷场景用户画像构建与应用,将结合信贷场景的特殊性,深入讨论如何建立一个服务于整个信贷业务场景的用户画像特征体系。
今天的介绍会围绕下面五点展开:1. 信贷场景用户画像构建方法
2. 信贷场景用户画像构建实践
3. 信贷场景用户画像应用
4. 扩展方向
5. Q&A
分享嘉宾|林月冠博士 奇富科技 数据挖掘技术总监
编辑整理|刘步龙
内容校对|李瑶
出品社区|DataFun
1. 信贷用户画像业务目标
提升业务指标:公司的核心目标是盈利,因此需要在获客、经营、风险、催收等环节提升业务指标。 提升对自身用户的认知:借贷市场不断变化,客群构成和质量都在变化,因此实时、准确地认识客户情况非常重要。 提升客户满意度:通过画像构建,提高客户满意度,增加客户留存率。 防范系统和客户风险:通过画像构建的信息,有效防范潜在的系统性风险和客户风险。 配合合规改造:确保业务在合规框架内运营,配合合规改造的需求。
2. 信贷用户画像做什么
融合多源内外部数据:在信贷业务场景中,为了提升业务指标,会引入多种内外部数据,既包括结构化的数值、图像,也包括非结构化的文本、图像、语音和视频等。语音数据主要涉及营销客服、催收等场景的机器人或人工客服与用户的对话录音。视频数据涉及广告素材和用户认证相关的视频信息。 用户信息标签化:将用户信息进行标签化,采用从简单逻辑规则到算法建模再到最终模型融合的方式。通过这一过程形成结构化、易用、稳定的标签和特征。 服务于信贷业务全流程:将画像特征的结果应用于信贷业务的全流程,并随着业务需求和市场变化不断升级完善画像标签体系。举个例子,在获客端,可能某个阶段更直接重视质量,而随着业务的深入可能会兼顾获客中小微企业主的占比。
数据的收集和整合:首先是数据的收集与整合,信贷场景下的内外数据源多且杂,需要有效地清洗与整合,剔除脏数据。 隐私和安全的保障:由于涉及到用户个人信息和隐私数据,需要保障隐私和安全。数据获取需要获得完整、合规的授权链路,采用有效措施确保数据的安全和保密。敏感数据需按照规则进行脱敏,避免泄密。 数据验证与精准度评估:构建用户画像后,需要进行有效性验证,确保在实际业务中的准确和可用性。基础画像可以通过 ground truth 和交叉验证进行评估,而一些场景下可能需要采用问卷调研等方式进行评估和验证。 实时性和动态性:有些画像越稳定越好,如广告设备维度预测的性别,如果波动很大,说明模型构建得不够好。有些画像则越能反映用户行为和情景的变化越好,如我们通过用户埋点信息挖掘出来的需求画像。这些画像从数据获取、数据处理到画像生成都需要高效的数据实时处理和更新机制支撑。
4. 用户画像建模流程
画像理解:从算法和数据的角度定义画像,清晰认知画像的价值。理解画像的定义对于算法和数据的角度是至关重要的。 数据了解与准备:了解数据的采集方式,进行数据探索分析,如可视化分析等。对数据质量进行评估,并进行数据清洗、变换以及特征工程,以满足模型的需求。 模型建立:选择合适的算法,进行算法调优,可能会建立多个模型,并对模型进行融合。 评估:制定评估标准,从技术指标和业务指标两个维度对画像进行评估。评估合格后,将画像或特征上线部署,并建立相应的监控和线上测试服务。 迭代与更新:画像的构建并非一次性完成,在需求变化、认知深入以及新的有效数据源增加的时候,需要对画像进行升级。画像的构建过程是一个闭环迭代的循环。
信贷场景用户画像构建实践
1. 用户核心画像
小微身份:表示用户是否为企业主、个体户等。虽然在工商数据中无法直接查找相关信息,但他们在用户行为、质量和需求等方面表明其与工商的小微身份相近。 行业信息:可以基于国标的行业分类,并从风险和需求角度重新优化行业分类标准。采用规则和 NLP 算法进行构建的行业框架能更好地反映用户的行业特点。 学历标签:包括专科以下、专科以上,本科以下、本科以上等分类。可能会细分专业、理工科等类别,甚至根据毕业学校的等级进行分类,以提高对用户风险的区分度。 房产标签:包括是否拥有房产以及房产价值,并通过挖掘房产地理位置,关联小区、周边商圈、周边 POI 分布、人流等信息。 车产标签:通常来自第三方数据,包括车辆的基本信息,如车辆的品牌、档次、价值、年限、残值等信息。 收入标签:采用多种方式进行建模,可以是回归、多分类或单分类等,结合业务指标评估收入分的稳定性和可解释性。 负债信息:挖掘用户在消金、小贷、消费贷、银行等机构的负债信息,了解用户的整体负债情况。 竞品信息:通过特征挖掘,获取用户在消金、小贷、消费贷、银行等领域的竞品信息,帮助了解用户的竞品使用情况。
2. 用户画像体系
3. 信贷场景画像构建技术框架
4. 多数据源融合
特征层面融合:将不同数据源的特征整合在一起,形成一个宽特征,并建立单一模型。这是一种较为通用的方法。这种方式有一个问题,就是在引入新数据源的时候,需要将新模型应用到所有的样本上,难以平滑过度。 单独建模再融合:不同数据源分别建模,然后使用多个模型进行融合。例如,对外部数据和内部数据分别建模,然后将两个分数进行回归融合。这种方法可以降低不同数据语境之间的耦合,但也可能引起更新问题,类似于特征层面融合。 置信度融合:不同的数据源单独建立模型,利用各自的模型分给画像赋置信度,最后融合时取最高置信度的结果。对于实事类的数据样本,我们可以把置信度赋予最高值。这种方式的优点是易于向前兼容,但整体指标会比前两种略差。
5. 画像部署
6. 画像效果及价值评估
7. 画像管理
建立标准规范:制定逻辑衍生、评估报告、命名规则等标准,确保评估报告完善,验证准确性的标准得以实施。 口径统一:实现核心画像的横向打通,统一口径,确保新老画像的一致性。 信息融合:强调多数据源融合,不断提升画像的准确率和覆盖率。 版本管理:管理多版本并行,实现平滑切换,最小化对系统的影响。 监控报警:提前发现问题,早期解决,包括执行情况、数据稳定性以及业务指标等的监控。 知识体系:建立清晰、全面的知识体系,包括字段解释、加工和挖掘方案等。 画像服务:实现可视化管理,涵盖在线离线生产和部署、特征库的维护、自动化建模以及高效回溯等功能。
信贷场景用户画像应用
贷前阶段:优化反欺诈,提升 A 卡性能,优化准入策略和额度价格策略。通过画像和特征的不断优化,为前筛模型提供支持,提升效果。 贷中阶段:提升贷中 B 卡性能,优化策略,优化风险结构。通过画像特征优化,提升贷中 B 卡和交易 B 卡的性能。 贷后阶段:提升贷后质量模型的指标,优化催收策略,确保催收效果。通过画像特征的不断优化,提高模型对贷后管理的指导作用。 经营层面:包括精准营销和经营算法,根据营销目的建立相应的模型,例如促动、促完或沉睡客户召回。
扩展方向
图计算:利用同构异构图建立各种关系的数据,通过图传播、聚类、图神经网络等监督或无监督学习的方法构建风险、经营、获客等场景的画像特征。这种方法以关系为基础,能够更全面地理解用户在不同场景下的关联,为画像特征提供更多维度的信息。 知识图谱:利用知识图谱输出人、企业、行业等关联性的画像信息。对于行业关联,可以包括上下游供应链、开票关系、对手方等;对于人员关联,可以包括企业法人、董监高等。通过知识图谱的推理,填充用户画像中缺失的信息,产出更为完整的风险和经营画像的特征。 NLP 和大语言模型:利用自然语言处理(NLP)和大语言模型,从电销、催收、征信等文本中挖掘用户的表征信息。这种方法能够更深入地理解用户在沟通和交互中的特点,从而提升对用户的经营和风险管理能力。
Q&A
分享嘉宾
INTRODUCTION
林月冠博士
奇富科技
数据挖掘技术总监
中国科学院博士,12 年算法研发与业务实践经验,聚焦于金融信贷领域的数据挖掘、风险与经营建模。目前负责奇富科技数据挖掘工作,搭建了金融信贷获客、营销、风险管理的全场景用户画像与特征体系。
往期推荐
点个在看你最好看