观点 | 智慧金融背景下零售客户维系新模式——兴业银行长沙分行客户流失预警模型建设实践与思考

Original 金融电子化金融电子化 2023-01-22

零售业务作为银行业务的“压舱石”和“稳定器”，一直为各大银行重点关注的业务，零售客户规模也直接影响着银行的经济效益与发展前景。随着金融市场化程度的加快，零售客户个性化需求的增多，新客户获取成本远高于老客户维护成本。因此，预测未来会流失的客户并提前采取维系措施有助于提升银行的核心竞争力，实现银行的可持续发展。

当前数字化浪潮席卷各行各业，金融数字化转型已成为大势所趋。从供给侧要素来说，银行数字化转型需要关注三方面的要素：政策、监管与技术。政策方面，2016年《“十三五”国家科技创新规划》提出要促进科技金融产品和服务创新，完善科技与金融的结合机制。2021年发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》将“加快数字化发展建设数字中国”单列成篇，提出“以数字化转型整体驱动生产方式、生活方式和治理方式变革”，为新时期数字化转型指明了方向。监管方面，中国人民银行和银保监会于2022年初先后出台了《金融科技发展规划（2022—2025年）》和《银行业保险业数字化转型的指导意见》，这对银行业而言，正是布局的最好指导。技术方面，随着大数据、区块链、人工智能、云计算等技术的发展，“互联网+”不断深化，数字经济飞速发展。尤其在人工智能方向，机器学习正在成为行业数字化转型的新宠，成为各行各业寻求突破的下一个关键点。

兴业银行顺应数字化时代的发展趋势，将数字化转型作为响应国家战略、落实监管要求、强化金融科技赋能的重要战略。在数字化转型过程中，兴业银行围绕“1234”战略，发布数字化转型五年规划，提出“构建连接一切的能力，打造最佳生态赋能银行”的愿景。兴业银行长沙分行积极响应总行数字化转型战略部署，在对公场景基于内外部数据开发了线上社保贷、公积金贷、税E贷、政采贷、兴湘连等多款产品。在零售场景应用机器学习技术从海量的数据中挖掘出对流失有影响的信息，建立了高效的客户流失预警体系,助力了零售数字化向零售智能化发展。

兴业银行长沙分行杨煜辉

传统客户维系模式的问题与解决方案

当前各银行都应用了成熟的客户关系管理体系，建设了丰富的线上及线下的客户触达渠道，但传统的客户维系模式在业务转型过程中仍面临诸多挑战。一是多维度存量数据导致分行管理人员分析难度上升。二是粗放管理导致支行维系人员效率下降。因此，在维系方案的优化方面，分行管理人员侧重于客户画像及流失归因分析，以实现精细化运营。支行维系人员侧重于流失客户名单的准确性，以避免全量触达，提高维系效率。基于以上需求，兴业银行长沙分行提出了“三步走”方案：第一步是结合因子分析法与K-Prototype聚类算法，构建流失客户画像，形成分类客户标签，提出分层挽留策略。第二步是基于LightGBM算法进行机器学习建模，预测流失客户名单。最后对第一步的聚类结果应用决策树算法，生成聚类规则，并将该规则应用至第二步的预测流失名单，由支行营销人员对不同标签的预测流失客户执行标准化挽留动作，实现精准维系。

客户流失预警模型建设实践

针对零售客户维系的痛点问题，兴业银行长沙分行多部门联动，梳理了现有需求，以历史存量数据为基础，结合专家特征、客户经理维系经验，提出了一套综合使用统计学原理、无监督机器学习算法、有监督机器学习算法的流失预警方案，形成了流失原因分析、流失客户预测、流失客户标准挽留措施执行的维系闭环。整个流失预警模型由三个子模型构成，分别是流失客户聚类模型、流失客户预测模型、流失客户规则匹配模型。

1.流失客户聚类模型。对流失客户聚类会涉及多个变量，但变量之间可能存在的相关性会增加问题分析的复杂度。因此，为了降低数据分析与采集的难度，可以采用因子分析法对变量进行降维。

在本项目中，兴业银行长沙分行以月均综合金融资产下降80%作为流失客户标准，随机抽样了2021年1~12月共1万条流失客户数据，包含客户编码、月均存款金额、月均转账笔数等200余个变量。通过对流失客户数据进行KMO检验、因子提取、因子旋转、因子命名解释、计算因子得分等环节最终得出了对客户流失具有重要影响的20个公共因子，分别为资产情况、交易活跃程度等。

通过应用K-Prototype聚类算法，可以根据流失客户的多维度变量将客户划分为不同的群组，从而对不同特征群组的客户执行个性化的维系策略。

在本项目中，兴业银行长沙分行以因子分析法降维后的流失客户数据作为聚类基准数据，在对该数据聚类后，共生成4个客群，并依据客群各个公共因子的中位数值得到每个客群的典型特征。这四类流失客户分别代表了资产状况较好但转出金额大的客户，理财产品较多但未持有本行信用卡的客户，具有稳定的职业和收入、信用状况良好但信用卡额度较低的客户以及各方面特征都比较平均的客户。对于前三类特征明显的客群，兴业银行长沙分行初步制订了如下维系策略：对第一类客户可挖掘理财产品需求，提高客户品牌认可度。对于第二类客户可推荐开立本行信用卡，增加客户黏性。对于第三类客户可用信用卡二次提额的方式进行维系。

2.流失客户预测模型。流失客户预测模型采用LightGBM算法进行数据建模。在本项目中，兴业银行长沙分行以月均综合金融资产下降80%为界定标准建立是否流失标签，随机抽样了2021年1~12月共5万条客户数据进行模型训练，并用2022年1~12月数据预测流失客户，并与2月末实际数据进行对比。在数据预处理与可视化阶段，兴业银行长沙分行发现数据存在缺失值、不平衡的问题。为解决上述问题，兴业银行长沙分行充分利用了算法特性，在缺失值处理方面，应用LightGBM内置的缺失值处理机制，相比于传统的缺失值处理方式，例如直接删除或填充，这种处理方式能更大限度利用样本数据，减少样本噪音。在样本不平衡方面，应用自定义损失函数FocalLoss。相比于算法默认的损失函数，同时解决了正负样本不平衡以及区分难易分类样本的问题。在特征工程阶段，兴业银行长沙分行协同多部门对生产数据进行探索，以专家经验和业务逻辑人工构造了多个特征，并通过数据表现与LightGBM的特征重要性函数对特征进行筛选，保留了部分有效特征。在模型训练与优化阶段，兴业银行长沙分行使用Optuna库进行贪心搜索最佳参数组合并以召回率作为迭代指标。在模型预测检验阶段，兴业银行长沙分行选取2022年1~2月月均综合金融资产高于5000元的1万名客户进行模型验证，LightGBM模型预测结果显示:可能流失的人数有837人，其中实际流失的人数为366人，预测召回率达到了43.72%。

3.流失客户规则匹配模型。流失客户规则匹配模型综合运用了流失客户聚类模型输出的聚类结果以及流失客户预测模型输出的流失客户预测名单。首先，兴业银行长沙分行使用决策树算法对聚类结果进行规则提取。其次，在得到聚类规则后，兴业银行长沙分行将其运用至流失客户预测名单即可得出最终的分群预测名单，支行营销人员即以该名单为准，进行分群维系。在本项目中，综合客户经理数据筛选经验，兴业银行长沙分行选取2022年3月月均综合金融资产高于5000元的1.2万名客户进行模型验证。经过数据分析比对，模型预测流失数为1637人，在不加干预的情况下，其中实际流失人数556人，实际流失率达到了33.96%，显著高于兴业银行长沙分行平均流失比率，精确挖掘了流失客户群。

未来展望

兴业银行长沙分行将深化试点项目，从上游数据、中游模型、下游应用三个方面着手优化机器学习技术在零售维系方面的应用。在上游数据方面，通过数据治理发挥数据的潜力，提升数据的应用质量。同时，部署数据中台以集成不同数据源，为后续的分析和应用提供数据基础。在中游模型方面，加强与业务部门的联合建模，分别从特征、决策、结果上加强模型的业务可解释性。在下游应用方面，首先建立结果反馈机制，将维系结果及时回流分析，实现维系闭环，持续迭代优化模型。其次建立模型监测机制，定期核查数据的漂移程度，剔除失效指标，保证模型的稳定性。

未来，兴业银行长沙分行将持续推进数字化转型，建立能够与业务协同发展的，能被业务人员理解的，能够满足数据分析与创新的机器学习能力体系，不断拓展金融服务触达半径和辐射范围，让金融科技更广泛、更深入地惠及广大人民群众。

（栏目编辑：韩维蜜）

往期精选：

（点击查看精彩内容）

● 观点 | 新时代下的数据治理：企业数字化转型的必由之路

● 观点 | 自然语言处理技术在反洗钱监测分析中的应用展望

● 观点 | 光大银行基于eBPF云可观测之路的思考

● 观点 | 夯实智能运维发展之基，赋能数字金融创新之路

● 观点 | 隐私计算：探索构建数据要素新生态