查看原文
其他

前沿 | 打破信息孤岛,联邦学习如何落地

小盾 智能风控联盟 2022-07-18


信息化时代,数据已经成为一种生产要素。但由于竞争关系,机构常常囿于流量之争,导致数据难以聚合发挥其最大价值。数据孤岛成为全球普遍问题。

与此同时,数据安全也成为现代人的隐忧,例如苹果公司出台新的隐私政策后,不少用户在提醒之下宁愿选择关闭数据分享,因为他们感到难以评估数据分享所带来的利弊。

在数据孤岛和数据安全的背景下,基于数据驱动的商业活动势必要进行改变。联邦学习应运而生,在做到数据可用不可见的前提下,完成跨公司、跨行业的数据聚合,赋能企业的业务发展。



近日,同盾知识联邦技术专家做客北京金融科技产业联盟“金融科技慕课学院”,进行了《联邦学习金融实施步骤》的主题分享,介绍了联邦学习项目从前期准备、实施建模、后期验收等各阶段的实施落地流程。

他提到目前联邦学习落地过程中存在的问题,例如业务人员对联邦学习很感兴趣,但难以明确运用场景;以及联邦学习与现有系统如何搭配,形成辅助等。此外,专家还分享了同盾在联邦学习探索过程中遇到的“坑”,以及相应的解决方案。


不同视角下的各类联邦学习特征



联邦学习在不同场景有不同分类。同盾技术专家从四个不同视角分析了各类型联邦学习的特征和适用性,包括数据视角、参与方视角、架构视角及流程视角


首先,在数据视角,联邦学习分为跨样本联邦学习、跨特征联邦学习及复合型联邦学习。之所以称为数据视角,因为这是根据参与方(特征和样本)数据的覆盖度进行的划分。

跨样本联邦学习,也叫横向联邦学习,是同行业之间的数据联合。在金融行业,横向联邦学习的应用不广,试点较少。目前大型机构不太愿意同业共享,而中小型机构迫于生存才愿意参与。同盾技术专家认为,未来在横向联邦学习领域将会被发掘出更大的潜能。

跨特征联邦学习,也叫纵向联邦学习,是跨行业的联邦学习,目前应用更广。例如银行有用户的收支行为与信用评级,运营商有用户的通信行为和网络行为,电商有用户的消费行为和偏好。联邦学习可以将数据脱敏之后运用,形成模型,进而指导企业的营销、风控、估价等业务。

复合型联邦学习,也称为联邦迁移学习,需要足够数据才能进行建模。在复合型学习当中,可能会应用到集成学习、元学习、特征蒸馏等手段。

其次,从参与方视角,联邦学习则分为两方联邦和多方联邦。理论上,只要有两方(及以上)参与就可以构成联邦学习,但实际落地上,两方联邦学习和多方联邦学习还是有差别的。

两方通常是由一方发起联邦请求,请求方也往往是模型的使用者。目的容易达成,一方提供数据,为一方解决问题。法律程序较为简单,不需要中间方。

同时,同盾技术专家也指出,想要将数据利用率更大化,两方联邦是远远不够的。相较之下,多方联邦的应用价值更高。但涉及三方、四方,甚至更多方的法务问题,以目前落地情况来看较难促成多方联邦。

同盾技术专家认为,多方联邦学习中模型使用者必然会关心谁的数据贡献大,因此需要引入数据贡献度等相关算法进行计算,来评估数据价值。同时涉及到某一方中途退出的情况也较为复杂。这些原因共同加大了多方联邦学习的落地难度。

最后,从架构视角,联邦学习也可分为弱中心化和去中心化两类。

联邦学习诞生之初就是以弱中心化模式设计的。有别于强中心化的安全屋模式,在弱中心化的联邦学习中,中心只是一个协调方,负责执行约定的规则,并辅助参与方进行信息交换,并不涉及汇聚、存储原始数据的功能。弱中心化是一个半理想、半现实的模型。而去中心化的联邦学习则是实践衍生的产物,在两两联邦中也得到了广泛的应用。


从联邦学习落地步骤,看集团企业的操作要点



同盾技术专家介绍,我们推出的工业级联邦学习平台“智邦知识联邦平台”已经参与了金融机构和政府单位的数十个联邦学习的项目。在这个过程中,我们也遇到过一些问题,但都逐一解决了。

同盾技术专家认为,解决这些问题,要从联邦学习的落地全流程入手。联邦学习的落地流程涉及到两个团队的工作,一般将其分为业务侧和平台侧。

业务侧,通常是由业务专家来完成。首先要确认业务目标,是风控、估价、还是营销。之后,业务专家需要对业务场景进行分析,该场景是否需要用到其他来源数据,如果需要其他数据,业务专家基于业务场景,进行离线的数据分析、数据挖掘等工作,并准备联邦学习用的数据。

同盾技术专家认为,在业务场景分析中,需要关注的是业务目标的适配度、痛点分析、数据使用限制及实际数据情况。例如有些跨境场景是不允许数据使用的,则不适宜联邦学习落地。

同盾技术专家强调,联邦学习是大数据、人工智能和密码学的融合技术。做好联邦学习解决方案,则需要业务、法律、技术三方面的储备。

而在平台侧,首先要选定合作对象,需明确用来建模的数据,由参与方设计联邦数据的探查方式、联邦建模的算法等,最终经模型训练得到联邦数据模型。

和所有机器学习一样,数据探查、模型训练、模型测试是一个往复迭代的过程。同盾智邦平台将不同算法包装为一个个算子,由参与方组织算子形成高自由度的学习流。

目前提升联邦学习效率是联邦学习各厂商的发力点。为了提高建模效率,不同厂商采用的方法不一,有优化建模算法、优化加密算法、优化通信、硬件加速等。同盾智邦平台上以20万数据,两方特征200维为例,一次建模大约需要1小时。

当联邦学习模型经测试后达到目标预期,需要从测试环境向生产环境进行模型发布。不同环境的系统的侧重点是不同的,测试环境需注意大数据的承载能力,生产环境更需注意系统的稳定性和返回的实时性。


联邦学习的三个场景示例




金融信贷风控场景中,金融机构需在确保安全的基础上,引入外部数据,提高个人信贷审核信用评估准确率,降低逾期风险;这便需要基于智邦平台,采用跨特征的联邦方式,训练学习符合金融机构任务需求的信用评估模型,提升信用预测模型准确率。实施时,操作方通过数据聚合对齐用户约20万条,共补充特征维度到200多维。经实验验证,联邦学习方法可使模型K-S值提升30%;部署上线后,该联邦模型月调用量约50万次,风控能力显著提升。

政务经济大数据场景中,政务部门需在安全合规的基础上,解决地方大数据因数据孤岛而对地方企业缺乏细粒度了解的问题,监控企业健康度与区域经济发展状况,以实现监控地方经济状况与统筹规划资源等目标;这便需要基于智邦平台的多方安全计算实现安全统计、分析,输出实时可见监测业务看板,其结果可为政务提供可展示、可解读、可应用的数据解决方案,推进城市的数字化转型。实施时,操作方联通委办单位数据,即搭设智邦平台,安全联合分析各委办单位的企业数据,并联通互联网数据,即打通本地互联网平台数据,丰富分析维度。经实际验证,试点市的政务处理效率普遍可提高20%以上,而在疫情发生后,政府执行市场复产复工专项扶持项目时,平台专项扶持款在一个月内大幅增长。

银保营销复合型联邦场景比较复杂,其项目背景是某国有银行与某保险公司有紧密业务关系,保险公司若能从银行上亿客群中挖掘潜在保险用户,将有效提升银保营销转化率,提高保险销量。在这一场景中,相关各方需利用已有人群特征标签作为种子用户,构建多维、准确、及时的全息用户画像,找到更多潜在相似人群,同时优化营销渠道。保险公司常见的营销场景有健康险场景、年金险场景、车险场景等,基于这些场景,保险公司可根据用户的基础属性、资产情况、消费场景、行为属性、位置属性等精准划分人群标签。

银保营销复合型联邦存在一些难点,一是正负样本量差异大,保险公司负样本很少,而银行海量非保险用户。难点在于负样本的选取及构建、采样算法选择等。二是联邦体量差异大,即即银行客户群体远大于保险客户群体,难点在于种子用户筛选、受众群体的确定等。三是业务模式多样性,即保险具有产品多样、渠道多样等特点,银行则存在理公司多样、代理保险理财产品多样等特点。四是深挖业务补充样本,即操作方需深入理解保险、理财产品的差异性,并从其他产品中挖掘种子用户补充样本,操作方不易深度理解业务。

对于上述难点,保险公司可采用如下解决方案,一是用户拆解,对用户可群进行细致划分不划分共有用户/非公有用户,还划分高净值用户/低净值用户等,不同用户的特性需要分别进行对齐。二是问题拆解,涉及首购营销问题,即针对首次购买保险的用户营销;复购营销问题,即对已购买过保险,但未续购的用户进行营销;捆绑营销,即与其他产品捆绑向用户营销。三是模型拆解,基于用户拆解和问题拆解,该解决方案涉及多个模型,包括本地模型、联邦模型等。完成多模型训练后,将若干个模型进行融合,便可得到最终的模型结果。相较于原有营销模型,召回率提升超过三倍。




你可能还喜欢
通过全球隐私保护权威认证,同盾科技获颁ISO27701证书
同盾科技入选杭州金融科技创新监管工具第二批创新应用
最高法:银行卡被盗刷,银行应赔偿损失——银行如何加强交易风控?

朴道征信与同盾科技签署战略合作框架协议


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存