实战 | 中银金科隐私计算产品建设实践
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 中银金科 张辉 张翼飞 张鸣皓
当前信息化与经济社会持续深度融合,数据作为关键生产要素的作用逐渐凸显。与此同时,数据泄露事件层出不穷,数据隐私安全面临巨大的挑战。在这样的背景下,《网络安全法》《数据安全法》《个人信息保护法》相继出台,旨在严格约束企业的个人信息处理行为。隐私计算是保护数据不出界而又能跨界流通的新兴技术,它抛弃了交换简单加密个人数据的技术逻辑,在数据流通过程中记录不可逆的中间计算结果,在密文状态下完成规则及模型的计算,从而保护数据的隐私和安全。截至目前,金融行业已经有数十个相关项目在全国陆续落地,资本也已然嗅到产业机遇,该领域的创业公司遍地开花。
中银金融科技有限公司作为中国银行全资的金融科技子公司,立足服务集团,同时向外拓展,已启动隐私计算技术研究和应用探索,现正在进行基础平台迭代和多个创新实践,为集团内乃至金融业的数据合规使用、业务创新提供有力支撑。
解决实际业务问题驱动产品迭代
以促进数据共享为手段,业务赋能为目标,中银金科在集团范围内积极开展业务调研后,选择将消费贷风控、银行高净值客户挖掘两个业务场景作为切入点,通过总结二者共性业务模式,确定了纵向联邦学习为首要技术方向,再向下逐步分解模块、技术组件、算法等实施内容,最终形成了隐私计算平台V1.0版本。
在消费贷风控领域,平台V1.0主要赋能贷前和贷中风控。贷前阶段,将客户在消金公司申请贷款时记录的基本信息和客户在行内的资产、交易流水等数据进行跨域融合后,再联合建模生成评分作为审批参考,以此提升贷前审批评估能力。贷中阶段,将消金公司自有的客户账户、行为数据与银行内记录的客户资产、交易流水数据进行联合建模,再将模型评分用于客户额度调整、利率优惠、高风险客户账户冻结,通过更丰富的数据维度,提高对客户资质以及潜在风险的识别能力。
高净值客户的挖掘主要针对金融机构的长尾客户。金融机构有大量不活跃的长尾客户,仅依靠内部数据无法将其有效识别,必须借助航空公司、运营商、奢侈品商品销售公司等外部数据,在数据不出域的前提下,通过联邦学习技术构建出高净值用户挖掘模型。首先,金融机构与外部数据源利用隐私求交技术对跨域数据进行安全融合,确认共有的交集用户。之后,使用同态加密、秘密分享等密码学技术,对交集样本特征跨域分箱,解决特征之间量纲化问题。在此过程中双方仅能够获得交集样本的WOE、IV等统计信息,不会逆推出任何原始数据和分箱结果。最后,对预处理后的结果进行模型训练,训练过程中参与方的原始数据都保留在本地,仅以数据碎片、加密等形式对外交互模型的中间梯度,保证在计算过程中,参与方仅能获得计算结果,无法反推各方原始数据。通过上述横向联邦学习过程,既保护了客户个人信息安全,也实现了金融机构挖掘高净值用户的需求。
敏捷实施稳步提升平台能力
隐私计算平台的使用者为数据科学工程师,平台为其快速构建数据模型而服务,其构建具有数据科学的迭代性本质,技术架构和构建过程一定是敏捷灵活的。关键组件、模型、算法可快速标准化配置和管理是企业建设的核心和目标。从技术工具来说,隐私计算平台涉及的技术栈广而深,是多方安全计算、联邦学习、大数据、区块链、密码学、分布式计算、高吞吐通信、机器学习、Web等技术的综合运用。因此,采用SFV原则来指导产品迭代,即Small、Fast、Validation。先用小的业务目标切入,快速原型迭代,证明有效后进行扩展和优化。
回顾隐私计算平台1.0版本的构建过程,从隐私求交、隐匿查询、联邦线性回归、联邦逻辑回归、联邦树模型,再到联合求和,其迭代过程都是在坚持SFV原则下前行的。首先,先对FATE进行验证和分析。FATE是非常优秀的开源联邦学习项目,全部基于PYTHON构建,较完备地实现了联邦学习的基础功能。但其项目实现较为复杂,任务调度工具、数据类型、并行计算引擎紧密耦合在一起。基于FATE构建产品,一方面,产品的前期学习和后期维护成本将会很高,另一方面,FATE采用的某些组件与公司的企业级架构要求不相符合,例如消息中间件、调度引擎等。
因此中银金科决定采用自研路线,通过初期建立一个轻量级应用,再逐步优化扩充,增强自主可控能力。第一阶段的目标实现多方数据融合(隐私求交)。核心技术要素由GRPC通信协议和RSA算法构成。GRPC基于HTTP2.0协议,用于大数据的双向传输,其编程实现较为直观友好,可快速进行功能验证,非常适合联邦学习的场景。另一条通信路线基于MQ的通信模型,可增加吞吐量和程序解耦,纳入了后续的产品计划当中。RSA算法的指数特性是安全求交策略的核心,利用这个特性,一方随机产生的用于混淆数据的大质数,可安全传递后在多方使用,确保多方数据基于相同规则进行数据混淆加密,这是求交集的基础。在具备了数据融合能力之后,立即开展联邦学习线性回归算法,其核心原理简单来说就是将分布式建模的中间过程进行同态加密。同态算法库采用Pallier,该算法库较为成熟,使用简单,可完成安全计算,适合联邦学习的快速构建。在第二阶段,产品的可行性以及联邦学习的框架思路已经得到验证。第三阶段是一个里程碑的阶段,产品化、组件化、模块化、数据分箱等功能和优化都是在这一阶段并行完成。产品组分三组同步行动,一组充分调研市场产品和集团内的用户模式,致力打造最优用户体验的建模平台;第二组继续进行逻辑回归、数据分箱、树模型等其他算法和功能的开发;第三组对产品的架构进行优化,以支持模块的可配置化、提升性能。至此,隐私计算平台1.0版本完成。
多方合作,前瞻布局
隐私计算平台建设不是一项孤立、短期的工作,其产品演化是伴随着业务种类发展、数据规模增长、行业规范逐步清晰而进行的。可以预见,超大规模数据安全计算性能和标准通信协议将是下一步两大技术挑战。中银金科将选择优秀技术厂商开展合作,快速拓展技术的宽度和深度,提升交付能力。多方安全计算,超大规模数据集性能提升,平台间互联互通,强化性能的一体机设备研究是下阶段合作的重点。业务方面,中银金科将继续探索业务场景,对接集团内外的数据供给侧和需求侧,提升集团内数据分析的广度和深度。在外部,积极参与政府、行业组织的联合实验室、标准制定等工作,实现资源互补,强化技术实力,孵化创新应用场景,赋能产业发展。
往期精选:
● 实战 | 助力客户体验提升——NLP在分析客户反馈场景下的应用
《金融电子化》新媒体部:主任 / 邝源 编辑 / 傅甜甜 潘婧