更新|隐私计算之联邦三部曲
来源:隐私计算联盟成员-中国工商银行软件开发中心
作者:强锋,张闯
一、背景
近年来,数字经济蓬勃发展,已经成为带动中国经济增长的核心动力。2020年4月9日,中共中央国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《完善意见》),首次将数据与土地、劳动力、资本、技术等传统要素并列为生产要素,这表明数字经济时代,数据成为新的关键生产要素,已成为社会基础性战略资源,蕴藏着巨大潜力和能量,必将成为提升金融行业赋能实体经济的有力抓手。
随着大数据技术的快速发展,人们每天的活动产生了大量的数据,这些数据被众多的企业收集和使用,数据在空间和时间里面流动产生了价值。在价值产生的过程中,需要对数据进行保护。但是数据往往分布在不同的企业、机构,形成了如图1所示的一个个数据“孤岛”。例如,在机构间,尤其政府部门,很多数据没有充分共享。又比如银行和税务,希望通过银税合作来获取客户的风险评估信息。在企业内部也是如此,集团化的企业公司越来越大,子公司、分公司,就连部门内部的系统都可能是自己分别开发的,数据之间完全孤立。为了挖掘数据中蕴藏的巨大价值,消除行业数据孤岛现象,让数据相互之间协作起来,必然是未来发展趋势。
数据在为人们的生活带来了种种便利的同时,也使得大家对于个人的数据隐私和安全带来了担忧,这俨然已经成为世界性的问题。各国针对这个情况,纷纷立法进行规范,例如:欧盟提出了《通用数据保护条例》(General Data Protection Regulation, GDPR),该法案已于2018年起正式生效;中国也在制定《个人信息保护法》,用以加强监管。可见,对用户数据隐私和安全管理的日渐收紧已经成为了必然的趋势。这就对企业利用数据开展业务提出了一个挑战。如何才能在遵循法规的要求下,即充分发挥数据的价值,同时又不会影响到用户的数据隐私和安全?尤其是对于依赖外部数据的企业,如何能够利用合作伙伴的数据价值,又不会见到原始数据,造成数据泄露的问题?
针对这一情况,近年来,学术界和工业界都已经开始在数据安全和隐私保护方向的探索,尤其是在大数据、人工智能和密码学等领域。如何在满足数据隐私、安全和监管的前提下,设计一个机器学习框架,让人工智能能够更高效、更准确的共同使用各方数据成为了研究的核心,联邦学习应运而生。
图1. “数据孤岛“现象普遍存在
二、联邦学习
(一) 什么是联邦学习
1、联邦学习的内涵
联邦学习,是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模,能够有效的解决数据孤岛、数据合规性以及两者的冲突,进而达到“数据可用不可见”的目标。
联邦学习从名字上看,有两个明晰的主题:学习和联邦。
什么是学习?这个概念源自于我们谈论的数据和信息。数据一般被认为是原始素材,客观描述事物的数量、属性、位置等关系。信息则是经过加工处理之后、具有逻辑关系的数据,通常会是对决策有价值。学习的内容是知识,知识则更多是在信息上再进一步归纳演绎之后,沉淀下来的有价值的信息。通常情况下,学习到的知识被认为是与决策有关的。
从学习到联邦,其最终目的是希望通过一种安全的方式解决数据孤岛现象,达到“数据可用不可见”的目标。在联邦学习里,联邦本质上是一种安全协议下的数据交换共享,目的是有效利用各参与方的数据来进行知识的共创、共享和推理。
2. 联邦学习的外延
联邦学习与很多技术有一定关系,比如可信执行环境、密码学、隐私计算。例如,可信执行环境是一种芯片级的硬件安全计算技术,联邦学习可以依靠这种方式来实现更高的硬件层面的安全性能。如表1所示,列举了在联邦学习中涉及到的相关技术和算法。
表1. 联邦学习相关技术
3. 数据可用不可见
数据可用不可见,即充分利用各方的数据,让数据保持对外开放,同时能够让数据不直接共享,不离开机构或个人。
为了实现“数据可用不可见”这个目标,传统的中心化计算模式,也就是大数据经常会做的中心化聚集,把数据存储聚集再做训练,已经不能满足合规性的要求。中心化不可行,那就让数据分散在各个机构中,采用分布式或者去中心化方式计算或学习。在真正的实践中,通常采用一种弱中心化方式,过去强中心化大数据集成方式是不可行的,主要是安全存在很大隐患。但是完全的去中心化,也很难兼顾效率。弱中心化方式更多是一种强中心化和去中心化的折衷。
原始数据直接共享不可行,我们可以采用两种方式,第一种方式是对数据进行加密,加密后也不破坏原始数据的统计特征。第二种方式,可以将数据知识化,也就是说将数据转化成一种模型策略的知识,再把这些分散的知识聚合在一起,实现数据的可用。
(二) 联邦学习的模式
1. 数据视角
根据数据分布形式,联邦学习的模式可分为跨样本联邦(横向联邦)、跨特征联邦(纵向联邦)、复合型联邦(联邦迁移)。
跨样本联邦的目的是要充分利用数据服务提供方的样本和标签数据,让各参与方利用私有数据在本地进行训练,再通过模型聚合方式不断更新模型。相同性质的机构之间拥有相似特征指标但是样本分布不同,通常采用跨样本联邦的模式,比如多个消金机构之间可以联合进行多头风险分析。跨样本联邦也称作横向联邦学习。
跨特征联邦由于可能只有一个参与方有标签数据,由于模型需要多方数据才能训练,模型推理时也同样需要多方数据才能完成。跨特征联邦在金融行业有非常广泛的应用需求,不同性质的机构之间拥有的特征指标会差异很大,通常采用跨特征联邦的模式,比如银行与互联网机构之间进行联合智能风控、信用评估、反欺诈。跨特征联邦也成为纵向联邦学习。
复合型联邦,只有一小部分样本或特征集是各参与方的交集,其余数据无论是特征分布还是样本分布都不尽相同。这种场景下,涉及跨样本联邦和跨特征联邦的组合。这种联邦在实际应用中更为常见,比如甲城市面向当地客户的保险公司、乙城市面向当地居民的医疗机构,两方联合训练核保模型。
2. 应用视角
从联邦应用视角来看,联邦学习的应用流程可划分为如图2所示的三个阶段,包括联邦预数据探查、联邦模型训练、联邦模型推理三个阶段。
图2. 联邦学习应用流程
参与方生成联邦模型之前通常需要预先对样本、数据进行联邦数据探查,联邦数据探查是指在保障数据安全和隐私的前提下对数据进行的一些处理和统计分析,包括样本对齐、特征处理、联邦分箱、联邦特征选择等。如图3所示,列举了在联邦数据探查阶段常用的联邦特征处理和联邦特征选择方法。
图3. 常见的联邦特征处理和联邦特征选择方法
完成联邦数据探查后,即可进行联邦模型训练生成联邦模型,根据联邦学习模式不同,联邦模型训练可以分为跨特征联邦、跨样本联邦以及复合型联邦,根据具体的业务场景,可选择相应的联邦算法,如:线性回归、逻辑回归、树、神经网络等模型的训练。
联邦训练生成模型后就可以投入生产环境使用进行联邦模型推理了。跨样本联邦只需要本地特征数据和本地模型即可直接推理,不会涉及联邦参与方之间的数据交换。而跨特征联邦在训练过程用到了多方特征,推理时也会用到多方特征指标,但不会涉及到其他参与方隐私数据的交换。联邦推理方法是与联邦模型训练时选择的算法强相关的,一般都是配套设计实现的,通常包括回归模型推理、树模型推理、神经网络模型推理等。
三、 联邦三部曲
联邦三部曲由联邦协议、联邦算法和联邦平台组成,三者之间内部独立,且又相互关联。联邦协议是参与方之间进行安全数据交换的基础,联邦算法是基于联邦协议实现的多方联合训练和推理的计算过程,联邦平台是在封装了联邦算法之外又提供了更全面的产品化功能。下面将分别进行详细介绍。
(一) 联邦协议
为了在联邦学习的各个参与方之间,实现算法的训练和推理,必须在底层建立一套协议,使得各参与方之间能够协调一致的运行算法程序,期间进行必要的同步指令控制、执行双方一致的加解密方法、进行有效的信息交换等。就像HTTP协议承载了我们今天看到的极度丰富的互联网应用一样,联邦协议也是建立联邦学习应用所必不可少的基础协议,有了这个协议才能使得联邦学习应用得以标准化,使得联邦学习过程中的数据安全、模型性能得到有效的保障。
由于联邦学习技术栈的丰富性,联邦协议涵盖了从数据通信协议、加密算法等多个层面的技术。其中处在最底层的数据通信协议,需要在任意的两个参与方之间能够建立有效的通信,并且双方的通信信道需要支持安全加密和身份的验证,常见的数据通信协议大多基于grpc,如EggRoll,IonicBond。而加密算法则是对于涉及敏感信息的数据,进行加密处理,以在保证数据安全的前提下,进行信息交换。
(二) 联邦算法
有了底层的联邦协议的支持,就可以构建对应联邦算法来解决实际的问题了,从机器学习算法演化出的联邦学习算法,即以多个参与方组成联邦的方式,从多个参与方各自拥有的数据源,训练机器学习的模型,并使用模型进行应用的特定的机器学习算法。这些算法通常都是比较经典的机器学习模型,例如逻辑回归,决策树等模型的联邦化版本。为了保证在整个建模过程中数据隐私的安全,通常只将模型训练使用的梯度信息进行通信传递,并在各个参与方本地进行模型的更新。所以,这些模型的设计上,会引入特别的设计,尤其以跨特征的联邦学习为代表(一条数据的特征分别出自不同的参与方),并设计独特的数据加密、交换顺序,以完成模型的训练。当然,最终用户得到的模型的性能效果与传统的本地模型是十分接近的,但是由于可以引入更加丰富的特征数据,使得联邦学习具备了更大的提升潜力。
1. 跨样本联邦算法架构
跨样本联邦算法的典型架构如图4所示。在该系统中,具有相同数据结构的N个参与者通过参数或云服务器(参与方N+1)协同学习机器学习模型。一个典型的假设是参与者是诚实的,而服务器是诚实但好奇的,因此不允许任何参与者向服务器泄漏信息。这种系统的训练过程通常包括以下四个步骤:
第一步:参与者在本地计算训练梯度,使用加密、差异隐私或秘密共享技术掩饰所选梯度;
第二步:参与方将掩码后的结果发送到服务器;
第三步:服务器执行安全聚合,不了解任何参与者的信息;
第四步:服务器将汇总后的结果发送给参与者;
第五步:参与者用解密的梯度更新他们各自的模型。
通过上述步骤进行迭代,直到损失函数收敛,从而完成整个训练过程。该结构独立于特定的机器学习算法(逻辑回归、深度神经网络等),所有参与者将共享最终的模型参数。
图4. 跨样本联邦算法架构图
在跨样本场景下,各参与方拥有完整联邦模型以及完整特征向量,所以可以在本地完成联邦推理。
2. 跨特征联邦算法架构
假设A公司和B公司想要联合训练一个机器学习模型,并且他们的业务系统都有自己的数据。此外,B公司还拥有模型需要推理的标签数据。由于数据隐私和安全原因,A和B不能直接交换数据,是一个典型的跨特征联邦的场景,其架构图如图5所示。
跨特征联邦算法的通常包括样本对齐、模型训练和模型推理三个部分,分别对应于联邦应用的三个阶段。
第一部分,样本对齐:由于两家公司的用户组不同,系统使用基于加密的用户ID对齐技术,来确认双方的共同用户,而A和B不会暴露各自的数据。在实体对齐过程中,系统不会公开彼此不重叠的用户。
第二部分,模型训练:在确定了公共实体之后,我们可以使用这些公共实体的数据来训练机器学习模型。模型训练核心在于A、B使用加密、差异隐私或秘密共享技术不断交互中间计算结果,如模型梯度、树的分裂点信息、中间矩阵等,直至达到损失函数收敛或固定迭代次数。
图5. 跨特征联邦算法的架构图
第三部分,模型推理。跨特征线性回归、跨特征逻辑回归和跨特征神经网络的联邦推理方式实际上是共通的,都是各参与方进行一轮本地计算后,将本地计算结果通过安全聚合得到和,然后各参与方基于该和进行推理,我们将其称为跨特征安全聚合推理。
(三) 联邦平台
为了有效的组织多种多样的联邦算法,并建立满足产业界需求的落地应用,联邦平台应运而生。就像今天各大公司纷纷建立的机器学习平台以解决各自的业务问题一样,联邦学习也需要采用这样的平台来满足业务需求。不同于一般的机器学习平台,联邦平台需要在多个参与方同时进行部署和应用。例如一个联邦模型的训练想要启动,需要当前用户在联邦平台上发起联邦建模请求,并有其他的参与方用户接受对应的请求,双方达成协议后,才能用协商好的算法,开始模型的训练。对应的,在模型的应用阶段,也需要通过联邦平台取得各个联邦参与方的子模型返回(跨特征的模型),进而合并成最终的结果。不难看出,联邦平台技术是需要在机器学习平台技术的基础上,附以安全加密、联邦算法、分布式系统调度等技术的一个综合性系统,具备相当的技术挑战。
由于解决问题的初衷不同,市场上的联邦学习产品也各有特色,互有差异。Google提出开源数据联邦学习应用框架Tensorflow Federated,主要支持移动设备上的联邦学习;NVIDIA发布Clara Federated Learning主要应用医疗领域。国内各公司也在进行联邦学习的布局,如百度的PaddleFL平台,平安科技的蜂巢等。此外,华为也基于自己的终端设备开展联邦学习探索,主要用于识别业务流量后的带宽控制、阻塞控制和业务保障。微众近期开源了FedVision视觉联邦框架,解决计算机视觉任务中的跨样本联邦的问题。字节跳动也于近期开源Fedlearner联邦学习框架,主要用于广告投放。
大多数联邦学习产品主要还是以提供框架为主,部分提供了安全加密的算法或者方式,更多地以鼓励参与方利用框架自主解决问题,在解决方案上没有给出明确的标准。此外,还有少部分产品如同盾科技发布的智邦iBond平台,不仅提供了联邦学习框架和安全加密算法,还针对某垂直领域定制化设计解决方案,降低了使用门槛,可以让缺少算法资源储备的行业或公司,快速接入联邦学习场景。面对不同的场景下的数据差异性和标签专属性问题,有针对性地设计了场景定制的整套联邦学习技术方案,适用于各种需要打通数据孤岛实现智能化应用的行业。
四、 联邦学习技术展望
(一) 联邦学习技术发展展望
相比成熟的理论体系和丰富的技术实现框架,联邦学习在生产实际的应用处于初始的发展状态。但随着相关产品和产业标准不断发展,联邦学习在保护用户数据隐私、满足合法合规的基础上进行机器学习,提供强有力的技术支持。
目前国内一些大型互联网公司和金融科技公司,如阿里、腾讯、百度和同盾科技等多家单位也在进行联邦学习技术研究和产品实现,不同公司的产品定位和专注点各有侧重。随着企业投资力度的加大,校企之间的合作也是百花齐放,围绕数据经济与人工智能核心、共同创造AI无限想象的商业化未来生态。
(二) 应用场景展望
以金融行业为例,金融行业安全关乎国家经济运行稳定与人民财产安全,诸如银行、保险等业务面临着极为严格的数据安全监管要求。金融行业在应用联邦学习技术时需要与其它组织机构、系统平台等进行数据交换,以联合各方完成建模所需的数据探查处理、模型训练与推理等流程。
此外,金融数字化转型的趋势愈加明显,有必要加强金融机构、企业之间,金融机构与政府之间的数据流转与融合应用。以银行为例,加强银企、银政之家数据要素有序流转与融合,有利于发挥数据要素倍增作用。金融行业在大力发展数字化转型的同时,也要注重安全能力的建设,在数据安全共享与利用的基础上,持续挖掘数据经济价值。
通过采用联邦学习技术能够为智能风控、反欺诈、反欺诈、营销等多类型金融业务服务,提供了多维度的金融商业化场景方案。
1. 智能风控
用户信用评估是一种基于机器学习和深度学习的智能风控模型,以分数的形式展现个人的信用风险等级。随着隐私和安全政策的逐渐收紧,因使用权限不同,导致不同部门或者不同企业之间的数据不能共享使用,最后这些金融数据会以孤岛形式存在。数据模型的准确性取决于数据量、数据种类和数据质量,使用联邦学习共同使用各方数据,提升模型的精度。比如传统信用分的场景,需要信任某一方或第三方将原始数据聚合后,才完成风控模型的建模和推理分析。在联邦学习的技术支持下,可将原始数据的基于模型的梯度进行密文传输,共同构建联邦模型。
联邦学习作为一种能够保障数据隐私、数据合法合规利用前提下,充分利用多方数据的建模方法,在智能金融领域拥有巨大的应用前景。
2. 智能营销
随着移动互联网技术的迅猛发展,当前金融业面临着巨大的科技变革冲击,主要体现在线下服务网点增长乏力,而线上移动互联网用户迅速增长,以往依赖业务员线下地推、电话推销、上门服务的传统营销方式,存在营销针对性不强,市场需求把握不够精准,营销成本高等问题,如今如何通过人工智能、大数据、云计算等技术在“获客-促活-留存-转化-挽留”等核心运营环节实现多维度精准获客、数据化画像分析已成决胜分水岭,行业将面临重新洗牌与变革。为拥抱新时代的到来,各家银行纷纷采取措施,试图借助大数据、AI等技术搭建智能营销平台,投身智能营销建设,期望以金融科技为抓手,赋能业务实现新的增长点。
通常智能营销由客户画像、客户行为预测和营销自动化组成,其各环节都会涉及到用户不同敏感等级的数据。以客户画像为例,全行业客户画像需要覆盖客户基础信息、兴趣爱好、社会属性、金融特征、客户价值和互联网特征等多种丰富的客户属性。然而,受制于日趋严格的数据监管,传统的将各行业数据汇集在一起、中心化的方式不再可行。通过联邦学习,能够达到各行业数据可用不可见,知识共创可共享的目的。
例如,可以充分发挥企业集团内部丰富的线上线下渠道资源,通过打通集团内、集团外、线上、线下渠道(如银保协同),提升渠道覆盖度,确保流量形成闭环,配合机器学习、深度学习的联邦数据探查、联邦训练和联邦推理,找到更多潜在相似人群,构建多维、准确、及时的全息用户画像。基于联邦学习,还可以构建客户的全景视图,点对点构建客户的全方向画像,完善客户分析体系,结合高效活动效果追踪体系拓展社交渠道,以及发展直营对接多个三方权益平台,综合“客户画像+社交裂变+权益吸引”三方面聚能,最终赋能客户经理直达目标客户,并辐射扩展到社交渠道,大大提升营销的成功率。
3. 智能化运营
智能KYC和开放银行为典型的银行智能化运营场景。随着互联网银行(也称虚拟银行)的不断发展,智能KYC成为智能化运营中客户审核环节的关键一环。随着信息技术、人工智能、大数据技术的迅速发展,生物识别技术实现了跨越式发展,促进了人脸识别、声纹识别、指纹识别、指静脉识别等创新支付技术的行业应用。如何在保证客户隐私的同时,能综合利用客户的生物特征信息,如:人脸、声纹、语音,和客户的有效证件信息全方位认识客户,是一个有挑战性的难题。基于联邦学习的深度学习、强化学习是一个有效的解决方案。
未来开放银行的发展和可持续深化给用户带来了极大的便利,也给银行和金融科技带来新的挑战。在开放银行的场景下,联邦学习将成为刚需,各个机构间各种复杂业务场景下,需要安全交换各种要素,联邦学习能够在保障数据安全和隐私的前提下进行开放银行应用场景的全面覆盖。
4. 反欺诈
《2019反欺诈行业调研白皮书》显示,截至2018年由于个人信息泄漏造成的总体经济损失可能已超900亿元,目前黑产市场规模预估已逾千亿级别。随着互联网金融的兴起,欺诈行为逐渐渗透到各个环节。欺诈分析需要海量多维化数据,随着数据需求量的增大以及随之带来的数据获取难度的增加,本地训练模型十分昂贵且困难,各机构对数据的隐私性和保密性要求会更加严格。对于反欺诈业务来说,整合某一个用户的所有信息将愈发困难,这将会对业务造成深远的影响。因此,采用联邦的方式,可以得到适应更多区域场景的联邦反欺诈模型。
5. 反洗钱
随着国际反洗钱监管环境日趋严苛,国际联邦反洗钱的各参与方希望在不泄露各自样本的前提下,充分利用跨国多家合作方的反洗钱样本,在可疑活动监测、客户尽职调查与监察名单筛选等模型中利用联邦学习框架,建立较单方样本训练效果更好、更稳健的联邦反洗钱模型,以降低罚款和声誉受损等业务风险。
参考文献
[1]Paillier P. Public-key cryptosystems based on composite degree residuosity classes[C]. International conference on the theory and applications of cryptographic techniques. Springer, Berlin, Heidelberg, 1999: 223-238.
[2]Gillmor D. Negotiated Finite Field Diffie-Hellman Ephemeral Parameters for Transport Layer Security (TLS)[J]. IETF RFC 7919, 2016.
[3]NIST Special Publication 800-90A. Recommendation for Random Number Generation Using Deterministic Random Bit Generators [OL].
https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-90a.pdf.
Last accessed on 10/21/2020.
[4]NIST Special Publication 800-38G. Recommendation for Block Cipher Modes of Operation: Methods for Format-Preserving Encryption[OL].
https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-38G.pdf.
Last accessed on 10/21/2020.
[5]Chou T, Orlandi C. The simplest protocol for oblivious transfer[C]. International Conference on Cryptology and Information Security in Latin America. Springer, Cham, 2015: 40-58.
作者介绍
强锋博士,工商银行软件开发中心资深经理,主要负责工商银行大数据与人工智能实验室的数据科学场景建设和相关研究工作,qiangfeng@sdc.icbc.com.cn。
*声明:本文仅代表作者观点,不代表隐私计算联盟的观点。
往期推荐01
隐私计算联盟、TC601召开《隐私计算性能测试方法》第一次讨论会