金科委研究课题 | 金控集团数据共享研究(下)
*文章来源于深圳资本市场金融科技委员会研究课题
三、基于隐私计算的数据共享技术
在各国持续推出数据安全相关法律下,数据安全流通和隐私保护变得愈发重要,而隐私计算(Privacy Preserving Computing)提供了一种隐私保护下数据安全共享的技术实现路径。隐私计算是一类由两个或多个参与方联合计算的技术和系统,包含了数据科学、密码学、人工智能等众多技术体系,参与方在不泄露各自数据的前提下通过协作对数据进行联合计算分析和联合机器学习。隐私计算主要分为密码学和可信硬件两大领域,保护数据隐私的解决方案主要包括联邦学习、多方安全计算、可信执行环境等一系列技术。这些技术可以做到在保 证数据隐私的前提下,使得数据的使用权和受益权相对分离,实现数据价值的流动与共享,进而实现“可用不可见”的数据价值联合挖掘。
(一)联邦学习
联邦学习(Federated Learning)是解决数据安全与人工智能两难问题的一个重要技术。联邦学习本质是分布式的机器学习,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模,让参与方在不交换原始数据的基础上联合建模,提升模型效果,实现AI协作。在整个模型训练过程中,联邦学习不对外传输原始数据,可以做到在建模效果几乎无损的情况下保障数据安全。2012年即有学者发表了相关研究成果,直到2016年,为了在多个厂商的安卓手机终端设备上实现协同机器学习模型,谷歌研究院提出了联邦学习的概念后,联邦学习才逐步受到更广泛的关注。
联邦学习常用的框架有两种,一种是客户端-服务器架构[1],另一种是对等网络架构[2]。目前的研究更多的是基于客户端-服务器架构。此架构下,联邦学习的训练方式是让各个数据持有方根据一定条件和规则在本地训练模型,然后将加密的梯度等参数汇总到中间服务器进行计算,再下发回各个数据方更新本地模型,直至全局模型稳定收敛。基于客户端-服务器架构的联邦学习和分布式机器学习都是用来处理分布式数据的,但在场景应用、数据独立同分布等属性和系统架构等方面,其与分布式机器学习存在差异。根据不同参与方之间的数据重叠程度,联邦学习分为横向联邦学习、纵向联邦学习和迁移联邦学习,如图1所示。当参与方的用户重叠部分较少,但是数据集的用户特征重叠部分较多时,适合应用横向联邦学习。比如某个金融系统在北京和上海的分支为参与方,业务类似,它们的用户数据特征比较接近,但是两个分支机构的用户重叠比较少,当两个分支机构需要做联邦模型对用户进行机器学习分类建模的时候,就可应用横向联邦学习。当参与方的用户重叠部分较多,但是数据集的用户特征重叠部分较少时,适合应用纵向联邦学习。比如参与建模的两个机构,一个机构有用户的资产属性数据,另一个机构有用户的行为属性数据,两个机构有很多重叠用户,两个机构想通过加密聚合用户的不同特征来联合训练一个效果更好的联邦学习模型,就可应用纵向联邦学习。当参与方的用户重叠部分较少,数据集的用户特征重叠部分也较少,且有的数据还存在标签缺失时,这种场景下的联邦学习为迁移联邦学习。目前大部分的研究是基于横向联邦学习和纵向联邦学习的,迁移联邦学习的研究暂时还很少。联邦机器学习算法种类丰富,有传统的以逻辑回归代表的联邦线性算法,有包括随机森林、梯度提升决策树的联邦树模型,还有更为复杂的基于神经网络、LSTM 等深度学习联邦学习算法。
图1:联邦学习分类示意图
总的来说,联邦学习更关注隐私保护和通信安全,模型训练涉及模型的本地迭代更新和模型参数传输的两大过程,模型计算和通信传输成为影响联邦学习效率的两大重要因素。从计算机系统的角度看,设备的算力水平在不断提高,高性能专业芯片广泛应用,通信传输效率变成限制其训练速度的主要因素。一方面受网络带宽的影响,另一方面联邦学习的客户端分布具有跨地域的特点,使得各客户端之间的通信延迟较高,设备间通信失败的风险比较大。此外,参与方之间硬件配置、网络带宽、存储能力等不同导致的系统异构,以及各方数据的生成和存储方式、特征、体量等不同带来的统计异构,都对联邦学习算法提出了更高的要求。最新的研究进展除了在技术上的提升,还包括结合边缘计算在物联网领域的应用[3],以解决传统集中式机器学习数据难以聚合、隐私难以保护、云中心的单点故障等问题。在实现联邦建模的过程中,需要考虑优化并使用恰当的联邦学习算法,从而针对性地解决实际问题。
目前,联邦学习作为实现数据共享,促进多源数据碰撞融合的新兴技术,已经开始了在行业领域的探索,在不同行业有多样化的应用场景和落地形态。
在医疗健康领域,机器学习技术开始越来越多地应用在智慧医疗领域,用于提升医疗诊治的效率和准确率。但由于医疗机构的数据对于隐私和安全的敏感性,医疗数据中心很难收集到足够数量的、特征丰富的、可以全面描述患者症状的数据。联邦学习是解决这类问题的有效方法,在保护数据源的情况下,为建模有效扩充包括医疗报告、病例特征、生理指标、基因序列等数据信息。在政务行业,随着人工智能、物联网和5G技术的发展,智慧城市的概念已经跃然纸上。联邦学习的异构数据处理能力能够帮助整合利用城市的不同信息部门数据,助力一网通管、联合安防、政企互联等一体化政务发展方向,同时基于智慧城市构建的机器学习模型为企业提供个性化服务带来了更多的机遇。
图2:联邦学习在银行反欺诈的应用
在金融领域,为了维持金融行业稳定和风险控制,金融企业都希望利用人工智能技术为客户提供有效且安全的金融服务。在实际建模中,特征缺失、数据量不足等问题是模型效果差的主要原因。出于隐私安全的考虑,将三方数据直接聚合并不现实,而联邦学习为构建跨企业、跨数据平台以及跨领域的大数据和人工智能系统提供了良好的技术支持。各家金融机构,特别是银行、消费金融及保险业联合科技公司,积极开展联邦学习的理论和实践探索,在智能营销、反欺诈、信用卡风控、产品推荐等多个业务场景中得到了具体应用,图2为联邦建模在银行反欺诈场景的应用详情,银行引入外部数据源做特征补充来构建较为全面的用户画像,建立联合模型达到更好的效果。不少公司结合特定场景逻辑,不断开发联邦学习方案, 旨在保护数据隐私安全的前提下实现联合建模,提升行业竞争力。表1为近几年国内外金融业联邦学习应用试点汇总,从业务属性角度看,银行业和保险业处于试点阶段,而证券业处于探索初期。
表1:国内外金融业联邦学习应用试点汇总
(二)多方安全计算
多方安全计算(Secure Multi-Party Computation)是解决多源数据隐私保护问题的重要技术。传统的安全计算是指能够对数据进行计算同时还能保护数据隐私的计算方式,常用的加密算法有差分隐私(Differential Privacy)、同态加密(Homomorphic Encryption)等。多方安全计算旨在让多个互不信任主体正确地协同计算一个约定函数,并确保每个主体对函数的输入是保密的。即在一个分布式的网络中,每个参与者都各自持有输入数据,希望共同完成对某个函数的计算,但要求每个参与者除计算结果外均不能得到其他参与方的任何输入信息,也就是参与者各自完成运算的一部分,最后的计算结果由部分参与者掌握或公开共享。多方安全计算的实现包含多个关键的底层密码学协议或框架,主要包括不经意传输(Oblivious Transfer)、混淆电路(Garbled Circuit)、秘密分享(Secret Sharing)、零知识证明(Zero Knowledge Proof)等。相比较而言,基于秘密分享技术的多方联合计算通过把秘密以适当的方式进行分割,并把秘密在多个参与者中“分享”,单个参与者无法恢复秘密信息,保证安全计算的同时,支持更多的计算算子。图3展示了一般基于多方安全计算的数据产品技术架构[4],当多方安全计算任务开启时,任务发起方根据所需类型选择数据进行协同计算,数据提供方从本地数据库中查询数据,在多方安全计算节点进行计算,整个计算任务过程中,数据始终存在于本地数据库中,确保不存在数据泄露问题,且能根据数据参与方的需求进行数据结果共享。多方安全计算能够实现在无第三方的条件下,采用协议标准的解决办法,具有输入隐私性、计算正确性、去中心化等特点。
图3:基于多方安全计算的数据产品技术架构
多方安全计算技术可以获取数据使用价值,但不泄露原始数据内容,保护隐私。1982年,姚期智教授借“百万富翁问题”率先提出了多方安全计算理论,它主要研究的问题是如何在无可信第三方的情况下设计一个函数,可以让参与方在不透露任何信息的前提下安全地得到最终输出结果。但受限于当时的算力水平,多方安全计算仅有理论上的可能性。多方安全计算早期用于电子选举、门限签名、电子竞拍等场景,随着密码学、安全协议、计算机系统、分布式计算、算法、数据库、编译和芯片等各方面的快速发展,2014年以来密文计算效率逐步得到提升,从而使得多方安全计算技术可以在实践当中真正被应用。现已拓展至面向分布式场景的协同计算,并且在政务、医疗、金融等领域具有广阔的应用前景。2019年8月,谷歌开源了多方安全计算工具Private Join and Compute,以帮助数据合作方协同处理机密数据集;2019年10月,Facebook将基于PyTorch的安全机器学习工具CrypTen开源,该框架支持将深度学习模型直接转换为支持安全多方计算的变种,确保数据持有者和模型开发者的数据隐私安全。2020年,微软研究院K.Nishant等人提出了一个基于TensorFlow的安全多方计算框架CrpTFlow。我国相关机构和组织也在积极推动多方安全计算核心技术研发、商业应用落地以及标准规范制定,例如,蚂蚁金服推出了蚂蚁链摩斯多方安全计算平台;华控清交基于多方安全计算技术实现了高性能通用的安全计算框架PrivPy平台;矩阵元推出了隐私机器学习开源框架Rosetta;人民银行从2019年开始启动了《多方安全计算金融应用技术规范》标准制定工作,工信部也制定了多方安全计算规范;2021年7月人民银行旗下中国支付清算协会发布了《多方安全计算金融应用评估规范》,作为一项团体标准,规定了多方安全计算金融应用的评估要求,适用于多方安全计算的金融应用机构、技术服务和解决方案提供商。各地大数据中心也都在积极探索利用多方安全计算技术,实现既能通过数据开放保证各方利益,又能保障数据开放中的数据安全与隐私。在法律合规加强数据隐私保护和技术具备可实用能力的双重因素下,多方安全计算技术从多年的学术研究中走向了具有高商业价值的实际应用。
多方安全计算虽然是解决数据安全共享问题的理想技术方案,然而在落地实际应用中还存在一些难点。其一是性能效率瓶颈,以多方安全计算使用的同态加密算法为例,在密文计算与密文传输两个环节上都会带来数量级增加的性能消耗。其二是算法可解释性较差,多方安全计算涉及的隐私保护技术和密码学算法非常多,而密码学本身的特性导致原理难以简单解释,同时专业术语繁多,对于安全性的设计难以通俗讲解,接受度有待提升。未来,技术层面的问题还需要众多研究学者不断探索解决。
(三)隐私查询
隐私查询,也称隐私信息检索(Private Information Retrieval),由Chor[5]等在 1995年首次提出的解决保护用户查询隐私的方案,是指查询方隐藏被查询对象关键词或全部信息,数据服务方只提供匹配的查询结果却无法获知具体对应哪个查询对象,查询方也无法获取其他信息。隐私查询协议基于不对称加密、不经意传输等密码学技术,数据服务方保持数据资源控制权,数据请求方不使用明文查询,查询入参增加随机密钥比明文哈希后撞库查询安全性大大提高,确保仅仅得到匹配的查询结果却不留查询痕迹,杜绝数据缓存、数据泄漏的可能性。其主要利用的不经意传输技术是安全多方计算细化出的一个应用方向,最早在1981年由Michael O.Rabin 提出[6],1985年S.Even 等提出了标准1-out-2OT协议[7],如图4所示,1986年Brassard等人将1-out-2OT扩展为1-out-nOT。算法提出之际在军事、商业等领域有重要应用,该问题简单来说:服务器B拥有一个数据库,其中有n个数据d1、d2、...、dn,客户端A要查询这个数据库的某条数据di,而B却不知道i的具体值,最终通过复杂加密方式A只获得了di,其他数据均获取不到,这就是对称的隐私信息检索。现有的隐私信息检索,可主要分为两大类:信息论的隐私信息检索协议和计算安全的隐私信息检索协议。
图4:1-out-2不经意传输
隐私查询的应用场景丰富,广泛运用于局部可解码编码、匿名认证、数据库的安全查询等,尤其在搜索领域,例如:某病患想通过某医药检索系统查询其患疾病的治疗药物,如果系统需要实名登录,且该病患以疾病名为查询条件,医疗系统将会得知该病人很可能患有这样的疾病,从而病人的隐私可能会被泄露,通过隐私查询就可以避免此类泄露问题。在域名、专利申请的过程中,用户需要首先向相关数据库提交自己申请的域名或专利信息以检索查询是否已存在,但用户并不想让服务提供方知道自己申请的详细信息或名称,因为担心信息被利用,从而域名或专利被抢先注册,通过隐私查询技术也可解决检索信息泄露的问题。未来,隐私查询还可应用于位置隐私保护服务、无线传感网络、搜索偏好管理等,目前大部分的研究都是基于半诚实模型的,很多实际应用中这很难达到,因此研究恶意模型下的隐私信息检索也是未来的一个方向。
(四)隐私求交
隐私求交,全称隐私集合交集(Private Set Intersection),是一类典型的面向隐私保护的分布式集合计算技术,属于隐私计算多方安全计算领域的特定应用问题。隐私求交允许在分布式场景下各方持有隐私数据,输入其私有集合参与多方联合计算,得出集合交集数据且不泄露除交集以外的任何隐私信息,这个功能特点是与上文隐私查询完全保护查询方的查询隐私有本质的不同。随着用户数据的隐私保护需求的日益提升,隐私求交技术可以在满足依赖个人信息业务的便利性的同时最大程度保护个人隐私的需求。隐私集合求交早期思想是直接对数据进行加密,然后在密文上进行相应的比较操作。发送方将加密数据发送给接收方,接收方对密文进行计算,并将计算结果发给发送方,发送方利用私钥对其解密并得到交集数据集。这类基于公钥加密的隐私求交技术一般适用于具有较强计算能力的模型,运用公钥技术可将原集合的元素映射到不同的空间,得到基于不同公钥加密的隐私求交方案,常用的是同态加密技术,但通信带宽和时间复杂度是实际应用中一个很大的瓶颈障碍。并且这种模式下,恶意的参与方可以通过暴力撞库的方式得出数据提供方所有数据,不能有效保护参与各方的数据安全。基于混淆电路的隐私求交技术方案依赖混淆电路可将任意函数转化为布尔电路再进行通用安全计算的属性,专用的电路隐私求交协议可在预处理阶段通过Hash技术降低比较次数减少电路的比较次数,通过隐私成员测试协议降低电路等值比较的深度,使得电路隐私求交越来越高效。然而,此类协议需要额外的密钥计算过程和通信,如参与方需要密钥协商等。基于不经意传输技术构造隐私求交的技术框架一般通过随机值集合元素产生隐私保护效果,通过不经意传输扩展技术解决参与方在输入数据集合较大时,需要执行大量的不经意传输协议的问题,有效提升算法安全性和计算效率,基于不经意传输的隐私求交协议一般具有较低通信量和计算量。作为隐私求交协议核心,常见的隐私数据比较技术或工具包括不经意伪随机函数[8]、不经意多项式评估[9]、布隆过滤器[10]等,技术的提升帮助隐私求交协议从原来的只支持两个参与方场景拓展至大于两方的多方隐私求交。
在隐私保护的场景中,隐私求交具有重要理论和实践意义,已被广泛应用于隐私计算领域:
1.实名认证。实名认证是很多领域的必要需求,由于其直接涉及用户隐私,数据核验流程的隐私保护能力至关重要。实名认证的数据来源多,如身份证二要素信息(身份证号、姓名)、手机三要素信息(姓名、身份证号、手机号码)、银行三要素信息(姓名、身份证号、银行卡号),数据大多是相互孤立的,这就给跨体系的实名认证信息核验带来了巨大的挑战。例如,某运营商想要验证客户开卡登记的身份证是否伪造,则需要从公安部门获取身份二要素,若直接提供客户的个人信息去核验,则存在隐私泄露风险。使用隐私查询技术可以有效解决这类问题,查询方至多能在被查询方获取被查询用户的信息特征,同时避免被查询用户的信息泄露给被查询方,核验双方的隐私数据不出库,除了核验内容外不泄露任何额外的信息。
2.风险管理。风险管理是金融行业的重要需求,客户在银行办理信用卡、在证券公司开户等都需要潜在风险评估,除了查询自有的风控信息,通过隐私查询技术获取该客户是否存在于其他金融机构的失信名单、黑名单、高风险客户名单等,极大帮助公司进行风险管理。既不会造成用户的个人信息泄露,也不会给同业机构提供潜在客源。
3.数据对齐。上文介绍的联邦学习建模过程中,在数据预处理阶段需要根据一个或多个字段进行数据对齐,传统的数据对齐需要获取建模各方对齐字段所有数据,必然会导致隐私数据泄露。利用隐私求交技术可以在保证双方数据隐私的前提下实现数据对齐,保护非交集数据,是目前联邦学习中数据对齐的主流解决方案。
4.信息查找。信息查找如隐私通讯录查找,是隐私求交典型应用场景。一个真实的例子是微信根据用户手机通讯录中的手机号与微信账号库进行匹配求交,得到用户通讯录中注册了微信号的用户进而做相应好友推荐。但是这一功能目前是基于用户通讯录信息访问授权进行的,如果想要既不泄露通讯录的所有信息给微信,又能使用好友账号推荐功能,隐私求交技术可以完美解决这一问题,微信服务器将账号数据与用户通讯录手机号进行隐私求交,微信服务器只能得到已经注册账号的用户通讯录手机号从而完成好友推荐功能,而无法得到未注册账号的其他联系人信息。此外,隐私求交技术还能应用于新冠接触者追踪、在线广告实际效果计算、基因序列匹配检测等[11]。未来,隐私求交在面向实时场景的计算性能、参与方的可扩展性、恶意模型的安全性等方面仍有一定优化提升的空间。
(五)可信执行环境
可信执行环境(Trusted Execution Environment)是一种具有运算和储存功能,能提供安全性和完整性保护的独立处理环境。其核心思想是在硬件中为敏感数据单独分配一块隔离的内存,构建一个独立于操作系统而存在的可信的、隔离的机密空间,数据计算仅在该安全环境内进行,并且除了经过授权的接口外,硬件中的其他部分不能访问这块隔离的内存中的信息,通过依赖可信硬件来保障其安全。可信执行环境概念来源于2006年OMTP工作组提出的保护智能终端的双系统解决办法,即在同一智能终端下,除了传统操作系统,再提供一个隔离的安全操作系统。该技术将系统的硬件和软件资源划分为两个执行环境:可信执行环境和普通执行环境。两个环境是安全隔离的,有独立的内部数据通路和计算所需存储空间。普通执行环境的应用程序无法访问可信执行环境。即使在可信执行环境内部,多个应用的运行也是相互独立的,不能无授权而互访。可信执行环境不会对隐私区域内的算法逻辑语言有可计算性方面的限制,支持更多的算子及复杂计算,可实现联合统计、联合查询等多种计算,业务灵活性更强。可信执行环境的最本质属性是隔离,通过芯片等硬件技术并与上层软件协同对数据进行保护,且同时保留与系统运行环境之间的算力共享。目前,可信执行环境的代表性硬件产品主要有Intel的SGX、ARM的TrustZone等[4]。
可信执行环境作为基于硬件的隐私计算技术,可通过与联邦学习相结合来提升计算效率和安全性。在可信执行环境中进行联邦学习的参数聚合,通过简单的数字信封的形式实现可信执行环境与计算节点之间的交互,省略了复杂的加密计算过程,使联邦学习训练效率大幅提升。基于可信执行环境的隐私集合求交技术是近两年新提出的一个技术路线,百度在2019年发布了基于可信执行环境MesaTEE的隐私求交技术方案[12]。在该方案中,隐私求交的参与方通过远程认证来验证求交协议执行环境的可信状态,隐私求交在集中式的可信执行环境中解密后再执行计算,未来也可支持多方隐私求交,具有显著性能优势。
可信执行环境的缺点也在于其安全性很大程度上依赖于硬件实现,因此很难给出安全边界的具体定义,被攻击面较多,同时更新升级需要同步进行软硬件升级,并且不同厂商使用的可信执行环境技术各异,难以形成统一的行业标准,如何进一步制定明确的可信执行环境安全性标准也是未来的一个难题。
图5:隐私信息的全生命周期
纵观图5所示的隐私信息的全生命周期,隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构,隐私计算技术是隐私信息保护的重要理论基础。总体而言,在满足法律法规和监管要求下,利用好隐私保护计算技术既能保护企业自身利益,又促进公司内外数据合作,帮助多方进行联合分析并打造数据融合应用,推动数据价值的最大化。
四、金控集团数据共享应用场景
中信证券在深圳资本市场金融科技委员会的指导下,成立了跨部门、跨公司的联合工作组,通过论证法律合规要求和隐私计算技术,金控集团数据共享课题主要在以下场景进行探索应用。
(一)公司管理
对于证券公司,其业务覆盖领域往往不局限于单一区域。以中信证券为例,中信证券在境内外提供各类金融产品,客户服务也涉及与期货、基金、境外证券等子公司的协作。在国家“走出去、引进来”战略的引领下,中信证券不断完善各项制度,为实体企业境内外业务提供配套金融服务,致力于通过信息化能力对境内外业务进行全球一体化管理。但由于物理隔离、法规差异等客观因素,中信证券及子公司间数据难以流通。通过隐私计算技术,可在符合国内外法律法规下,推进公司国际化布局、一体化运营和精细化管理,打通数据孤岛,统一数据口径,实时有效地将真实的境内外子公司的经营、人员绩效总体情况展示给总部,建立统一管理驾驶舱,更好地防范和处置跨境金融风险。具体场景如下:
1.穿透式管理
在对境内外子公司进行考核管理时,如图6所示,需要汇总子公司数据报送给母公司,基于对数据的保护,中信证券往往无法直接获取子公司的明细数据。为避免隐私数据泄露,常用的做法是母公司确定管理涉及的内容和指标口径,由各子公司独立按照给定口径开发,并将结果反馈至总部。这种方式效率较低,口径统一困难,有数据偏差风险,灵活性差。通过隐私计算技术可以做到在保护子公司明细数据的同时,总部快速有效地获取到各类汇总数据,可以在第一时间内做出实时业务调整和战略部署,在避免数据泄露风险的同时提升了公司的管理效率。
图6:穿透式管理数据汇总示例
2.集团数据并表
在监管报送、集团同业客户管理等场景下,需要汇总金控集团下客户总资产、授信余额、风险指数等。中信证券与中信期货、华夏基金等子公司存在大量共有和非共有客户,由于需要实现隐私求并,并对客户数据来源方进行保护,可利用隐私计算技术中的加密算法和多方安全计算保护各数据提供方的客户来源,并进行联合统计计算,实现数据并表管理。
3.基于隐私保护的全球化会议预定
由于全球各子公司间数据不互通,可能会出现对同一个客户在同一段时间预约了不同会议的情况,进而导致会议冲突。
如图7所示,当某客户在中信证券会议预定系统中已经预约了会议,而境外中信里昂也想在当天该时段对同一客户邀请参会。由于数据不互通,会议冲突信息不能及时反馈给境外公司。利用隐私查询技术,在密文下对会议预定信息进行条件判断,保护查询方的查询信息的同时,查询方可获知被查询客户是否存在会议冲突,并且查询方无法获取其他方客户详细会议信息,完善全公司会议预定系统。
图7:隐私查询解决会议预定冲突问题
(二)风险控制
在满足法律合规要求前提下,通过隐私保护计算技术可以进行一体化风险度量和管理,降低公司内部金融风险的隐蔽性和复杂性。中信证券及其子公司拥有较多高价值的客户数据,基于法律和合规要求,涉及用户隐私的数据无法在内部整合,而隐私保护计算可解决数据无法共享的痛点,有利于公司间开展数据融合计算。具体场景如下:
1.合格投资者判断
中信证券有多类业务需要对投资者资产能力进行适当性判断,例如:私募基金合格投资者要求家庭金融净资产不低于300万元,信托合格投资者要求个人或家庭金融资产总计在其认购时超过100万元人民币。目前大多直接依据投资者自身提供的纸质材料信息,效率低下且存在造假风险。解决该类适当性管理问题可以借助多方安全计算技术,如图8所示,通过与子公司合作,对客户的资产进行基于隐私保护的统计计算。每个参与方都各自持有秘密输入,参与计算的各方之间无数据传输,无法推断对方数据,数据需求方只有统计结果,在保护投资者在各家金融机构的隐私数据的前提下,判断客户是否满足适当性管理要求,提升适当性管理的准确性和效率。
图8:基于多方安全计算的合格投资者判断
2.穿透式风控
风险控制一直是金融领域的重点,对风险的判断依赖很多因素。金控集团可利用隐私计算技术中纵向联邦学习在集团内进行联合建模,帮助建模方合法、高效地获取公司外部数据。如图9所示,作为参与方A的中信证券在保护各子公司客户隐私数据不泄露的情况下,使用多方提供的交集样本数据进行风控模型训练,增加数据特征维度,有利于建立更精准完善的金融市场风控模型以降低风险成本,帮助参与方更好地进行风险控制。还可对中信证券客户进行联合画像分析,在现有客户填写风险评估问卷的基础上增加辅助评估,为公司提供客户风险识别依据,实现前置识别客户的目标,在识别风险的同时提升经营效率。
图9:纵向联邦学习中数据合作示例
3.联合反洗钱
金融行业反洗钱风险监测已经历了纯人工判断、规则策略引擎、量化指标引擎等方式,并进一步向机器学习模型智能引擎方向发展。机器学习模型智能引擎需要大量的学习样本进行学习和训练,而目前各家公司自有的反洗钱样本整体较少,模型效果差或无法支持有效训练。通过隐私计算中的横向联邦学习,如图10所示,建模方取出参与方用户特征相同而用户不完全相同的样本数据进行联合机器学习训练,可以有效扩充反洗钱模型训练数据集,保护各家公司数据的同时提升反洗钱风险监测的准确性。
图10:横向联邦学习中数据合作示例
4.黑名单共享
一家公司的黑名单数量有限,很难有效扩充。利用隐私查询技术,中信证券可联合子公司“共享”各自黑名单,在各方黑名单数据不泄露不出库,且同时保护查询方查询数据的情况下,查询方可获知被查询客户是否存在于被查询黑名单库中,达到扩充各自黑名单系统的目的,提升金控集团对客户的风险判断能力。
数字金融将是金融业服务实体经济和支持国家战略的重要使命,中信证券将在深圳资本市场金融科技委员会的指导下,在开放包容的环境中先行先试,摸着石头过河,积极探索近年逐渐升温的隐私计算系列技术在金控集团数据共享中的广泛应用,在数字金融行业建立先发优势,为证券期货行业以及金控公司的数据共享应用提供参考。
总结
本课题以中信证券及其子公司间的数据穿透和协同为目标,研究数据分级分类和隐私计算在金控集团内的应用实践,为金控集团以及证券期货业数据安全共享应用提供理论研究和实践论证,冀望在数据协作的过程中履行数据安全和合规义务,实现金控集团内的数据融合,推动集团主体和子公司间的数据价值最大化。课题主要研究方向为以下三个方面:
一是集团内数据共享合规性研究。目前相关法律法规对于数据安全流通规定并不完善,并未清晰规定哪些数据可流通,哪些数据不能流通,导致集团及子公司之间的数据流通往往采用一刀切的方式管理,从而形成较高的数据流通壁垒。课题组广泛调研数据安全相关各类法律法规,从境内外数据安全相关法律以及数据分级分类和数据共享等方面,对金控集团数据共享进行合规性研究论证。
二是隐私计算及联邦分析等技术论证。课题组系统论证了隐私计算涉及的各类技术,对算法原理、实现路径、数据安全保护能力等方面进行广泛调研和测试。目前已初步拟定在项目中应用联邦建模、联合统计、隐私查询、隐私求交等技术。同时,根据集团穿透式考核管理等诉求,课题组和外部技术团队联合研发了联邦分析技术,初步实现了数据库查询的可用不可见能力。
三是集团内数据共享场景探索,项目主要探索了以下两方面的应用。一是一体化公司管理:通过隐私计算技术,在符合境内外法规要求下,推进公司国际化和一体化运营,更好地防范和处置跨境金融风险。二是穿透式风险控制:通过隐私计算技术解决数据无法共享的痛点,在保护用户隐私前提下进行穿透式风险度量和管理,建立更为精准的风控模型。
下阶段计划
数据安全共享涉及的不仅仅是技术问题,更重要的是合规和管理问题,共享的边界和方式也和场景息息相关,每一个具体应用都需要进行技术和合规的场景化论证。下阶段,本课题将侧重于研究成果的落地建设和应用,并在应用过程中进行相关法规和技术的实践论证。本课题将进一步通过隐私保护计算技术、数据分级分类等方式,结合中信证券及其子公司间的实际业务需求,实现中信证券与中信期货、华夏基金以及中信里昂(香港)的数据安全共享应用。具体而言,一是探索落地基于多方安全计算和联邦学习的金控集团穿透式风控和管理,二是以中信证券和中信里昂(香港)为例,从技术和合规层面探索证券公司跨境数据安全共享应用,其余场景将持续探索和开发。
参考文献
[1]KONEČNÝ J,MCMAHAN H B,RAMAGE D, et al.Federated optimization:distributed machine learning for on-device intelligence[J]. arXiv preprint,2016,arXiv:1610.02527.
[2]FENG S W,YU H.Multi-participant multi-class vertical federated learning[J].arXiv preprint,2020,arXiv:2001.11154.
[3]WANG S,TUOR T,SALONIDIS T,et al. Adaptive federated learning in resource constrained edge computing systems[J]. IEEEJournal on Selected Areas in Communications,2019,37(6):1205-1221.
[4]闫树,吕艾临.隐私计算发展综述[J].信息通信技术与政策,2021,47(06):1-11.
[5]Chor,B.,O. Goldreich,E.Kushilevitz,and M.Sudan."Private Information Retrieval."Proceedings of IEEE 36th Annual Foundations of Computer Science (1995):41-50.Web.
[6]Rabin M O.How to Exchange Secrets by Oblivious Transfer[J].Technical Memo TR-81, 1981.
[7]Even S,Goldreich O,Lempel A.A randomized protocol for signing contracts[J].
Communications of the ACM,1985,28(6):637-647.
[8]Jarecki S,Liu Xiaomin.Efficient oblivious pseudorandom function with applications to adaptive OT and secure computation of set intersection[G]LNCS 5444:Proc of the 6th Theory of Cryptography Conf.Berlin:Springer, 2009:577-594.
[9]Freedman M,Nissim K,Pinkas B.Efficient private matching and set intersection[C/OL] Proc of the 23rd Int Conf on the Theory and Applications of Cryptographic Techniques. Berlin:Springer,2004.
[10]Dong C,Chen L,Wen Z.When private set intersection meets big data: an efficient and scalable protocol[C].In Proceedings of the 2013 ACM SIGSAC Conference on Computer &Communications Security,2013(9):789-800.
[11]魏立斐,刘纪海,张蕾,王勤,贺崇德.面向隐私保护的集合交集计算综述[J/OL].计算机研究与发展:1-18.
[12]崔泓睿,刘天怡,郁昱.多方安全计算热点:隐私保护集合求交技术(PSI)分析研究报告[R],2019.
课题组信息
牵头单位:中信证券
课题研究专家组成员:
中信证券 岳丰
中信证券 刘殿兴
中信证券 徐崚峰
中信证券 郑植
艾芒科技 张帆
财富趋势 郭黎坤
金证股份 饶帆
金证股份 胡纯超
金证股份 杜旭
金证股份 王文娟
注:排名不分先后。