查看原文
其他

联邦学习能否解决金融数据整合难题?

袁立志 北京市竞天公诚律师事务所 2022-03-20

网络与数据法

专栏





2020年4月8日,微众银行联合多家企业和机构发布《联邦学习白皮书V 2.0》(以下简称“白皮书”),推出了名为“联邦学习”的机器学习模式。白皮书介绍了联邦学习的背景、定义、分类、框架及应用实例。联邦学习旨在使人工智能系统高效运用多方数据的同时,满足数据隐私、安全和监管要求。这与金融领域的数据整合有很高的契合度,因此,金融业是联邦学习的重要应用领域。我们结合金融集团数据整合的项目经验,来探讨联邦学习对于解决当前金融数据整合难题的意义。



联邦学习是什么?
根据白皮书,联邦学习是一种机器学习的模式,其核心特征在于,参与各方在不转移自身数据的前提下,进行数据联合训练,从而实现联合建模的目标。

白皮书将联邦学习分为三类。第一类是横向联邦学习,适用于用户特征重叠较大,用户重叠较小的场景;在金融领域可应用在各个银行联合进行反洗钱建模,解决该领域样本数量少,模型覆盖范围小,仍需大量人工审核的问题。第二类是纵向联邦学习,适用于用户特征重叠较小,用户重叠较大的场景;在金融领域可应用在联合信贷风控建模和联合权益定价建模,两者都是通过用户画像建模进行预测,解决金融机构数据单一的问题。第三类是联邦迁移学习,适用于用户和用户特征重叠都很小的场景,目前联邦迁移学习在金融领域的应用较少。

从技术上来说,横向联邦学习的实现方式是,用户的终端设备使用本地数据训练模型,并将模型的梯度和损失加密后汇总到中心服务器,中心服务器更新模型后传回到终端设备,各个终端设备更新各自的模型。纵向联邦学习的实现方式则是,对各参与方加密样本对齐,随后由中心服务器向参与方发送用于加密的公钥,参与方分别计算模型并加密交互特征中间结果,用来求得各自梯度和损失,梯度和损失加密后发送给中心服务器,中心服务器解密梯度和损失后回传给各参与方,各参与方更新模型。联邦迁移学习的实现方式和纵向联邦学习几乎相同。

根据联邦学习的实现方式可以看出,联邦学习最重要的特点是数据不会离开终端设备或本地服务器。各参与方的终端设备或服务器内的数据只参与本地建模,中心服务器和其他参与方只会获得模型的中间计算结果,但无法获得个人数据。
当前金融数据整合的难题有哪些?
1

对外提供数据必须获得用户授权

出于保护隐私和个人信息的目的,数据领域的一般规则和金融领域特殊规则都将用户授权作为共享用户数据的基本前提条件之一。

关于数据领域一般规则,《中华人民共和国网络安全法》(以下简称“《网络安全法》”)第42、44条规定,未经被收集者同意,网络运营者不得向他人提供个人信息,但是,经过处理无法识别特定个人且不能复原的除外;不得非法出售或者非法向他人提供个人信息。《信息安全技术 个人信息安全规范》(GB/T35273-2020,以下简称“《个人信息安全规范》”)第9.2条也规定,个人信息控制者应在共享或转让个人信息前先告知个人信息主体,并征得其同意,除非共享或转让的是经去标识化处理的个人信息。

关于金融领域的特殊规则,《做好个人金融信息保护工作的通知》第4条和《金融消费者权益保护实施办法》第32条规定,金融机构因数据分析等业务需要向外部机构和个人提供个人金融信息的,应当获得用户授权。《证券公司客户资料管理规范》第4.4条规定,客户同意是证券公司向外部机构和个人提供客户资料的合法性依据之一。《金融控股公司监督管理试行办法(征求意见稿)》第23条规定,金融控股集团在内部共享数据需要获得客户的书面授权。

由此可见,客户授权是金融机构对外提供客户金融数据的基本条件之一。在实践中,对于存量客户,尤其是早期客户,金融机构在最初的业务场景下收集数据时,并没有考虑到未来的数据整合需求,因此没有获取用户授权,或者获得的授权不充分。对于增量客户,金融机构可以通过修改业务合同、设置隐私政策等方式获取用户授权,但是仍然面临缺乏统一便捷的触达途径、部分用户拒绝授权等困难。

2
对外提供客户金融数据的法律限制

客户金融数据不仅涉及隐私和个人信息保护,也关乎金融稳定和经济安全,所以现行法律对于金融机构对外提供客户金融数据限制较多。

对银行业金融机构而言,监管的基本框架是“原则禁止+例外允许”。2011年《中国人民银行关于银行业金融机构做好个人金融信息保护工作的通知》(以下简称“《做好个人金融信息保护工作的通知》”)第4条规定,金融机构原则上不得向本金融机构以外的其他机构和个人提供个人金融信息,仅在“业务必需且用户授权”或“法律法规、中国人民银行另有规定”的情况下方可对外提供。2016年《中国人民银行金融消费者权益保护实施办法》(以下简称“《金融消费者权益保护实施办法》”)第32条明确因监管、审计、数据分析等原因对外提供数据的合法性。因此,银行业金融机构只有在有限的情况下才能对外提供客户数据。

在证券基金领域,对外提供客户数据受到更严厉的限制。2014年《证券公司客户资料管理规范》第4.4条规定,非依法律法规规定、监管报送、客户同意或者因客户身份识别的需要,不得向任何单位和个人提供。2018年《证券基金经营机构信息技术管理办法》第34条则规定,除法律法规和中国证监会另有规定外,证券基金经营机构不得以任何方式对外提供客户信息。这一规定几乎将证券基金业机构对外提供数据之路彻底封死。

不过,2019年中国人民银行发布的《金融控股公司监督管理试行办法(征求意见稿)》在此问题上有所突破,其第22、23条规定,金融控股公司与其所控股机构之间、其所控股机构之间可以共享客户信息,应当确保依法合规、风险可控,防止客户信息被不当使用。不过,该办法至今尚未正式发布。此外,根据该办法,金融控股公司的设立需满足严格的实体条件和程序条件,能够获得牌照的企业数量有限;而且数据共享只限于金融控股集团内部,不包括与外部共享数据,故法律限制仍然很严格。

3
缺乏适当的激励机制
传统上,金融机构倾向于通过“数据孤岛”以获得或保持竞争优势,数据整合正是要打破“数据孤岛”。为了实现这一转变,除了监管者、金融集团自上而下的推动之外,还需要形成一套对数据资产和数据产品进行定价和利益补偿的机制,通过市场机制来均衡企业的贡献和收益,实现数据资产的公允定价和自由交易。
由于理论研究和立法供给的不足,当前对数据资产的定性和权属尚且没有形成一致意见,数据资产的公允定价和自由交易还有很长的路要走。在当前实践中,金融数据整合主要依赖于金融集团从战略层面的推动,市场激励不足。企业集团是介于单一企业与完全的市场竞争之间的中间形态,集团公司基于股权投资关系对各成员企业有一定的控制力和影响力,而各成员企业基于公司法和证券法确立的公司治理结构,又具有相当的独立性。如果采用完全市场化的机制进行数据整合,一是相关的配套制度并不成熟,二是数据资产占据优势的企业也不愿意加入数据整合;如果完全采用自上而下的行政化手段,则可能使数据整合流于形式,难以真正为业务端提升竞争优势。因此,缺乏适当的激励机制也是制约当前金融数据整合的重要因素。
联邦学习能够解决哪些难题?
1

联邦学习无需用户授权共享或转让数据

联邦学习可在不转移客户数据的情况下实现联合建模,也就避免了共享或转让客户数据需要获得用户授权的问题。这既适用于增量客户,也适用于存量客户,尤其是对于解决存量客户的授权难题,效果显著。

2
客户数据不转移,不违背相关法律限制
在联邦学习中,各个参与方对外提供的是模型梯度和损失,不提供数据,数据不出本地,自然不构成对外提供、共享或转移客户数据。因此,不违反法律对于对外提供客户金融数据的限制。这是由联邦学习的特征决定的,也是联邦学习的主要优势。
3
数据不出本地,降低安全风险

在传统数据建模的过程中,一般需要将多源数据集中到一个数据中心,然后再将每个用户的特征合成一条数据用来训练模型。数据在传输过程中,面临着安全风险;集中存储的数据也容易成为黑客攻击的主要目标,数据的安全保护措施如果不到位,数据容易泄露。除了外部攻击风险,数据的流转和集中也会增加来自内部的安全风险,如数据接收方及其工作人员的过量下载、违规使用等行为。

在联邦学习中,各参与方的数据不会离开终端设备或本地服务器。各参与方的终端设备或服务器内的数据只参与本地建模,中心服务器和其他参与方只会获得模型的中间计算结果,因而避免了将数据传输和集中存储、使用过程中的安全风险。

联邦学习仍然需要面对哪些难题?
1

使用数据仍需用户授权

尽管联邦学习避免了共享或转让数据授权的问题,各参与方也不直接使用其他参与方的数据,但各参与方仍需要使用本地服务器中的客户数据进行建模。根据数据领域一般规定和金融领域监管规定,这一使用行为仍然需要获得客户授权。

关于数据领域的一般规定,《网络安全法》第41条和《个人信息安全规范》第5.4.a、7.3.a条规定,使用信息的目的、方式和范围应经被收集者同意;用个人信息不得超出与收集个人信息时所声称的目的具有直接或合理关联的范围,如确需超出上述范围使用个人信息应再次征得明示同意。
关于金融领域的监管规定,《做好个人金融信息保护工作的通知》第4条、《证券基金经营机构信息技术管理办法》第34条和《互联网保险业务监管暂行办法》第18条要求银行业金融机构使用个人金融信息时应当符合收集该信息的目的;证券基金经营机构应当公开使用的规则和目的,并征得客户同意;互联网保险业务收集的客户信息,未经客户同意,不得用于所提供服务之外的目的。

一般而言,金融机构在早期收集客户数据时,告知客户的使用目的比较单一,可能并未包含联合建模、数据分析等,这就要求金融机构在参与联邦学习前,就此目的告知客户并征得其同意。

2
联邦学习适用于部分应用场景,不能全面覆盖金融数据整合需求

在金融机构的数据整合中,联邦学习常被用来做预测类的建模。金融机构可以通过联邦学习丰富用户模型,用户模型可对用户的违约概率、出险概率、购买概率等进行计算,应用场景包括联合信贷风控建模、联合权益定价建模、联合客户价值建模等。

在实践中,金融集团的数据整合是多层次、多场景和多目的的。在有些场景下,比如交叉营销、联合营销等,需要共享客户数据,比如手机号码等。由于联邦学习是一种建模框架,模型只能输出分值或是本地数据库中有的特定标签,但不能输出其他参与方数据库中的数据,因此联邦学习不能适用于这些场景。

3
建立激励机制知难行亦难

联邦学习的建模效果依赖于参与者的数据量和数据质量,有越多的参与者加入联邦学习,或是参与者的数据资源越是丰富,模型将得到更多的优化,建模的效果将越好,因此联邦学习需要鼓励更多参与者加入。在采用联邦学习的情况下,仍然需要解决激励机制的问题。

目前关于联邦学习的激励机制并没有权威的定论。微众银行在《联邦学习白皮书v1.0》中提出“效果激励”,即提供的数据多的机构会看到效果更好的模型。南洋理工大学南洋助理教授于涵博士认为激励机制应从贡献和代价两个层面考虑怎样公平地对待参与者,除了最大化数据联盟的整体效用的同时,激励机制还应同时兼顾对于参与者可同时加入多个联盟、参与者加入/离开联盟的排序重要性、参与者加入联盟的代价以及参与者等待补偿所消耗时间的考量。

联邦学习的激励机制除了在理论上仍有争议,在落地层面上也很难实现,因为要实现联邦学习的激励机制,绕不开数据价值的问题,而这个问题联邦学习自身无法解决,也没有一套公认的数据价值评估标准。

4
联邦学习服务商需遵守金融机构供应商管理规定

联邦学习服务商属于外包商或供应商。《银行业金融机构外包风险管理指引》(以下简称“《外包风险监管指引》”)第3条规定,外包是指将原来由自身负责处理的业务活动委托给服务提供商进行持续处理的行为,服务提供商包括独立第三方。《证券期货业信息安全保障管理办法》第6条规定,供应商为证券期货业提供的是软硬件产品或者技术服务。联邦学习服务商向金融机构提供软件产品或是技术服务,完成原本由金融机构自行完成的建模工作,因此联邦学习服务商属于金融机构的外包商或供应商。

金融领域的监管规定对金融机构对外包商或供应商进行风险管理做出了要求。银行业的《外包风险监管指引》要求金融机构的外包活动应在组织结构和风险管理层面符合该指引的要求,并列出了详细的要求。《做好个人金融信息保护工作的通知》第7条要求银行业金融机构充分审查、评估外包服务供应商保护个人金融信息的能力,并将其作为选择外包服务供应商的重要指标。《商业银行信息科技风险管理指引》第60条也要求商业银行应加强信息科技相关外包管理工作,确保商业银行的客户资料等敏感信息的安全。在证券基金行业,《证券期货业信息安全保障管理办法》第36条规定,核心机构和经营机构应当建立供应商管理制度,定期对供应商的资质、专业经验、产品和服务的质量进行了解和评估。在保险业,《保险公司信息系统安全管理指引(试行)》第51条要求制定完备的外包服务管理制度,将外包纳入全面风险管理体系,并不得将信息系统安全管理责任外包。金融机构即使无需将数据直接传输给外包商或供应商,也应充分审查并评估外包服务供应商保护个人金融信息的能力,以确保客户资料等敏感信息的安全。

5
联邦学习行业成熟后会产生新的合规风险

在联邦学习行业相对成熟的情况下,联邦学习服务商将获得类似于数据控制者的地位,相当于参与方的数据从参加联邦学习开始就被共享或是被共同控制。

根据上文分析,联邦学习参与方不转移数据,因此联邦学习不构成共享或转让。但是,参与方即使是在本地建模,也已经是联邦学习的一部分。《个人信息安全规范》第3.4条将个人信息控制者定义为有能力决定个人信息处理目的、方式等的组织或个人。如果参与方在本地建模时,联邦学习服务商已经有能力直接定义个人信息处理的目的或方式,则联邦学习服务商就相当于拥有了控制权,参与方一旦加入联邦学习,就是将客户数据的控制权全部或部分交给了联邦学习服务商,这就可能重新落入了数据共享或转让的范畴(不同于传统的共享或转让),从而受到法律限制和客户授权限制。这样一来,联邦学习的优势将被削弱。

当然,联邦学习服务商成为数据控制者,在目前联邦学习早期阶段不会出现,只有在将来联邦学习服务商发展得十分成熟,而参与者对联邦学习模型的优化作用很小的情况下才可能出现。

结语


联邦学习的特点在于在建模的过程中各方数据都保留在本地,参与方只共享模型中间计算结果而不共享数据。因此,联邦学习让金融领域数据整合不用受到对外提供数据的限制性规定,无需获得客户的共享授权,也可以减少数据安全风险,对解决当前金融数据整合面临的诸多难题有着重要意义。联邦学习仍需面对一些技术和法律难题,应用场景仍有限制,也需要激励机制鼓励更多企业加入。联邦学习在使用数据时仍应获得客户授权,企业也应履行对供应商进行风险管理的义务;而且在联邦学习行业成熟后,可能还会产生新的合规性挑战。




网络与数据法专栏往期文章

1. 《网络安全法》的出台改变了什么?——条文解析企业的网络安全义务和法律合规新需求

2. 您的公司有数据保护官了吗?

3. 个人信息安全——“用户同意”之浅析

4. 记账理财APP的个人信息合规挑战

5. GDPR之“用户数据可携权”评析(一)——认识“用户数据可携权”

6. GDPR之“用户数据可携权”评析(二)——“用户数据可携权”实务运用的若干问题

7. GDPR之“用户数据可携权”评析(三)——“数据可携权”视角下的数据之争

8. 网安法第37条背景下的境外证据开示与数据出境问题
9. 对“数据共享合法化”的分析与思考系列之一:以《关于欧洲企业间数据共享的研究》为起点

10. 对“数据共享合法化”的分析与思考系列之二——欧盟B2B数据共享的案例研究
11. GDPR在看着你吗——GDPR第2条和第3条(适用范围)详解

12. 欧盟《统一数据保护条例》(GDPR)适用问答

13. 中国企业的GDPR合规挑战

14. 对“数据共享合法化”的分析与思考系列之三——欧盟B2B数据共享的案例研究

15. 银行业金融机构数据治理中的个人信息保护

16. 从《网络安全等级保护条例(征求意见稿)》看等保1.0到等保2.0的重要变化

17. 《网络安全等级保护条例(征求意见稿)》与《信息安全等级保护管理办法》的条款比对

18. 放弃or坚持——出海游戏公司如何应对GDPR?

19. 标准合同条款:欧盟个人数据出境的常规路径之一

20. 欧盟《隐私与电子通信条例》(e-Privacy Regulation)草案介绍

21. 当资本运作遇到网络安全:尽调该怎么做?
22. 电信和互联网行业网络安全大检查来临,你准备好了吗?

23. 企业如何开展网络与数据安全事件应急演练?

24. 银行业金融数据出境的监管框架与脉络

25.  App个人信息保护专项治理暴雨将至,你的屋顶会漏吗?

26. 实施已满三月,区块链新规“回头看”

27. 网约车与电商法的适用五题

28. 网约车行业数据保护的规则及其特点

29. 企业如何应对数据泄露

30. 金融集团数据整合:“信息孤岛”攻坚战


作者介绍



袁立志 合伙人

021-2613 6222

yuan.lizhi@jingtian.com


袁律师先后从上海对外经贸大学和新加坡国立大学取得国际法硕士和国际商法硕士学位。2017年加入竞天公诚。袁律师是IAPP(国际隐私专家协会)会员,通过CIPP/E资格认证,兼任华东师范大学法学院校外实务导师。袁律师的执业领域为网络与数据法、公司法律事务。袁律师曾为多家知名企业提供网络与数据法律服务,包括金融机构、汽车制造商、智能硬件制造商、文化娱乐企业、互联网企业、数据服务商、云服务商、医疗机构等,承办了一系列前沿的、富有挑战性的项目,积累了丰富的实践经验,是该领域的知名专家 。袁律师荣获2020年Legal 500亚太地区TMT(电信、媒体与科技)领域“特别推荐律师”,并名列Legal Band中国顶级律师排行榜“网络安全与数据”第一梯队。




声明 DISCLAIMER


本文观点仅供参考,不可视为竞天公诚律师事务所及其律师对有关问题出具的正式法律意见。如您有任何法律问题或需要法律意见,请与本所联系。

This article is for your reference only and not to be deemed as formal legal advice given by Jingtian & Gongcheng or its lawyers. Please contact us directly for formal legal advice or further discussion about the relevant issues.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存