【金融科技与你同行】隐私计算的应用研究与趋势展望(下)
The following article is from 金卡生活 Author 高鹏飞
作者 | 高鹏飞 中国银联金融科技研究院助理院长
编者按:近几年,数据要素重要性日益凸显,数据安全、信息保护备受重视,若希望在保护好信息安全的前提下,更好地使用数据,需要借助一定的技术手段。因此,隐私计算领域成为技术热点。本文从隐私计算技术的发展背景介绍起,在梳理了主要技术分类基础上,深挖典型合作场景及重点研究方向,最后展望了隐私计算的发展趋势。
虽然数据价值融合需求强烈,隐私计算产业发展快,但由于相关法规规范、技术应用、安全评估都在不断探索,目前隐私计算在金融领域上没有大规模成熟的应用案例。本文在此介绍四个隐私计算在金融领域试点探索过程中较为典型的案例。
案例一:小微企业信用评估联合建模。由于“数据合规”和“数据孤岛”问题,限制了企业间的数据合作,项目考虑基于联邦学习算法的建模方案,在保证数据隐私的前提下,融合多方数据,共建小微企业的风险评估模型。其整体方案是机构侧基于自身数据储备,挖掘小微企业及企业主的的交易特征数据,银行侧提供小微企业的信贷违约标签数据,通过双方的隐私计算平台进行纵向联邦建模,挖掘数据在该场景的数据价值。双方利用3万个共有样本,采用逻辑回归模型及树模型,银行提供小微企业是否违约的标签数据,机构基于小微企业的交易数据抽取特征标签,进行纵向联邦学习建模。经过效果验证,加入机构(企业和企业主)特征后,测试集的AUC从0.615提升到了0.690,提升12.2%,有效地提升了小微企业风险评估模型的性能。
案例二:银行高价值客户挖掘项目。银行希望对客户的资产进行准确评估,以筛选出高价值客户,进行服务升级、精准营销等。然而,仅依靠本行的数据,将存在数据量不足,用户标签及特征缺失等情况,故希望融合外部数据源,提升高价值客户挖掘的能力。该项目的具体方案是机构作为数据提供方,基干用户的交易数据,控掘用户的消费能力,行为习惯,他行交易特点等特征维度,输入到联邦学习平台;而银行侧提供用户是否高价值用户的标签,并提供基干银行自有数据的用户特征。双方则在数据不出库的情况下进行联合建模。在试点过程中发现,通过模型所识别的高价值用户在营销响应率是对照组的2倍,进件金额是对照组的5倍。
案例三:基于多方安全计算的安全人脸识别。2021年,中国银联研究院与交通银行基于多方安全计算技术,共同申报了中国人民银行安全人脸监管沙箱试点。现有方案是直接传输生物特征原图,从监管安全合规的要求来看,这存在外部的渗透攻击、系统组件的漏洞,导致潜在信息的风险泄露。而安全人脸监管沙箱项目则是利用多方安全计算技术进行安全增强,方案将用户的生物特征分片存储在两家机构里,任一节点没有完整生物特征,即使单一的机构信息泄露也无法恢复出用户的完整的信息,这大大降低了泄露风险。而在进行识别时,MPC仍然能够保证比对计算的正确性,即通过读取两家MPC平台的人脸数据,同样能够计算出正确的结果,该方案也可应用到其他敏感信息保护的和计算的场景当中去。
案例四:机密计算相关应用。与联邦学习和多方安全计算不同,机密计算的思路是基于运行环境的安全来保障计算的安全,而不是通过密码学直接实现计算过程的安全,机密计算更加关注使用基础设施保障数据的安全。在Gartner的分类中就对应着是硬件层级的隐私计算保护方式。因此应用场景更广泛,不仅能够应用于云计算数据中心等单方数据使用场景,也能够为多方数据场景提供安全基础设施支撑。当前对机密计算的研究也还处于探索期,但对于机密计算技术研究如技术原理研究已完成,也开展了一些针对主流技术能力的测试和相关技术标准的制定;而在机密计算服务框架的层面,中国银联也已经开展了基础资源服务的研究,如:机密容器、机密虚拟机的研究,在此基础上,构建了加解密、密钥管理等公共服务,方便在开发的过程当中更容易应用到机密计算的能力;在场景探索层面,也在探索适合机密计算应用的具体场景,如:敏感数据的安全存储、ID匿名化、生物特征验证等。机密计算的典型应用案例是基于机密计算实现人脸数据的全平台处理,用户侧是在TEE环境完成人脸信息的安全采集;机构侧是在TEE环境完成人脸信息的密态处理;用户侧到机构侧数据全部为加密状态传输,加解密动作全部在TEE中进行。如此一来,数据传输的安全性大幅度提高。
在隐私计算的发展过程中不可避免地会碰到一些难点与痛点,包括隐私计算平台互联互通的问题、工程安全保障的难题、法律合规方面的争议等几个方面,均为业内目前高度关注的问题。
一是互联互通问题。隐私计算发展的初衷是让数据要素更加自由流通,然而当前隐私计算的平台多、产品多,且标准不统一,产品间难以互通,这实际上形成了新的“孤岛格局”,因此迫切需要解决不同厂商、不同机构之间的隐私计算平台互联互通问题(图2)。业界各方也对互联互通诉求强烈:对于应用方,可以避免“烟囱化”部署,避免黑盒产品的引入风险;对于技术方,则可以减少在用户培训与安全准入测试方面的大量精力投入。然而,要实现隐私计算产品间的互联互通并不容易。一方面,从技术角度看,隐私计算涉及到底层的数据通信、安全算法等多个模块,要设计一套既满足安全要求,又能够适应各个商业产品多样性互联互通的框架,难度非常高;另一方面,从生态角度看,如何使定义的统一的互联互通框架产生行业影响力,即业界都愿意使用该框架也较为困难。
图2 隐私计算的互联互通困境
对此,中国银联作为金融领域关键基础设施的提供者,在隐私计算行业的互联互通方面,做了一定的工作——计划通过技术验证加标准立项双轮驱动的方式,使得隐私计算的互联互通能够推进落实。具体包括:一方面,中国银联在北京金融科技产业联盟数据专委会上牵头了《<金融行业异构隐私计算平台互联互通技术规范>团体标准》课题;另一方面,通过技术课题与主流隐私计算产品互通验证,并借助开源式社区实质落地API接口规范。
二是工程安全性问题。多方安全计算有严格的理论形式化证明,但在实际的工程应用中仍会出现使用不当而追成的数据泄露。中国银联高度关注隐私计算底层的安全基础研究,组织团队对隐私计算产品进行安全性评估,并时刻关注业界的安全风险事件。
首先是逻辑数据逻辑陷阱。多方安全计算的要求是计算过程“可算不可见”,计算的结果要求不能反推出原始数据,而当前数据逻辑陷阱往往问题都出现在这一步。
其次是安全求交(PSI)的灰色地带。安全求交时双方的ID均保密,结果得到双方共有ID,非共有ID仍然向对方保密,从技术角度上来说,这可能是合理的;但从业务的角度,常会发生一种情况:“用户在A机构注册了,A机构知道用户在B机构也注册了”,这就会存在一个法律的灰色地带。事实上,某些求交算法,在特定的情况下(尤其是恶意攻破的情况下),可以离线碰撞出对方所有的ID。
最后是业务逻辑漏洞。在这方面,会出现把查询明细包装成建模的问题。如:现实中会遇到某些银行并不需要建模,只是把要查询的数据包装成建模问题,这需要高度警惕。在合作的过程当中,也会看到这样一种情形:有些场景,银行只提供标签,不提供特征,标签建成时大概率可以推导出对方的标签。
三是隐私计算与数据合规问题。隐私计算本身就是为了从技术上保障数据合作的安全,但如果要形成全方位的数据管理与安全体系,还涉及到数据治理的各参与方,如:算法提供方、数据提供方、数据使用方、合规校验方等,隐私计算能够覆盖的范畴主要在计算的部分,其余数据流动需要依靠数据治理以及相应的授权规则来作为保障。2021年,中国银联法律部与研究院等部门共同开展了《隐私技术在金融数据应用领域的法律合规探索》技术研究,对隐私技术在金融数据融合、流通领域的应用合规性进行分析、论证。形成了《隐私技术在金融数据应用领域的法律合规探索研究报告》,及监管建议文件《关于隐私技术合规监管规则的建议》。
技术上形成互联互通生态。隐私计算的平台未来必将是互联互通的,需要各行各业、应用方、技术方共同努力,求同存异,将隐私计算的框架API逐步标准化,在此基础上形成隐私计算产品和算法的百花齐放,构建出互联互通生态,即最底层是业内通用的互联互通检测标准,在此之上构建数据市场、模型市场和算法市场。
业务上形成隐私数据网络。隐私计算在技术上实现互联互通后,能够为数据要素的互联互通奠定技术基础,这将会催生出新的业务场景和业务模式。综合联邦学习、安全多方计算、可信执行环境等隐私计算技术,构建隐私计算驱动的数据协作的安全基座,根据不同的场景,通过“可算不可见”的方式,安全有效地拉通数据的供给方与需求方,赋能行业应用。而无论是数据提供方还是数据使用方,都会通过互联互通的隐私计算平台构建数据互联网,驱动数据的安全流转。其中,实现数据协作的安全基座有两种模式:一是数据撮合,数据方的数据无法出域,撮合交易对手方的数据进行虚拟融合计算结果 ;二是数据托管,数据方的数据无法出域,可信托管于交易中心 。
总之,隐私计算发展到一定程度就能够支撑起数据要素流通与安全隐私保护的重任,必将为产业各方带来新的业务场景,业务模式也极有可能形成新的业态、生态。
(本文系《金卡生活》编辑部根据2022年4月22日中国银联金融科技研究院助理院长高鹏飞,做客中国银联支付学院“金融科技大咖讲堂”内容整理而成,已经授课人审阅)
END往期推荐: