面对数据隐私保护相关法律法规相继出台,数据孤岛现象已成为阻碍大数据和人工智能技术发展的主要瓶颈,如何在保障数据隐私和数据安全的前提下,打破金融数据壁垒,是证券经营机构进行数字化转型,不断提升技术核心竞争力亟待解决的问题。本文对证券经营机构内部产生数据孤岛问题的主要原因进行了分析,提出了将区块链与联邦学习二者融合进行联合建模的思路,在满足监管的前提下通过一种合法合规的方式解决数据孤岛问题,对二者融合建模的设计方案和适用场景进行了探讨,旨在为证券经营机构解决人工智能面临的数据孤岛和数据隐私问题提供参考。
随着人工智能技术飞速发展,特别是金融科技的兴起,科技与金融业务的融合不断加深,金融机构都在向数字化、智能化转型,科技在金融机构得到前所未有的重视,科技引领业务不再是镜中花水中月。金融科技的迅猛发展改变了金融机构的创新思路和经营理念,数据作为基础生产资料,在金融科技发展过程中起了关键的推动作用,数据的开放共享也是人工智能和数字经济发展的命脉之所在,是企业在下一轮新技术竞争中取胜的关键。人工智能技术追根究底是建立在基于庞大数据的机器学习训练之上,然而由于金融数据的隐私性和孤立性,加之金融领域是受监管最严的行业之一,因此金融数据也就成了数据孤岛问题的重灾区。联邦学习作为隐私计算的重要技术[1,2],它能够有效解决数据孤岛问题,让参与方在不共享底层数据的基础上联合建模,从技术上打破数据孤岛。联邦学习可以认为是一种广义的分布式机器学习技术,既然是分布式机器学习就应该考虑联邦学习网络中恶意参与方利用错误的梯度和损失值来破坏模型训练的正确性,这需要联邦学习提供数据的可追溯性来保证参与方提供数据的安全性。区块链作为一个去中心化的、不可篡改的、共享的分布式账本,可以保证联邦学习各参与方之间的数据的安全性和一致性,以及训练过程的可追溯性,这从一定程度上避免了恶意数据节点对机器学习训练系统的破坏。另外区块链的安全认证机制和价值驱动激励机制为各参与方提供了一个安全可信的机器学习环境,增强了各参与方之间提供数据、更新网络模型参数的积极性。因此,区块链与联邦学习的融合应用意义重大,实用性强。数据是人工智能的基石,以深度学习驱动的第三次人工智能浪潮依赖大规模的数据去训练超大规模的模型,因此数据的数量和质量直接制约人工智能技术的发展。当前证券经营机构内部数据主要存在以下三方面问题,进而制约了人工智能技术在该领域的应用进展。1.数据孤岛现象严重
证券经营机构拥有的数据具有高度隐私、数据分散、数据量大、数据质量差的特点。不同证券经营机构只拥有自己客户的数据以及所经营业务数据,往往缺乏足够样本数据,数据标注也严重缺失。虽然有些经营机构拥有大量数据,但不同数据来源在逻辑上相对孤立,形成了封闭式、割据式的数据结构,看似数据多,实则许多数据未经专业标注,有效数据非常少。同时受制于数据隐私保护和行业监管,证券经营机构数据来源相对单一,对于外部数据的引入和应用不足。2.数据隐私保护法规限制
近年来,随着人们对隐私重视程度的增强,数据隐私保护方面出台了一系列的法律法规,数据隐私保护相关法律体系呈现日益健全化与规范化。在国际方面,2018年5月欧盟在全体成员国推广首个关于数据隐私保护的法案《通用数据保护条例》,国际标准化组织ISO也发布了一系列相关的标准和规范,包括ISO/IEC 29100《隐私保护框架》、ISO/IEC 29101《隐私体系架构》、ISO/IEC 29134《隐私影响评估》、ISO/IEC 29151《个人可识别信息保护指南》ISO/IEC 29190《隐私能力评估模型》等。在国内方面,2017年施行的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,强调了对基础设施及个人信息的保护。2018年实施的《信息安全技术个人信息安全规范》明确了企业收集、使用、分享个人信息的合规要求。2020年《数据安全法草案》结束征求意见,草案中明确了开展数据活动的组织、个人的数据安全保护义务。在证券领域方面,2014年《证券公司客户资料管理规范》规定“证券公司应对客户资料予以保密,非依法律法规规定、监管报送、客户同意或者因客户身份识别的需要,不得向任何单位和个人提供”。2018年《证券基金经营机构信息技术管理办法》规定“不得收集与服务无关的客户信息,不得购买或使用非法获取或来源不明的数据。除法律法规和中国证监会另有规定外,证券基金经营机构不得以任何方式对外提供客户信息”。这一规定不仅对证券基金经营机构在用户数据收集和使用方面做了限制,而且几乎将证券经营机构对外提供数据之路彻底封死。3.缺乏激励机制
出于保护商业机密、数据监管以及数据整理成本等因素考虑,加之缺乏激励机制,证券经营机构当前也缺乏数据共享的动力。联邦学习具有分布式、本地计算等特征,与区块链所具有的去中心化、分布式计算等特征有诸多相似之处,因此更适合与区块链相融合。下面分别对这两种技术进行阐述。(一)联邦学习概述
联邦学习(FederatedLearning)是一种新兴的人工智能基础技术,谷歌公司最早在2017正式提出联邦学习的概念[3,4],原本用于解决安卓手机终端用户在本地更新模型时面临的设备和个人数据安全、隐私、合法合规等问题。通过近几年的发展,目前已成为一种带有隐私保护、安全加密技术的分布式机器学习框架,旨在让分散的各参与方在不向其他参与方披露隐私数据的前提下,联合进行机器学习的模型训练。通过引入更多的参与方,联邦学习可以从整体上拓展训练数据集,从而提升总体模型的质量。典型的联邦学习模型框架如图1所示。
在实际应用中,根据数据分布的特点,2020年4月8日,微众银行联合多家企业和机构发布《联邦学习白皮书V2.0》,将联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习,三种联邦学习特征如图2所示。横向联邦学习,适用于参与方在业务形态相同或相似但用户不同的场景,也即用户特征重叠较大,用户重叠较小的场景,其本质是样本的融合。比如不同的证券经营机构间业务相似(特征相似),但用户不同(样本不同),可以联合进行反洗钱或风控建模,解决该领域样本数量少,数据质量差的问题。纵向联邦学习,适用于参与方在业务形态不同,但用户样本有交叉的场景,也即用户特征重叠较小,用户重叠较大的场景,其本质是特征融合。比如将证券经营机构与本地电商公司进行联合建模,经营机构记录了用户的持仓信息、买卖记录、风险等级等信息,而电商公司则记录了用户的购买历史及操作行为数据,二者虽然业务不同(特征不同),但用户数据存在重合部分(样本相同),二者联合进行模型训练,通过用户画像建模进行预测,为用户推荐相关金融产品,实现精准营销,解决经营机构公司数据单一的问题。联邦迁移学习,适用于用户样本数据和用户特征重叠都很小的场景,与纵向联邦学习相似,一般是利用迁移学习和深度神经网络来克服数据或标签不足的情况,解决单边数据规模小和标签样本少的问题。如本国的证券经营机构与国外的电商公司联合建模,由于样本和特征重叠很小,通过迁移学习进行模型训练以挖掘新的商业模式、金融产品和服务。
典型的联邦学习生态包括用户,联邦学习参与方和协调方三种角色。其中联邦学习的协调方负责将各参与方上传的模型参数、梯度和损失值进行合并,并将结果发给各参与方,一般使用FederatedAveraging算法对各参与方提供的模型参数进行加权平均来获得联合模型。联邦学习的参与方需要将模型参数或梯度参数通过同态加密、差分隐私和多方安全计算[5]等加密技术加密后传递给协调方。联邦学习的基本流程包括两部分:加密样本对齐和加密模型训练,如图3所示。
联邦学习的数据来自不同的组织或机构,彼此间缺乏信任,是在多方不信任的基础上协作计算,因此参与方提供的数据质量问题可能影响整个机器学习任务的效果,进而影响联邦学习的质量。同时由于联邦学习缺乏相应的激励机制,如何吸引更多的参与方加入也是当前联邦学习所面临的挑战问题。(二)区块链概述
数据中心联盟对区块链(Blockchain)的定义为:区块链是一种由多方共同维护,使用密码学保证传输和访问安全,能够实现数据一致存储、无法篡改、无法抵赖的技术体系,也称分布式账本。区块链通过智能合约维护着一条不断增长的有序的数据区块,参与到区块链网络的节点,通过密码学算法把一段时间内的全部信息交流数据统计和记录到一个数据块(Block)中,并且生成该数据块的指纹用于链接(Chain)下一个数据块和校验,由系统中所有的参与节点共同认定记录是否为真,从而保证区块内的信息无法伪造和更改。根据网络范围,区块链可以分为公有链、私有链和联盟链。2. 区块链的特点
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术在互联网时代的创新应用模式,主要具有以下特点。区块链的账本不是存储于某一个节点中,也不需要第三方权威机构来负责管理,而是分散在区块链网络中的每一个节点上,每个节点都有该账本的一个副本,并且全部节点的账本同步更新。区块链采用了带有时间戳的链式区块结构存储数据,从而使得区块中存储的信息具有极强的可追溯性和可验证性。同时利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全,又保证了区块链数据的不可更改性,进一步提高了区块链的数据稳定性和可靠性。区块链是一个开放的、信息高度透明的系统,任何节点都可以加入区块链,各参与节点除了私有信息被加密外,所有数据对链上每个节点都公开透明。(三)区块链与联邦学习融合
联邦学习和区块链都是需要多方参与实现的,通过技术上的共识实现多方合作的可信网络,具有较好的互补性。区块链和联邦学习二者融合,可以相互赋能,相辅相成。区块链尤其是联盟链的授权机制、身份管理等为联邦学习各参与方提供一个安全可信的合作机制。联邦学习的模型参数存储在区块链中,保证了模型参数的安全性、可靠性和一致性,也保证了训练过程中交互的模型参数数据透明、防篡改和可追溯。凭借区块链提供的激励机制,在联邦学习模型训练完成后,根据本次训练过程中各参与者提供的训练数据的数量和质量评估激励资源,吸引更多的参与方加入,进而提升模型训练结果的精度和准确率。通过联邦学习,仅将计算结果上链,可以降低区块链存储资源的开销,实现计算、共识和存储分离。同时通过联邦学习、同态加密和安全多方计算等隐私计算技术可解决区块链隐私性问题。传统的联邦学习架构需要一个联邦中心作为协调方,由于联邦中心的存在,在实际应用中一方面对于如何选择协调方是一个难点问题,另一方面联邦中心单点故障也会对联邦学习整个学习网络造成影响。同时缺少激励机制,参与方积极性难以得到保障。基于区块链的联邦学习框架使用区块链网络代替或弱化联邦中心的作用,将训练参数结果上链,一方面可以防止样本特征数据被篡改,另一方面可以将迭代历史数据保存在链上。区块链与联邦学习融合模型训练过程如图4所示,融合后的区块数据结构如图5所示。由联邦学习任务发起者充当联邦中心,负责对联邦学习参与方的贡献进行评估计算,并将奖励下发到区块链上。各参与节点在本地模型训练之后将训练结果上传到区块链网络进行广播,链上其他结点通过迭代次数进行判断处理,以此循环迭代,直到联邦学习损失函数收敛,完成整个联合模型训练。同时,区块链网络上的任何一个参与方地位其实都是平等的,任何一个参与方都可以作为联邦学习任务的发起者,通过此种方式可以弱化联邦中心,以实现联邦学习的P2P(Peer-to-Peer)网络拓扑结构。
证券经营机构通过使用基于区块链的联邦学习能简单、合法合规且低成本的获取外部有效的数据信息,快速解决因数据量或数据维度不足而导致人工智能模型训练效果较差的问题。本节将基于区块链的联邦学习在证券经营机构实际应用场景进行分析。1.精准画像和精准营销
在消费结构升级以及付费浪潮影响下,用户更愿意为高质量的服务和产品买单,因此需要进行多维度的用户画像、客群细分和精细化分析,进而实现服务和产品精准触达目标用户,为用户提供更有价值的产品和服务陪伴。证券经营机构联合电商公司、银行等机构进行联合建模。证券经营机构拥有用户的持仓记录、调仓记录、风险等级测评以及产品风格类型等数据;电商公司拥有用户浏览记录、消费行为、搜索数据、用户社交信息、用户活跃度等数据;银行拥有用户信用等级、收支情况等数据。将三方样本特征通过基于区块链的联邦学习技术进行融合,不断补充和完善用户标签,构建统一的智能获客模型、智能客服模型、联邦推荐模型和智能投顾模型,通过人工智能算法实现精准用户画像,从而实现千人千面的个性化营销。此外,客户在不同领域表现出的行为特征,构建用户价值预测模型和产品需求预测模型,可以为证券经营机构了解和预测客户需求,提供差异化产品和服务以及优化合作渠道提供重要参考依据。该场景的架构模型如图6所示。
2. 智能风控
在各种金融监管相关法律法规以及金融科技助力之下,全面的智能风控时代已经到来。与银行业的风控专注于信贷风控、反欺诈等不同,证券业的风控主要侧重于对客户在“事前”、“事中”和“事后”交易违规行为的侦测。2018年,深沪交易所发布的《关于加强重点监控账户管理工作的通知》要求强化交易一线监管、突出事中监管,明确了对严重异常交易行为的账户进行监控。自2018年以来,不少证券公司因未按照要求履行客户身份识别义务吃到罚单,因此利用大数据及人工智能技术建设智能风控体系更是证券经营机构开展风控工作重中之中。智能风控的实质是基于大数据和人工智能技术,通过对交易规则和客户交易行为进行甄别来实现风险预警。对客户异常交易行为及异常账户的侦测需要构建基于用户交易行为中的各种指标特征的智能风控模型,这些指标包括交易频次、交易额度、交易时点、每单报价、持有标的、持有资产以及资金来源等信息。因此证券经营机构需要整合证券业务数据,包括经纪业务、自营业务、资管业务以及两融业务等数据,提取用户行为特征。通过与证券经营机构之间、银行、外部大数据服务机构等机构合作,利用基于区块链的联邦学习技术构建智能风控模型,进行联合建模引入更多维度的数据,并通过区块链的分布式账本特性将模型参数及结果保存在区块上以保障数据可追溯和模型的稳健性。通过联合模型,对客户交易过程中的异常交易、异常账户和关联账号进行深度逐层穿透识别,以实现快速、精准的风险事件过滤、预测和报警。并将客户业务及风险情况进行可视化展示以实现风险可计量管理。该应用场景的架构示意图如图7所示。
3.构建证券行业的知识图谱
在上文提到证券经营机构拥有的数据具有高度隐私、数据分散、数据量大、数据质量差的特点,如何从这些数据中辨别金融实体,定义并挖掘金融实体的各种关系,从而构建证券行业的知识图谱,全方位洞察数据的业务价值,辅助经营机构智能决策,正是基于区块链的联邦学习的用武之地。在区块链共识机制及激励机制的保障下,经营机构及第三方机构自定义模型将可公开共享的数据上链存储进行共享,如资讯数据、研报数据、行情数据、市场数据、公告数据等;对隐私数据通过联邦学习联合建模,多维数据整合。对数据进行标注、知识抽取、知识融合、知识推理等处理来构建包括智能投研、智能检索、专家系统、智能公告、智能研报、舆情监控以及智能问答等多应用场景的知识图谱,深度挖掘金融数据的价值,不断提升金融产品和金融服务的质量,不断优化用户体验。基本架构如图8所示。
本文分别对联邦学习和区块链两种技术进行了简要介绍,给出了二者融合的模型设计方案,并立足证券经营机构实际应用场景对二者技术融合应用进行了探讨。联邦学习在一定程度上减少数据安全风险,与具有去中心化、分布式账本及激励机制的区块链结合应用,对解决当前金融数据整合面临的诸多难题有着重要的意义。两种新兴技术与金融业务场景融合应用,必将创造出越来越多的业务模式、金融产品和服务场景,进而会对金融市场、金融公司、金融服务甚至是金融业态发展带来影响。然而,区块链与联邦学习在实际落地时,仍将面对一些技术和法律难题,应用场景仍有限制,也需要有适当和明确的激励机制鼓励更多企业加入。未来基于区块链的联邦学习系统还需要进一步加强其实用性,提高其在应用中的实际价值。作者介绍:
牟大恩、任炜明
上海东方证券资产管理有限公司
邮箱:moudaen@126.com
更多讨论,请扫描下方二维码,加入交流群一起学习成长。