查看原文
其他

主题专栏 | 数据共享开放和数据安全隐私保护的合规破解之道——中国数安港“中立国”模式


编者按


在本期主题专栏中,作者围绕数据共享开放和数据安全隐私保护的合规破解之道,分析了当前实践探索现状、隐私计算技术解决方案以及法律合规问题等内容,提出可以参考中国数安港“中立国”模式解决数据合规难题。







金俊州

浙江省大数据联合计算中心 

高级合规顾问

李浩川

浙江省大数据联合计算中心 

首席合规官




摘要:2010年,大数据时代到来,时至今日,中国构建全球领先的超大规模数据市场各项条件已经具备,中国政府不遗余力地发展数据产业,中国经济正在此领域弯道超车。中国各地方政府正在积极探索数据交易所(中心、平台)的建设,但受困于法规政策、自身运营能力、技术理解与储备不足等因素,形成“场内不香场外香”的临时局面。另一方面,以多方安全计算(MPC)等为代表的隐私计算技术已在诸多领域落地实施,但存在原始数据来源合规瑕疵、无法彻底完成“匿名化”等数据合规要求、数据参与方主体信任危机等问题。浙江省在中国数安港探索创设的“中立国”模式,提出隐私计算与数据保护相结合的整体合规方案,设置“三审核三隔离”全链路流程,引入第三方合规机构对数据源方的数据来源、处理等行为进行合规评估,具体场景由数安港专家委员会进行合规性论证落地,由政府不定期审计监督,实现数据价值发挥,值得借鉴思考。未来,场内交易方式将是数据交易的主要形态,各地也将因地制宜形成特色的计算中心、交易所、平台等,与场外交易形成多层次数据要素市场。

关键词:隐私计算、交易所、数据安全、数据合规、大数据联合计算、中立国、数安港


引言

早在2010年,全球知名咨询公司麦肯锡便提出“大数据时代已经到来”,其在研究报告中指出,“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。时至今日,数据作为新的生产要素,联动“数据孤岛”充分释放数据价值已成为全社会共识,中国政府不遗余力地发展数据产业,中国经济当前正在此领域弯道超车。中国数字经济市场有望成长为全球第一大市场。据IDC国际数据公司测算,从2018年到2025年,中国拥有的数据量将从7.5ZB增长到48.6ZB,占全球27.8%,远高于美国的17.5%。从数据规模和量级上看,中国构建全球领先的超大规模数据市场各项条件已经具备,当前正处于未来十年中国经济社会发展超越主要竞争对手的战略制高点,若能在这一轮时代红利中占得先机,那么在引领新兴产业发展过程中,中国将具备强大的人口规模和经济规模优势。
另一方面,随着《网络安全法》《数据安全法》《个人信息保护法》等法律法规出台实施,大数据产业的红线已经清晰。但对于特定纷繁复杂的应用场景是否完全符合法律规定,法学界专家和实践派专家甚至监管部门都无法给出明确答案,市场主体间活跃的数据价值需求大多只能通过分散、无序、一对一进行交易或共享,缺乏规范可信的产业环境。我国针对数据安全问题实施数据分类分级保护制度,重点保护“重要数据”,但数据安全事件仍频繁发生。如运营商内部人员违法出售用户数据,滴滴出行严重违法违规采集个人信息、蔚来汽车用户信息遭黑客泄露等,如何平衡数据共享开放和数据安全隐私保护的关系成为大数据产业发展的主要矛盾。


数据要素市场化配置体制机制探索现状

早在2014年,中国各地方政府便逐步开始尝试建设数据交易所。仅2014年-2016年,国内大数据交易所便呈井喷态势,先后成立了15家大数据交易所(中心、平台等)。2021年初以来,北京、上海、深圳、广州、杭州、温州等多地先后建立或筹建由本地政府牵头的大数据交易所(中心等)。据不完全统计,全国已建成或在建的数据交易所超过40所,大多数采用“国有控股、政府指导、企业参与、市场运营”的运作机制。
根据行业权威机构统计,目前国内数据交易90%以上来自于“场外交易”,很多大数据交易所发展形势并不乐观。2020年国内大数据要素市场(含数据清洗、标注、交易等环节)规模达545亿元,但场内数据交易只占总体交易市场规模的4%。
在运营业务模式方面,各大交易所的业务架构通常涵盖了交易撮合、交付结算、确权定价等中介服务,辅之以数据合规、数据建模、数据分析、数据资产管理、金融服务等增值服务。但对于数据交易而言,协调、撮合业务并确权定价是一项极其敏感又艰巨的任务,容易形成了“场内不香场外香”的尴尬局面。
数据交易难点在于“千人千面”,不同数据使用方对数据提供方的数据需求以及自身获得利益均存在“一事一议”专属化定制现象。数据资源是变动的、分散的、海量的,而数据应用也是变动的、海量的。另一方面,受限于《个人信息保护法》基于告知同意以及收集最小必要等原则要求,数据提供方对于数据使用方的资质要求愈发严格,尤其一旦涉及国家安全等议题讨论,甚至出现审查数据使用方的外资背景,若有一丝国外资本,则对该数据交易进行一票绝对否决,大大限制了交易对象范围。
交易所本来应作为一个具备公信力、拥有登记和结算等属性的机构,在交易过程中发挥交易撮合结算等功能,由政府事业单位或国有企业来组建。各类数据技术提供方或加工方则类似券商,在数据交易的过程中提供数据处理解决方案(如为数据使用方提供API接口或可信执行环境,由数据加工方人工建模进行模型训练等)。但由于数据交易处于初期发展阶段,一般交易所并未对此进行主体职能区分,甚至,有的交易所已基本不再从事数据交易中介服务,而转身变为大数据分析或标注的技术提供商。
在经营业绩规模方面,各交易所的数据成交规模整体较为惨淡。中国首家交易所贵阳大数据交易所在成立之初预设在3至5年内实现日交易额100亿元的规模。此后几年,贵数所因势利导,从当初的“日交易100亿元”变成“全年力争突破亿元”;2018年起,贵数所不再通过官方渠道公布交易额。据知情人士透露,2019年贵数所仅完成500万-800万元的数据项目,2020年的贵数所成交额甚至低于500万元。另外,德阳数据交易中心成立半年至今交易额为257万元,而其他数据交易所几乎都没有公布交易额。
行业内普遍担忧数据权属的界定仍处灰色地带,导致数据交易实际并非遵循“法无禁止皆可为”原则,而是采取“法无明文规定先不为”的策略,权属争议、强势监管的风险令各方均不敢越雷池一步。除此之外,频发的数据安全和隐私泄露事件加剧了社会对数据交易的不信任感,出于对国家安全、个人信息和商业秘密的顾虑,市场主体参与数据场内交易的主动性、积极性大大降低。


隐私计算技术解决方案的发展

原始数据资源存在可复制且不被控制的独特属性,这意味着原始数据资源一旦出域便可以无限流转使用,数据相关权益保护则无从谈起。隐私计算技术解决方案的应用可以保证原始数据不出本地,在保护数据安全的同时实现多源数据的跨域合作,对破解数据保护与融合应用难题提供了可行性思路,实现“数据可用不可拥、安全可见又可验”。为平衡数据共享开放和数据安全隐私保护之间的关系,在合法合规的政策框架下,以多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE)等为代表的隐私计算技术已在普惠金融、医疗健康、生物遗传资源、政务数据等领域落地实施,致力于破解数据保护与利用的矛盾。2021年中国隐私计算市场规模为4.9亿元,预计2025年将达145.1亿元。目前隐私计算处于基建期,市场需求集中于基础产品服务,数据运营商业模式因拥有巨大市场发展空间而被看好。
MPC、FL、TEE等技术在实际业务中可以相互融合提供整体解决方案,成为匿名化技术方案的重要基础。三种技术相互之间的包容关系可见下图:
2022年起,各地数据交易所均探索适宜自身的隐私计算技术解决方案。以北数所为例,北京国际大数据交易所IDeX系统是依托隐私计算、区块链及智能合约、数据确权标识、测试沙盒等领域技术构建的新型数据交易系统。京东科技、华控清交、微芯感知科技作为北数所的股东和技术提供方,分别以联邦学习、多方安全计算、区块链技术路径来共同支持北数所的隐私计算方案。
目前多方安全计算(MPC)、区块链(BC)已接近技术成熟峰值,而可信执行环境(TEE)、联邦学习(FL)、同态加密(HE)、零知识证明(ZKP)、差分隐私(DP)等隐私计算技术尚处于快速增长的技术创新阶段,交易数据“可用不可见”“可用不可拥”的规划愿景愈发明朗,再结合各地数据交易所新一轮积极进取,数据资源价值挖掘进入快速发展期。




隐私计算技术的法律合规问题

当前市面上纷繁复杂的隐私计算技术解决方案,尽管声称安全可信、不改变数据所有权、打破数据孤岛、释放数据价值等,但实际上并非数据合规的万能解。产业界和法学界及监管部门必须意识到纯粹的技术优化无法面对《个人信息保护法》等法规政策本质的审视与考核。

(1)隐私计算技术本身无法解决原始数据来源采集的合规瑕疵问题

欧洲基于基本权利构建的个人信息保护理论,美国基于个人自由的隐私保护理论,二者殊途同归,在制度机制上均以“告知同意架构”作为基础;中国《个人信息保护法》同样确立以“告知同意原则”为核心的个人信息保护制度,这意味着数据使用必须经过相关方同意,如果不同意将可能会面临一系列的法律风险。

倘若数据提供方的数据来源授权链路不完整(如未经同意收集个人信息、非法爬虫等),此类数据提供方本身就具有著作权侵权、不正当竞争风险以及侵犯公民个人信息罪、非法获取计算机信息系统数据罪等民事、行政、刑事一系列责任风险,后续即使使用隐私计算技术保障数据处理周密安全也无法改变上述风险。

在实际应用场景中,一旦启用隐私计算,通常意味着多家主体介入大数据处理环节,共同成为个人信息处理者。当其中一方数据采集存在合规瑕疵,根据《个人信息保护法》第二十条规定“个人信息处理者共同处理个人信息,侵害个人信息权益造成损害的,应当依法承担连带责任。”,其他参与方均构成共同侵权者。因此,倘若数据来源的合法性存在瑕疵漏洞,隐私计算技术解决方案不但无法达到合规效果,反而还会增加法律风险。

(2)隐私计算技术解决方案不等于完成“匿名化”要求

“匿名化”(anonymization)在中国法语境下对应的是《个人信息保护法》第七十三条第四项规定:“匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。”但前述法条并未进一步明确应该如何进行匿名化处理,这导致产业界在匿名化处理机制中缺乏清晰、可预期的实践标准,并且实际上

技术是很难实现完全彻底的匿名化目标的,这也是学界称之为“美丽的神话”(beautiful myth)的原因。

此外,技术本身参差不齐,各类隐私计算技术在不同程度上导致数据和模型泄露。以联邦学习(FL)为例,在一般情形下原始数据在本地不出域,但过程中隐含的个人信息并非已绝对保障。梯度或参数信息被发送至协作组的环节中,就可能导致个人信息泄露。研究表明,攻击者或协作者可以在计算工程中从梯度或参数信息通过逆向工程推理出含个人信息的原始数据。而梯度或参数信息本身在某种程度上仍然属于《个人信息保护法》第四条所规定的个人信息,倘若未经授权同意泄露这些梯度或参数信息,亦存在构成侵权的法律风险。

(3)隐私计算参与主体的自身问题可能击穿技术搭建的信任体系

隐私计算一般涵盖多方主体协同配合,过程中也会引入技术服务方、第三方评估认证服务方、安全保障方等主体。从单纯的概率论上看,每多引进一方都是不确定因素,安全风险呈指数性上升。例如,部分参与方或第三方恶意提供虚假信息、影响机器学习、破坏全局模型聚合。再比如,多方主体中的部分主体串通合作共享原本应该相互保密的数据,从而倒推出其他主体的重要原始数据。

参与方的数据处理相关资质,若未经过政府审批通过或者输入数据来源授权链路不完整,则可能导致全域主体受侵害。多方主体之间如何相互有效制约和监督是隐私计算技术无法单独克服的问题。




中国数安港“中立国”模式的数据合规破解之道

一如前述,单纯的隐私计算技术解决方案无法作为数据合规的万能解,大数据业务亟须进行“技术—法律”二元维度规制以完成对全生命周期监管的合规要求。

目前我国数据要素流通产业尚属于起步阶段,数据合规平台设计、数据定价和流通模式、运营体系、主体准入机制等一系列的必要环节,在国际上尚无先例可循,只能立足于市场需求。根据我国基本国情进行自主创新,制定具有中国特色的数据要素流通交易模式及规则。

而仅仅成立各式各样纷繁迥异的大数据交易所在中国法语境下实际并无法在法律适用、政策松绑层面做出真正具有普适价值的探索与实践。中国改革开放40年的成功经验在于其路径与目标的演绎逻辑是基于不断的区域性试点试错,产业园区(开发区、自贸区等)是中国在全球化竞争中主动展开的一场攻守兼备的试验。对比日韩,韩国上世纪50年代至60年代朴正熙所主导的产业经济发展、日本上世纪50年代至60年代的产业经济黄金发展时代,均使用了“选择性产业政策”,获得了显著的经济成果。法治是最好的营商环境,产业园区在中国行政法治层面具有丰富的内涵及外延,为改革的先行先试提供了优良的营商创新环境。

(1)中国(温州)数安港的制度试验起点

浙江省温州市人民政府基于“数字浙江”建设的政策部署,设立中国(温州)数安港(全称“中国(温州)数据智能与安全服务创新园”),这是以一个创新产业园区、一个大数据联合计算中心、一套数据安全与合规体系、一系列专业司法保障部门等“九个一”架构起来的数安港,通过推动数据产业全链条深度融合,为全国数据要素市场化配置改革探路先行,蹚出合法合规的数据市场化新路径。中国数安港搭建的由政府、产业界、学术圈、研究院多方联动,公检法司深化介入的数据全生命周期合规管理服务生态系统,是隐私计算真正达成数据合规的破题之眼。

数据要素市场划定在中国数安港域内试点,由地方政府牵头成立数据安全合规管理委员会,邀请数据相关各界专家学者,组建数据安全合规专家委员会,设定制度框架,使改革在法治的框架内稳步进行,出台《中国(温州)数安港数据安全合规管理委员会工作规程》《中国(温州)数安港数据安全合规评估机构资质管理办法》《中国(温州)数安港数据联合计算和数据产品交易主体资格管理规则》《中国(温州)数安港数据处理主体责任清单》《中国(温州)数安港数据安全负面行为清单》等具体规章制度,呼应细化上位法的原则要求,形成真正的数据安全与合规闭环体系,迈出真正切实有益的探索(如图)。

(2)“中立国”模式的技术创新与法律尝试

“中立国”模式系浙江省大数据联合计算中心创设的隐私计算合规技术整体方案,经中国数安港数据安全合规管理委员会评审通过,取得合法合规的《联合计算场景评审证书》,由政府审计监督,实现“数据可用不可拥,安全可见又可验证,结果可控可计量”的理想目标。“中立国”模式下,数算中心采用“三审核、三隔离”的方式实现全过程安全合规、安全隔离,并由政府各部门参与全程监督审计,详见如下图。

具体而言,“中立国”联合计算平台在计算过程中,原始数据经去标识化后输入联合计算区参与计算,完成计算后会立即被自动删除,经审核通过的匿名化结果数据从指定路径输出,用于约定场景用途,从而提供一个隐私计算的可信可监管环境。

基于上述“中立国”平台架构,中国(温州)数安港以举行数据安全合规论证会形式通过了多方联合画像统计、多方联合建模投放、联合归因、数据定制分析服务、统计报告用于金融、向量特征增强、智能用户找回等8个场景的数据安全合规论证,为应用场景合规、数据要素市场化交易提供保障。

各方以“中立国”模式参与联合计算系《个保法》第二十一条规定的“委托处理”个人信息处理活动,与出库行为涉及的《个保法》第二十二条“转移”、第二十三条“提供”及二十五条“公开”等个人信息处理活动相比,二者为并列关系、互不隶属,该模式使得隐私计算参与主体的自身资质经过审核取得法律信任,充分保障了技术搭建的信任体系。与此同时,“三审核三隔离”机制保障确认了输入数据来源采集的合规授权链路以及输出结果是否符合“匿名化”要求。

进言之,数据通过加盐&不可逆加密(MD5、SHA256)等加密方式从一方输出到中立国领事馆(私有区),领事馆(私有区)归属数据提供方所有,由数据提供方控制使用,不存在权属转移。根据《个保法》第十九条期限要求,数据在中立计算区参与联合计算,采用的是“无磁盘计算”技术方式,数据不留存,在最短时间完成处理目的,仅输出结果。

(3)具体场景实例:多方联合画像统计

基于中国数安港的“中立国”联合计算平台,可以落地数据应用具体场景,例如多方联合画像统计,其是基于各数据提供方画像特征对目标样本人群进行统计级别画像洞察的服务。为品牌客户提供目标人群线上、线下等多维度多视角的洞察报告,帮助品牌了解用户的基础属性特征,加深理解兴趣特征,刻画消费者画像,以优化营销策略(流程图如下)。

具体流程经历以下四个步骤:

1、数据输入:各方对数据进行加盐加密处理后,通过安全的网络传输方式进入联合计算平台的品牌领事馆(私有区)。

2、隐私求交:多方数据进入到中立国安全计算区,在PSI算法模块中,完成隐私计算求交,得到多方数据的交集部分。

3、多方画像统计:第一步,通过匿踪算法将交集数据进行模糊化处理;第二步,将模糊化后的数据取前7位id与各方环境中的数据进行匹配,补充各方的画像数据;第三步,将模糊化后的数据连同各方标签返回中立安全计算区,通过匿踪解密算法得到模糊化前的原始交集部分;最后,将最终交集部分的数据与多方画像数据,生成画像统计报告,输出到中立审核区。

4、统计结果输出:数据加工结果进入到联合计算平台的审核区,在经过各方审核后,结果输出到领事馆(私有区)输出域。

上述场景目的及实现路径上,从限制个人自由自主决定权、引发差别性待遇、个人名誉权、个人人身财产权等个人权益维度进行评估,依据 GB-T 39335-2020《信息安全技术 个人 信息安全影响评估指南》给出的判定方法及标准,结合其附录 D.3 中的《个人权益影响程度判定准则》及 D.4《影响程度判定表》,符合上位法及中国数安港制度要求,实现了“原始数据不出域、数据可用不可见”的价值追求。




隐私计算及数据交易合规之路展望

隐私计算依然处于行业基建期,隐私计算相关技术涉及复杂的密码学、算法、芯片、人工智能等前沿理论知识,研发及应用门槛较高。未来隐私计算技术合规发展是行业趋势之必然。2016-2022年Q1期间,中国隐私计算概念企业已累计融资超30亿元人民币,其中2021年占比超过60%,大量初创型隐私计算企业入场。随着市场竞争,百舸争流推动数据可信流通范式的建立,隐私计算的市场价值将进一步释放。隐私计算的积极高效发展需要全行业理性的技术期望,防止应用泡沫和资本泡沫的诞生。

数据交易与证券交易或商品大宗交易具有极其相似的本质属性。2020年4月10日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》正式公布,分类提出了土地、劳动力、资本、技术、数据五个要素领域改革的方向,数据作为一种新型生产要素写入文件。大数据不仅是重要的生产资源,更是与金融、能源、粮食、科技一样涉及到国计民生,对国家长治久安和综合国力竞争具有极端重要的基础核心性。为确保数据安全跟数据主权,保障广大人民的基本权益,大数据行业建立完整的行政监管体系尤为关键。中国各地方政府如雨后春笋般主导建立各类大数据交易所(如中心、平台等),便是推动数据交易由“场外”转向“场内”,建立合规高效的数据要素流通和交易制度,建设规范的数据交易市场。只是目前受困于法规政策“场景不明、红线不清”、交易所未充分发挥自身运营能力、交易所本身对隐私技术理解与储备不足等因素,才形成“场内不香场外香”的临时局面。

中国的证券市场在80年代后期起步时只有场外交易,这一点与2014年前中国的数据交易市场的发展过程是一致的。1990年12月19日和1991年7月3日,上海证券交易所和深圳证券交易所相继成立,证券交易开始在交易所内集中进行。至今,我国资本市场从沪深主板成立开始不断发展,2004年,深交所中小企业板成立;2009年和2019年,创业板和科创板分别成立,新三板(全国中小企业股份转让系统)和区域性股权市场的成立;2021年北交所成立,涵盖主板、科创板、创业板、新三板以及区域性股权市场的多层次资本市场体系基本确立。中国的数据交易市场才刚刚起步,未来可期。

另一方面,大数据交易所不宜简单模仿类似证券、期货之类的商品交易所,数据不同于股票和期货合约,其存在形式无法像股票形成高度标准化的产品样式(如优先股、普通股等),数据的区分维度和类型可能有上万种,且数据交易涉及个人信息保护部分无法普适性地提供给任意数据需求方,有学者建议大数据交易所应结合类似房产中介特别是婚姻介绍所的中介与撮合模式,进一步形成特色的产业形态,如浙江省发起设立的大数据联合计算中心,全方位保障数据价值发挥,从源头的数据使用方需求挖掘,到数据提供方的交易撮合,进一步联合技术底座服务方和第三方数据安全评估机构,推进数据安全技术研发与流程创新、数据产品交易、数智产业孵化、全流程合规法律服务等功能建设,系统构建从数据采集、数据治理、计算分析、流通交易到争议仲裁的闭环体系,构建一套数据安全与合规体系,制定一套产业数据产品和服务市场化交易制度,探索体制机制与法规制度的创新突破,正形成产业数据价值化改革的范例。

鉴于大数据因“大”而蕴含无限潜力,需要多方汇集才能发挥规模效应,笔者判断场内交易方式将是未来数据交易的主要形态,未来场内交易也将形成类似证券市场各具特色的地方交易所(甚至交易所也会形成特色的名称和组织形态),与场外交易形成多层次数据市场。只是当前国内数据交易所等中介交易模式处于初步探索阶段,尚未形成成熟操作模式,一些诸如数据确权、定价机制、安全保障机制等前置条件尚未解决,场内交易模式还有很长的一段路要走,亟需政府、市场主体、社会各界一道探索。







为方便阅读已省去原文脚注

    辑:秦瑞翰



      2018年9月,北京大学法学院应广州开发区的引进邀请在该区成立了北京大学粤港澳大湾区知识产权发展研究院。

      研究院依托北京大学法学院的资源,以国际化、前瞻性视野致力于粤港澳大湾区的知识产权战略研究、政策咨询、国际合作、高端培训,为粤港澳大湾区政府及企业提供前沿科技创新、新型产业发展、海外知识产权维权等法律与政策咨询,旨在成为大湾区科技创新与知识产权战略应用的智库型机构。

     研究院以北京大学法学院、知识产权学院的教授、博士后、博士生、硕士生为基础,广泛吸纳粤港澳大湾区高端知识产权人才,目前已形成一定规模的稳定研究团队。同时,聘任多名国内外具有影响力的知识产权学者、实务工作者为专家委员,为研究院的学术研究、学术活动提供专业支持。研究院不仅为法学院“知行合一”的办学宗旨提供了实践平台,也为社会和产业发展提供了理论支持。






继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存