查看原文
其他

数字政府隐私计算落地案例介绍

张黔荣 DataFunSummit 2024-01-09

导读:本文将介绍数字政府隐私计算相关背景,技术路线,以及一些落地案例。

全文目录:

  • 背景介绍

  • 技术路线

  • 案例分享

  • 落地难点

  • 建议思路

分享嘉宾|张黔荣 启明星辰 数据安全专家

编辑整理|刘倩 浙江工业大学

出品社区|DataFun



01
背景介绍

早在 2018 年,关于数据可用不可见等各种概念已经提出,当时数字政府领域的厂商和互联网公司提出的是可信共享交换这个概念。当时底层用的是沙箱来实现数据可用不可见。后来在国务院办公厅发布了<公共数据资源开发利用试点方案>,以及后面十四五规划的数据要素化的一些文件出台以后,带动了整个隐私计算行业的发展。所以现在从技术和可行环境来看,沙箱技术比多方技术和联邦学习要相对落后。

各地的法律法规,各种数据应用条例,数据开发条例也纷纷来支持数据开发利用,提供数据服务和数据产品的加工。所以从条例和政策的角度,是想解决数据的权属和安全问题。隐私计算在计算环节里面能保证数据权属,能够最大化释放数据的价值,为各个数据的提供方和需求方提供安全,减少顾虑。

02

技术路线

1. 隐私计算技术

从现在各地政府招标的项目和规划设计来看,会尝试使用多种技术来解决数据开发利用和数据流通的问题,也有一些地方提出,在数据做好分类分级之后,对低敏感的数据用可信执行环境和安全沙箱来解决,而中敏感的数据可能用多方安全计算这种技术来解决,对于高敏感的数据,可能用联学习再加部分的同态来解决数据的共享交换问题。

2. 多方安全计算

关于信任基础,对于多方安全计算,信任的是底层的密码协议。

3. 联邦学习

对于联邦学习是保证本地数据不出库的信任机制。

4. 可信执行环境

对于可行执行环境,不管是软环境还是硬环境,信任的是芯片和构建的沙箱环境。

5. 安全沙箱

对于安全沙箱来说,信任的是封闭、安全、自由的计算环境。

对于不同的技术,在具体实施落地时,有一些不同的需要注意的问题。比如安全沙箱,最大的问题是安全沙箱放在哪里。政府与银行合作的项目,数据都要进到沙箱,那么沙箱是放在政府端,还是放在银行,还是构建一个分布式沙箱,因为数据进了沙箱之后还是需要解密的,沙箱里面的数据在计算完成之后,是否能够把原始数据释放掉或者消除掉。

03

案例分享

下面具体介绍几个数字政府案例。

政府领域是对外赋能的,而金融领域可能是对内的,政府数据相对来说价值含量比较高,但政府内部数据共享确实存在难点和痛点。目前大多是通过共享交换平台来进行数据共享交换,但是对于一些委办厅局不愿意把自己敏感度比较高,或者价值含量比较高的数据共享出来,可以通过隐私计算平台或者隐私保护技术来共享。

1. 政府内部数据共享

第一个案例是某自然资源厅的个人不动产数据调查,需要核查领导干部的一些房产信息,但核查时,不能让自然资源厅的相关人员知道到底查的是谁。为避免发生泄密事件,现有的查询的手段和方式为,同步一份自然资源厅的不动产库,直接同步到组织部或者是监察委。还有一种方式,是通过拿专线的方式对接过去,但是这时候会存在一个问题,需要定期更新组织部不动产的数据库,这就造成了更新的问题、传输的安全性问题、以及耗费大量人力和物力的问题。所以当时该自然资源厅就提出用隐私计算隐匿查询的功能来帮助组织部去保护查询人的信息。但是这时候还会引出一个问题,就是隐私计算的接入节点对接的是自然资源厅不动产的数据库或者缓存库,接入节点对接不动产数据库和缓存库时是有读写记录的,关于这一点,其实在隐私计算和不动产库的读写过程中,需要加入混淆的手段,比如可以同时读取 N 多人的查询记录,或者是加一些不是想查询的人的一些记录。所以在这个方案里面,如果不做查询多个人的这种手段,那么保护的只是从不动产数据库到组织部门的查询页面的中间过程。所以从考虑到端对端完整性的角度来说,对接不动产数据库的查询输入查询条件的时候需要做一些相应混淆手段和安全手段。

这个案例是具有可复制性的。从公开的信息里面可以看到,湖南其实在 2019 年就已经启动了不动产登记的共享交换系统,已经与组织部、监察委、民政厅进行了对接。现在对接的方式是基于明文的方式来进行共享交换,隐私计算厂商在与湖南的政府部门探讨用密文的方式来帮助他们更好地完成数据共享交换。

2. 政府与企业数据开发利用

政府与企业的数据开发利用,这是对外赋能的。金融机构需要政府数据,在没有隐私计算的时候明确提出需要原始数据,在政府没有大数据局之前,各家商业银行直接通过专线对接公积金中心和社保、婚姻、不动产等信息,政府直接把明文信息给到商业银行。随着安全法和个人信息保护法出台之后,各地的大数据局和一些相关的委办厅局担心商业银行把数据用于其他用途,根据现在国家发布的政策文件,个人信息保护法里面明确提出要尽到告知同意的义务,所以现在各家商业银行都会跑到大数据局去要个人消费贷或者是中小企业贷款的数据,也愿意提供有偿的数据服务,但是大数据局作为数据的持有方,需要对原始数据的权属和价值来进行保护,可以通过隐私计算平台把各类的关于个人或者企业的政务数据加工成数据产品。比如在这个案例中,就加工成了个人信用评分,然后给到商业银行。

在这个案例中,存在一些困难,首先就是大数据局本身不懂金融业务,隐私计算厂商也不懂金融风控的业务,在这样的情况下,一般都是让银行来提出他需要的业务模型。但是这个业务模型大数据局还得进行审核,比如提的模型直接就可能会把原始数据给拿走,所以在商业银行提出的个人信用评分模型,需要由大数据局来进行审核,审核同意之后才可以让隐私计算平台读取数据来进行计算把结果给到银行。

对于银行来说困难程度也不低,因为原来是直接拿原始数据到风控模型里,但是一旦把个人信用评分这个子模型拆出来,对原有的业务模型会产生影响。各家银行的风控模型都不一样,有些会影响比较小,有些可能就得重新调参数,对原有的风控模型影响就比较大,所以这也是在具体落地时会出现的难点,涉及到银行内部业务部门、技术部门之间的沟通和协调。因此在这个案例中,需要商业银行和大数据局达成共识,通过隐私计算来开展相关的业务,才能保证项目顺利落地。

在具体操作过程中,还需要考虑数据质量问题。商业银行要去核查纳税局的数据是否符合要求,数据准不准,所以在上线的时候,还需要隐私计算平台对大数据局的数据质量做一次核验,目前业内大部分隐私计算平台都没有针对核验的功能,所以采用线下的 MD5 校验技术来对大数据局的数据和银行存量客户的数据来做一次核对,核对完了之后,双方对数据数据质量的结果都比较满意,业务模型也经过了大数据的审核,再由隐私计算的厂商把业务模型写到平台上,当然也可以由银行的技术部门来通过隐私计算平台的开发工具写到平台上。这一过程对银行来说,保护的是银行的模型参数,对大数据局而言,保护的是公积金、社保、婚姻等原始数据。一般部署形态会有几种方式,一种方式是分布式的,有几个计算节点在银行,有几个计算节点在大数据局。还有一种方式就是如果银行充分信任政府的话,可以把计算节点都放在政务云或者政务外网这一端。如果大数据局足够信任银行,也可以把节点都放到商业银行。部署方案根据各方具体需求来灵活落地。目前大数据局跟商业银行之间最好还是采用专线来进行对接,考虑到任务调度和计算的准确性,通过专线比较稳定。

3. 公共数据运营平台

公共数据运营平台是在政策文件十四五规划市场要素改革配置意见明确提出来的,政府可以授权单位来进行公共数据的运营。成都授权的是国有企业,海南省大数据局授权给了中国电信,合肥授权给了合肥大数据公司,所以合肥、成都和海南的案例,政府单位还是授权给了国有企业,政府单位在这个过程中,是作为监管单位,各家承接的公共数据运营的公司或者平台承担的只是数据运营职责。但是目前看到的业内的公共数据运营就是这几家单位,都是做了一个网站,招了一些数据服务商,数据提供方,还有算法提供方以及数据需求方购买方等等,从上架的产品来说,大部分还是一些软件类或者是接口调用类,其中关于隐私计算提供的产品数量还是比较少的。根本原因就是确实现在没有一个专业的队伍对公共数据到底提供什么样的数据产品服务有一个清晰的认识,第二就是公共数据运营平台的设计和跟业务需求方的对接会存在沟通问题。总体来说目前全国各地大体的模式就是政府会授权给某一家单位,由这个单位来进行公共数据的运营,运营的收益是给到相关的国有单位。关于数据的买卖和定价可以以市场的形式或者是协商的形式来对数据产品进行定价,不管价格高低都归属国有资产,也解决了防止国有资产流失的问题。从政府角度考虑,承担监管就是等于是把监管权和运营权分开了,就能防止政府既当裁判员又当运动员的状态。

4. 数据交易所/中心

最早北京提出利用隐私计算来构建数据交易 3. 0 模式,后面上海数据交易所也将隐私计算纳到数据交易体系的技术范围,广东相对谨慎一些,还是希望做公共数据的认证。比如广东发了公共数据资源的凭证,而具体的数据运营会交给广东省数据交易中心或者是委托的单位来做,而政府只做认证和确权相关事情。深圳目前打算构建的是沙箱模式,就深圳市交易公司提供交易平台,各方数据放到这个交易平台里面来进行开发利用,这个交易平台可以保证数据安全,深圳确实以隐私计算和各种安全手段来保护了数据权属,为了让更多参与方参与到平台上的运营。

04

落地难点

目前隐私计算在行业内落地相对来说比较困难,不管是在数字政府领域还是金融领域。

  • 第一个问题就是经济的问题,目前试点项目的金额比较少。同时目前行业内的各个厂商的开发人员成本,去各地拓展项目的成本,以及他去做 PC 和技术验证等等相关成本比较高,有很多的项目都是亏损的,再加上目前隐私计算的厂商越来越多,行业内竞争越来越激烈。

  • 第二是安全性问题,在跟政府单位去沟通时都会面临到如何证明平台是安全的,不管是多方安全计算还是联邦学习,数据是否不能被攻破,如何证明在计算的过程中数据不能被别人拿走,目前各个厂家确实没有办法来自证清白,也没有权威机构有相关的安全认认证。

  • 第三是实际应用场景的问题,现在隐私计算的厂家大部分精力和投入全部投在平台上,而没有相应的业务人才去帮客户梳理业务。各个参与方协调起来比较困难,比如政府内部有各个处使,银行有科技部门、业务部门、研究院等部门。需要各方沟通,场景才可能落地,而且落地的场景确实要解决数据需求方的问题,别人才有可能会买单,或者是认可平台。

  • 第四是平台性能和友好性的问题,对于政府单位来说技术开发水平相对较低,现在的平台使用起来较复杂,购买意愿不强。目前在落地的项目里面,都是由隐私计算的厂商来提供的数据模型的开发服务放到隐私计算平台上。大多数隐私计算平台都是基本功能,并没有解决政府部门关心的业务流程。

05

建议思路

政府行业内非常关心业务流程,而对于底层技术的关心程度并没有那么高,所以建议各个隐私计算厂商的开发人员可以更加关注业务层,去帮助客户更好地使用平台。

  • 数据管理功能:数据管理功能现在大部分厂商都会有,因为要对接数据,应着重考虑产品对接,以及平台在政府的整个信息化系统架构中所处的位置。

  • 数据分类分级:通过分类分级,判断是否该用隐私计算平台来进行计算,还是用沙箱,或多方安全计算,亦或是联邦学习来进行计算。

  • 数据的确权与授权:比较复杂。

  • 数据服务开发:如果从面对不同场景使用不同的隐私计算的技术来说,确实在数据服务开发里面的开发工具还需要统一接入平台来对接底层各类计算平台。

  • 数据供需对接:目前从各个平台来说,数据的供需对接仅仅停留在申请什么数据,提一个表单,给到数据的需求方,未来需要更精细化,以提供给客户更好的体验。

  • 安全管控和合规审核:真正的模型审核目前还难以用技术手段实现,基本仍是人工审核,无论是用人工还是用智能化的手段,这个环节在数据流通的过程中都是必不可少的。

  • 数据安全网关:数据计算结果如何给到数据的需求方,需要对这些接口进行管理,并对流量进行监控,一旦发生数据泄露事件,需要对接口进行熔断保护,可以上到区块链平台上,也可以存在自己的库,有一些厂家是以区块链的合约来驱动隐私计算的任务。

06

精彩问答

Q1:国内隐私计算公司未来的发展情况会是什么样?

A1:我所了解的一些情况是,目前隐私计算的厂商大部分都在转向做数据服务了,它们需要给政府单位,客户提供一个明确的解决方案,客户才会买单。另一个方向就是开源,这是往技术层走的。大部分厂商为了收入和利润,还是走的数据服务方向。

Q2:一般而言,数据质量有问题,是指数据不准确甚至有错误,如果原始数据就有质量问题,是很难发现的。但是在案例二中通过 MD5 对比就能判断数据质量,这个能解释一下吗?

A2:首先,如果数据质量问题出在原始数据上是没法解决的。但是,银行自己有一些存量数据,可以用自己的存量数据与政府数据来做比对,而这仅仅是做一个比对,不能解决原始数据的质量问题。银行作为客户,如果对质量认可,就愿意买单,否则可以要求再去做数据清洗和治理,再做比对。

Q3:数据运营会不会造成个人隐私数据泄露,分析的时候如何保障?

A3:个人隐私数据是要经过授权的,政府单位有要求,是需要个人授权,隐私计算才在具体的场景里面进行服务,如果没有经过个人授权,政府一般是不会把个人数据给到相关单位的,这一点可以放心。

今天的分享就到这里,谢谢大家。扫码查看【数据安全与隐私计算峰会】视频回放👇


|分享嘉宾|


张黔荣

启明星辰 数据安全专家

张黔荣,启明星辰集团数据安全专家,牵头落地多个数字政府隐私计算、区块链等项目落地。目前在启明星辰负责集团数据安全体系、架构及项目咨询工作。


|往期文章推荐|

数据治理隐私计算大数据存储大数据计算

智能金融多维分析大数据架构产品经理

搜推广知识图谱NLP智能风控数据科学

原创经典图机器学习AI基础设施数字人与多媒体

|免费直播&资料|

# 直播推荐 #

💬:多场景建模在淘宝推荐召回阶段的落地实践

⏰:12/29 19:00-20:00

🔗:扫码进群观看直播


# 免费电子书 #

📁:联邦学习综合应用

⏰:领取截止 2023.1.8 23:59

🔗:扫码回复「联邦学习」查看领取方式

|DataFun新媒体矩阵|

|商务合作|

|关于DataFun|

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。


🧐 分享、点赞、在看,给个3连击呗!👇

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存