公共数据开放、 资产化管理与交易实践探索
主要观点:
公共数据不仅包括公共组织的数据,还应包括其他组织在提供公共服务中收集、产生的涉及公共利益的各类数据;公共数据开放可分为无条件开放和有条件开放,面向特定企业、场景和环境进行数据有条件开放,是推动数据要素市场化进程、释放数据价值的重要手段;数据是多方参与、多步骤形成的,不能用单一所有权进行界定,需要清晰界定数据中的多种权利类型和各方份额;数据交易所要解决的核心问题是为供需双方提供信任背书,以及推动公共数据的价值释放。一
公共数据概念界定
对于公共数据的定义,以前是从机构来定义,赋予公共职能的组织产生的数据叫公共数据。新的《网络数据安全管理条例(征求意见稿)》在此基础上补充了后一条:还包括其他组织在提供公共服务中收集、产生的涉及公共利益的各类数据。公共数据的概念从指定的公共机构便成了更大的单位,除了公共机构之外,还有掌握大量公共信息的公共服务平台公司、社会企业和媒体,其实它们有些数据也是公共数据。
二
国外公共数据开放新动态
公共数据开放,国外有一些新的动向,以美英欧为代表的一些国家,提出了数据信托、数据中介,这些其实也是一种新的共同数据开放形式。
数据信托:核心是基于数据主体的委托而设立数据信托机构,且依据公共利益、个人利益、减低风险等不同的目的,或依据城市管理、健康医疗等不同的场景,形成不同的数据信托机制,采用相互合作的方式开展信托服务,构成数据信托生态。
数据中介:一般是指以中间人的身份帮助促成数据源到数据使用者之间数据流动的机构。“数据中介”在不同场合也被叫做中间人、数据聚合机构、数据经纪人等,其功能主要帮助收集、汇聚和销售数据源提供方的数据。欧盟《数据治理法案》(草案)也提出“数据中介”的概念,旨在促进任何类型的数据持有者(个人、企业、公共部门机构、学术或非盈利组织)与使用者之间建立联系,低成本共享和交易数据。
三
北京市公共数据开放实践
(一)公共数据开放和应用
关于公共数据,我们认为公共数据包括政府的一些数据。其中,内部使用和共享,政府内部有一套内部管理体系,这不是我们今天讨论的主要内容。我们更多讨论的是第二部分——公共数据开放。对于公共数据开放,我们的理解是有一类数据是面向大众、公共企事业需要无条件开放的,还有一类数据是面向某些有需求企业有条件开放的,这类数据是某个企业或者整个行业所需要的。
这里涉及到公共数据价值释放问题,如果所有公共数据无偿面向社会,这是不可能的。这个公共数据中包含企业商业秘密,国家不可能把数据拿出来让大家使用,那怎么办?办法是让社会上有能力的企业来运作,在一个比较小的、安全范围内,让企业在这个安全环境下、有条件地使用这些数据。例如,北京建了一个公共数据开放创新基地,把一些重要的数据(比如医保数据)放到这里,让医保公司在政府安全的环境下使用数据、训练模型、形成产品。
政府能不能自己来做这个事情呢?政府自己投入资金,加工处理,形成产品,再向社会提供服务。从政府目前的职能和能力来说,这个工作是做不好的。要想发挥这些数据的更大价值,除了政府内部使用外,要更多的拿出来,经过一些处理、分解、加工、形成产品,面向社会发挥作用。这样的做法可以直接推动数据要素市场化进程。公共数据价值非常高,政府如果按照以往的模式做,是做不好的。举例来看,某单位前几年就开始做出租车叫车软件,建设运维要花上百万元,滴滴等社会上软件一上来,这个软件基本没人用。
在公共数据开放基地中,司法、医保、企业数据等放在里面。政府命题后,企业自主选题,社会数据可以被融合在一起开发利用,形成相应的服务。最典型的是我们去年和医保局做的智慧医保竞赛活动。医保局出了两方面的题:一是医保资金监管;二是宏观决策。将一年一千多万人口的医保脱敏数据用于这次活动,通过初赛和复赛选定一些企业,针对那两套题和政府自选的题目做创新模型,产生了很好的效果。
北京医保局推出“普惠保”。政府向保险公司开放医保参保数据接口,通过数据专线核实确认投保人在京参保状况。这是一个北京参加医保的一个福利,每人每年只要交195元保额,每年可获保100万,最高可赔你300万,优惠条件非常高,保障范围很全面,包括自费药、特殊药。对于有既往病史的,比如现在患有癌症等。
从去年开始北京开始建立第一个公共数据授权运营专区-金融公共数据专区。授权一个有资质的企业,北京金融集团运营。在这个专区环境下,原始数据不能出专区,政府对专区运营活动是严格监管的。开放数据的类型、价值也是比较高的。比如,市场主体的登记、纳税等。但在这个专区里,运营企业对数据加工处理后,就可以进行下一个环节的交易服务。数据加工处理后形成产品或服务,再向一些银行等金融机构提供金融产品相关的服务。如提供一些信用报告。银行用信用报告的结果处理实体经济、小微企业的贷款问题。原来它们是抵押贷款,而现在实现了信用贷款。
截止去年底,几个月时间内通过银行向北京小微企业发放的贷款金额已达到一千多亿,直接支持了北京实体经济的发展。在这种情况下,把高价值数据放在政府监管范畴内,充分挖掘价值,企业也会把社会数据融合到公共数据中去,最后形成服务产品和信用报告等专项服务。在使用个人信息服务过程中的完全获得个人的授权,是合规的。在这个过程中,也要求专区运营机构可以收取数据加工费用,也可以收取购买社会数据的费用,但政府给提供给它的数据不能收费,在成本核算时需要审核产品的定价。这也说明了公共数据开放在要素领域发挥了作用。没有直接卖数据,也不是通过卖数据来产生效益,而是通过这个操作让银行把数据成果放大,直接帮助实体经济的发展。
(二)数据资产化管理
数据资产化方面,也在做一些探索:一是区块链,二是安全计算,在新的数据资产产生过程中起到的作用还是很大的,我们很早之前做了一些论证分析。数据资源不是无形资产,也不是知识产权,而是一种新型资产。数据走向市场肯定要有登记环节。
数据确权难,其实是在纠结所有权和单一权范围。数据是多方参与,多步骤形成的数据,非要把它确成一个人的权利或者确成一种权利,肯定是作茧自缚。数据的权利有多种,所有权、使用权、加工处理权,各种类型不一样。数据确权不一定是所有权,也不是一家所有,当下确权考虑更多的要清晰某一种权利的类型和份额。数据确权的过程不是把数据一定算成某个人的,或者就是某个人的所有权,而是在这个权利里面有这个人,也有那个人的。各种权利不一样,一个人有所有权,一个人有使用权。按照权利,合理分配收益。比如,房产证写得就很清楚,权利有两类,一类是土地使用权,一类是房屋所有权。确权时把这个确定出来,这个问题也就不难解决了。
另外,如何分配数据的价值更重要。房产问题就很典型,析清权属后,平时不发挥作用,但交易时,收益分配好就不会有矛盾。解决这个问题的方法也很多,有人用效用函数,国内姚院士用博弈论方法确定各类数据发挥的作用。总归,是有办法做的,最后大家形成共识,把权利记录清楚,产生收益,另外有区块链、智能合约等技术加持,实践中解决这些不是太难。析权中,收益分配环节在实践中是可以找出解决方案的。比如,一个数据可能拆分不同部分,有些部分有所有权,属于某各单位;有些部分加工处理后,比如我个人部分提交平台,形成一串数据,我提交的数据有我的人格权,但平台对它的加工、整理、处理,这部分权利应该是平台的加工权;还有一部分融合第三方数据,第三方数据也有它的权利;最后,数据确权时要进行拆分和分类,不同部分占多少百分比也可以确定。确定之后我们再用技术,只要整体数据集被使用一次,产生10元的收益按照比例进行合理分配。
从理论到理论,法律上讨论确权或效益分配无解。但是,拿到具体场合时,我们说的这种办法是可以行得通的。这里面有过程和技术的支撑,里面要有分解。下一步,考虑入股,对资产进行会计核算,也是可以尝试的。可能普遍的没有,但对于某种类型在实践中还是可以操作的。通过不断总结,一定程度后是可以拿出一套方法的。现在就拿出通用方法,财政部肯定不同意。
实践中,我们确实做了几个还可以的案例。比如,政府卫星影像数据,每年花一千多万加工处理后形成航拍数据。按照现在财务数据,这些资产不能入账。当时是用硬盘存储,硬盘设备几十万可以作为固定资产入账,但一千四百万的数据不能入账,价格也体现不出来,但我们每年都在用它共享和使用数据。从登记开始,采集、加工、核算,共享一次产生多少成本,是可以算出来的,是可以在财务报表中披露的。运维、归档、销毁都可以进行处理。不管什么形式,一个个做出来,让大家认可就可以。但要拿出通用的,我在其他另做的这个数据肯定不适用。
(三)数据交易
谈到数据交易,可以想到贵阳大数据交易所案例。数据交易最核心的问题是大家不愿意通过平台交易。我们都可以私下交易为什么通过平台呢?(互相不信任)在平台交易能带来额外的好处吗?这两个问题如果解决不了,交易所根本就干不下去。
针对这两个问题,第一,要让各方信任平台。信任不是简单逻辑上信任,而是实实在在的各方信任。我不愿意在私下交易,我怕有风险,我愿意到上面来沟通;第二,这里有一些我在私下交易做不好的。其实,公共数据在这里面就起到了核心作用。为什么说北数所要强调隐私计算?主要目的也是打通企业之间,境内外企业之间的关系。政府参与这件事情还是引导,强调隐私计算起到很大作用。建立信任需要政府背书,国有企业政府资金投入,包括拿出高价值数据,采购社会数据。高价值拿出来以后有什么效果?效果是高价值数据只能在这个平台上使用,而且交易各方可免费使用。这两类数据拿出后,当交易需要政府的第三方数据时,政府把短板补上,不收费用,促使双方完成交易,这样交易双方就在平台上获得了线下私下交易所获得不到的。
举两个如何建立信任例子。有一个公司——云医康,掌握了大量医疗影像数据,另一个企业需要这个数据进行人工智能模型训练,但双方互相不信任。如果影像数据给到这个企业后,可能面临数据被再卖的担忧,那云医康作为数据所有方,权益会受到影响。于是,我们搭建平台,来让他们相互信任。医疗影像数据脱敏加密后被用于模型的训练和验证。为了让数据使用方相信数据加密后并不影响模型的训练和计算,我们将部分原始数据给到百度等公司训练模型、验证模型,训练之后得出一个结果,然后用加密算法后的数据重新做,将两种状态下结果进行比较,最后发现,二者一致率超过99%。
也就是说,加密状态下和常规状态下使用数据效果基本一样,这样双方就相互信任了。数据提供方认为自身数据在加密状态下使用不会被别人拿走,也不会转移,只要使用方付钱即可。数据使用方也觉得信任了,因为使用原始数据和加密数据的效果一样,训练出的模型一样。
另外一个案例是业主贷。基于敏感信息向银行提供涉及到个人隐私和个人不动产登记信息的数据。这个贷怎么做呢?比如,某人去银行办房产抵押贷款,将房产证交给银行后,银行会核实房产信息,根据你的权利给你贷款。我们“业主贷”可以在线上进行,线上提出申请。比如,我要到商业银行贷款,在我授权后,银行可以查我不动产登记信息。授权一系列机构帮我做这个,金融公司会对其请求相关数据、房产信息通过隐私计算方式进行加密,而且在这种情况下计算出房产可贷款额度,把额度再反馈给银行。银行拿到额度之后,可以根据额度给申请人贷款。
在这过程中,不但没有泄露个人隐私,在一定程度上还保护了个人隐私。原来贷款要把房产信息拿过去,但通过我们这个环节,只要给出授权,隐私加密计算后给出额度,银行并不知道申请人有什么房子,但知道可以给你贷这么多钱。所有环节充分授权,尊重个人的人格权,你是知情同意下做的。我们觉得效果还是非常好的。
来源:清华中国电子数据治理工程研究院