我国数据流通规范体系加速构建
数据流通是指以数据或数据中蕴含的价值(信息内容)作为对象,按照一定规则从数据提供方传递到数据需求方的过程,即数据资源先后被不同主体获取、掌握或利用的过程。在数据要素市场建设的背景下,数据流通领域受到了空前的关注,各方均在积极探索参与数据流通,进而实现充分释放数据要素价值的目标。本章将介绍数据流通领域的发展历程、当前现状、主要特征和趋势展望。
(一)数据流通发展重心向“规范化”转移
数据流通是释放数据要素价值的关键一环。一方面,数据具有外部性,即同一组数据可以在不同的维度上产生不同的价值和效用。借助数据流通数据可以在不同的数据接受者一方与自有数据汇聚,不断开拓使用维度,数据价值也将在社会面层层放大。另一方面,数据存在分布不均衡的问题,企业采集的数据通常具有较强的行业属性,特征不够全面,同时中小型企业收集的数据样本量较少,难以支撑业务。数据流通为利用数据的外部性,解决数据分布不均衡的问题,充分释放数据要素价值提供了有效手段。
数据流通随商业信息分析需求增强而日益旺盛,合规性逐渐引起关注。1841年,邓白氏集团(D&B)率先将各种商业信息收集汇聚,构建信用评定的数据指标体系,“数据服务商”的雏形初现。2000年左右,随着互联网领域的迅速发展,企业对于数据的采集与流通需求进一步增强,例如谷歌就借助了AdSense获取大量用户行为数据用于优化其广告投放效率并以此获利,这也带动了后来广告营销场景的大量数据流通活动。2008年,随着Infochimps、Factual、DataSift、Datahub、Acxiom等一批知名专业数据服务商相继涌现,现代意义上的数据流通正式形成。在这一时期,原始数据直接流通成为数据流通的主要形式,商业形态也较为原始粗放,有较高的合规风险。2014年后,贵阳、上海等为代表的一批具备官方背景的数据交易所成立,银行等金融机构开始大量引入外部数据,数据流通需求广泛提升,API接口调用的数据流通形式逐渐增多。与此同时,数据流通的合规性逐渐成为业界的关注点。
制度创新和技术创新双轮驱动数据流通行业实现“规范化发展”。制度创新方面,2022年6月22日中央深改委第二十六次会议强调“要促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系”,为我国数据流通产业发展提供了重要思路。技术创新方面,以隐私计算为代表的数据流通技术提供了“数据可用不可见”、“数据可控可计量”的数据服务新范式,在保障数据安全前提下实现了数据流通效果,从而为需求方企业安全地获取和利用外部数据提供了技术可能。
(二)当前数据流通发展呈现四大特点
1. 数据流通规则逐渐清晰
由于数据流通存在技术依赖、非标准化的特点,面向多元数据主体和多样数据流转形态,参与流通的供需双方需要科学、可靠且共识的规则体系,才能建立信任。现阶段,从政策指引到应用实践,各方均在积极探索建立健全数据流通规则。在政策指引方面,2022年内发布的一系列政策文件(如表3)中均提出了建立数据流通规则的相关内容。在实践探索方面,各地方、各行业、各类市场主体也在实践过程中积极探索数据流通配套规则。例如,贵阳大数据交易所于2022年5月发布一系列数据交易规则,为交易主体权责划分提供依据,并依据规则为数据产品、数据商、第三方数据服务中介机构等提供登记凭证,以确认数据和主体具备进入市场交易的条件,探索解决市场主体互信难的问题。
表 3 2022年数据流通规则建设相关政策清单
来源:中国信息通信研究院
2. 流通参与热情高涨,供需对接向多行业扩展
随着数字化转型的不断深入和智能化水平的不断攀升,企业参与数据流通的热情空前高涨,数据流通的供需方从金融、互联网持续向其他行业扩展。
金融、互联网行业的流通实践不断深化。金融行业中,风险控制要求极为严格,各大金融机构以雄厚的资金实力做支撑,早已成为数据要素市场的主要参与者。互联网行业中,许多头部企业已对外提供众多数据接口或数据产品,以满足中小互联网企业或其他行业研发应用、精准营销、智能服务等需求。调研显示,当前金融机构及大型互联网企业普遍建立了统一的部门或团队管理外部数据,头部企业每年的外部数据采购额已经达到了亿级规模。根据推算,仅银行及互联网金融行业的外部数据采购额即可突破百亿规模。
其他各类传统行业也在不断探索参与数据流通。工业领域中,数字化转型刚刚起步,还需经历产线内数据联动、工厂内数据协同、企业内数据共享、企业间数据流通等多阶段探索。目前,国家工业互联网大数据交易平台已处于内部测试阶段,着力解决工业企业数据流通的难点,促进工业数据要素市场发展。此外,政务、气象、交通、医疗等行业和场景的数据需求也逐步显现,相应公共数据的开放或企业数据的供给获得更广泛的关注。
3. 安全流通技术重要性凸显
在合规要求日趋收紧的背景下,能够提供合规前提下充分挖掘数据价值、促进数据流通的各类技术解决方案受到了业内的广泛关注。
数据脱敏与数据合成技术主要作用于数据流通的输入阶段,能够有效降低原始数据中包含的隐私信息泄露风险。当前,脱敏技术从基于SQL脚本的人工脱敏,自动化、流程化的平台脱敏,逐渐走向了应用机器学习等技术的智能化数据脱敏阶段。但是,目前该技术仍面临降低数据价值、无法明确是否满足法律要求以及无法有效防止数据复制和篡改等问题。数据合成技术仍处于初级探索阶段。在应用实践方面,医疗、金融、通信领域的相关企业如Illumina、J.P.Morgan、Telefonica等都引入了数据合成技术试图解决数据隐私问题。
隐私计算作用在数据流通的输入、计算、输出阶段,实现了全流程的数据“可用不可见”、“可控可计量”。现阶段,隐私计算已成为最有希望解决数据安全流通问题的关键技术。全球知名咨询机构Gartner已连续两年将隐私计算(其称隐私增强计算)列为了重要战略科技趋势。根据中国信通院调研显示,自2018年以来,包括综合科技、大数据、金融科技、人工智能、区块链、云服务、信息安全等类型的企业纷纷入局隐私计算赛道,累计孵化出100余款产品,广泛应用于金融、通信、互联网、医疗、政务等领域。
区块链为数据流通中的验证、追溯、审计提供了有效保障。将区块链与其他各类数据安全流通技术相结合,能够为数据溯源、交易存证、数据侵权举证等数据市场化等问题提供可行的解决方案,实现数据流通全流程可验证、可追溯、可审计,并为进一步建设高效、高安全和高流动性的数据要素市场打下基础。
4. 数据流通产品形态逐渐向个性化定制方向转变
随着各行业企业逐渐对业务进行数智化升级和改造,数据应用的场景不断丰富,数据流通市场逐渐从“以数据产品为主”向市场驱动的“以数据需求为主”转变。数据提供方趋向以数据需求作为入口与市场和用户接触,根据需方企业的个性化需求提供针对性更强的解决方案,反向带动数据流通的活力。以最早挂牌新三板的数据源服务提供商数据堂为例,其商业模式可以概括为两个方面,一是大数据交易平台,二是面向B端客户提供定制化数据源服务。再如科创信息、百融云创、神州泰岳等我国大数据服务领域的头部上市企业,无一不是通过提供定制化服务快速占领细分领域市场,根据现实场景构建适合企业自身的大数据体系。
(三)数据流通面临的主要挑战与发展趋势
当前,数据流通尚未充分激活,主要原因在于我国数据要素市场培育的基础还不扎实,在数据流通相关的权利关系、价格机制、行为规则、技术支撑等方面仍存在诸多障碍,使得数据的供给和需求都存在一定障碍。一是数据权属界定的场景与问题复杂,对于参与数据流通的主体权利关系,理论、制度和产业实践层面均尚未形成共识。二是数据的估值定价尚缺乏科学、标准的评价方法,传统的估值定价方法很难完全适用于数据流通的特点。三是数据流通的准入、竞争等行为约束没有清晰的法律界定,配套的激励和监管规则也不完善,相关市场主体顾虑很多、动力不足。四是隐私计算等数据流通关键技术应用还不成熟,数据安全流通的技术方案仍需持续探索。
因此,对于参与数据流通的企业而言,需重点关注两大问题。一方面,如何稳定本企业的数据供应链。外部数据如何持续、稳定地被获取,如何不断提升数据的质量,如何管理好引入的外部数据,成为企业在数据流通中关注的重点。中国信通院云大所构建的外部数据源评估标准和外部数据管理标准,就试图为这一领域提供值得借鉴的经验。另一方面,如何深刻地参与到国家数据要素市场建设之中。数据如何对外提供,需要满足哪些责、权、利方面的程序,如何更高效、更低成本地参与到统一大市场中的数据流通环节,成为企业面临的新命题。
未来,数据流通领域呈现以下三点趋势。
一是公共数据开放带动数据流通供给。“以高价值公共数据为突破口,强化政府的引领作用,带动商业数据供给”已成为解决数据供给不充足,激活市场主体内在动力的最为紧迫的任务之一。近年来各地方政府在政务数据开放平台建设方面积极推进,取得了良好成效。未来,针对已有的公共数据开放,应明确公共数据开放规则,建立公共数据开放的社会需求受理渠道,基于公共数据开发利用清单,结合应用需求建立公共数据开放动态调整机制,推动公共数据有序开放。针对各地正在积极推进的非个人数据授权运营,应在规范的基础上持续创新,一是加快规则建设,二是鼓励市场主体参与,三是强化数据安全保障。此外,还需持续探索创新思路,推动公共数据产品通过数据交易场所挂牌上市,探索公共数据资产登记,创新公共数据供给形式等。
二是场景化的技术分级框架将促进数据安全流通实践落地。各类安全流通技术的使用往往会带来数据应用价值的损失。一般来说,随着数据可控程度的提升,数据应用价值的损失也会进一步增大,两者之间难以兼顾。在数据流通过程中,各应用场景对应的参与方信任程度不同、数据类型不同,这造成了其需要达到的数据可控程度也是不同的。一味的追求高安全水平可能会造成数据流通价值无法达到预期,降低了各主体的参与积极性。在未来的数据流通实践中,参与主体也应结合实际业务需求,基于场景选取适当分级条件下的技术方案,实现数据可控程度和数据流通价值的最大化。
三是可信流通体系将为数据有序流通提供条件。可信流通体系旨在为有序的数据流通提供信任,全面提高数据可信、可用、可流通、可追溯水平。近几年,以数据为主要驱动的行业,特别是金融和互联网行业的头部企业,都在构建自己的可信流通生态圈。一方面,根据业务需求划定数据供方,确保数据源的合法合规、持续供应、安全可靠;另一方面,提升数据引入后的应用管理水平,通过构建组织架构、明确各部门职责要求、建立和实施系统化制度、流程和工具等方式,全面统筹外部数据的需求和使用。未来阶段,企业与行业间的可信流通生态需要融合打通,形成规范的可信流通体系,重塑数据流通规则、重组数据流通资源,重建数据流通渠道,在提高数据流通效率的同时实现对数据流通全流程的动态可控。
本文节选自中国信通院在第五届“数据资产管理大会”上发布的《大数据白皮书(2022年)》。
报告介绍及全文下载链接如下:
中国信通院云大所数据流通团队自2016年开始关注并研究解决国内数据要素流通面临的各类制度性、技术性和实践性问题,始终致力于推动数据要素安全可信流通,支撑我国数据要素市场建设。陆续承担多份数据要素领域重大政策文件和地方规划支撑工作,打造可信数据流通、可信隐私计算等评估评测体系,围绕公共数据运营、企业数据交易、数据合规及隐私计算技术应用等方面为各政府企业提供研究咨询服务。
联系人:
袁老师 yuanbo@caict.ac.cn
吕老师 lvailin@caict.ac.cn
中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!
入会咨询:白老师 13520285502
baizhimeng@caictyds.cn