查看原文
其他

数据要素专题分析:东风已至,加速启航

未来智库 2023-02-28

(报告出品方/作者:开源证券,陈宝健,刘逍遥)

1、数据作为新的生产要素,驱动数字经济高速增长

1.1、随着数字经济时代的到来,数据成为新的生产要素

生产要素是不断演变的历史范畴,土地和劳动力是农业经济时代重要的生产要 素。工业革命后,资本成为工业经济时代重要的生产要素,并且衍生出管理、技术 等生产要素。随着数字经济时代的到来,数据成为新的生产要素,是基础性资源和 战略性资源,也是重要生产力。与资本、劳动、技术等传统生产要素相比,数据生产要素的独特特征有三个:非稀缺性、非均质性和非排他性。打破了自然资源有限供给对增长的限制,为数字 经济的持续增长提供了基础和可能。

1.2、数据要素为社会发展带来新动能,加快了经济数字化转型进程

数字经济为全球经济复苏提供重要支撑。2021 年,测算的 47 个国家数字经济增加值规模为 38.1 万亿美 元,同比名义增长 15.6%,占 GDP 比重为 45.0%。产业数字化仍是数字经济发展的主引擎,占数字经济比重为 85%,其中,第三产业数字化引领行业转型发展,一二 三产业数字经济占行业增加值比重分别为 8.6%、24.3%和 45.3%。数字经济正推动 生产方式、生活方式及治理方式发生深刻变革,成为重组全球要素资源、重塑全球 经济结构、改变全球竞争格局的关键力量。

中美欧形成全球数字经济发展的三极格局。2021 年,从规模看,美国数字经济 蝉联世界第一,规模达 15.3 万亿美元,中国位居第二,规模为 7.1 万亿美元。从占 比看,德国、英国、美国数字经济占 GDP 比重均超过 65%。数字经济也成为驱动我国经济发展的关键力量。2021 年,我国数据经济规模达到 45.5 万亿元,较“十 三五”初期扩张了 1 倍多,同比名义增长 16.2%,高于 GDP 名义增速 3.4 个百分点, 占 GDP 比重达到 39.8%,较“十三五”初期提升了 9.6 个百分点。数据要素是数字经济发展的核心引擎。数据对提高生产效率的乘数作用不断凸 显,成为最具时代特征的生产要素。数据的高速增长、海量集聚蕴藏了很高的价值, 为智能化发展带来了新的机遇。协同推进技术、模式、业态和制度创新,切实用好 数据要素,将为经济社会数字化发展带来强劲动力。


2、国家及地方政策不断出台,数据要素市场迎来发展良机

国家层面政策不断出台,推动数据要素基础制度逐渐完善。2019 年党的十九届 四中全会指出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由 市场评价贡献、按贡献决定报酬的机制”,首次将数据列为新的生产要素。2020 年 4 月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,把 数据作为一种新型生产要素写入文件。2022 年 6 月,中央全面深化改革委员会第二 十六次会议审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》, 会议指出要要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使 用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构 建数据基础制度体系。

12 月 9 日,财政部发布《企业数据资源相关会计处理暂行规 定(征求意见稿)》,文件指出企业内部使用的数据资源,符合无形资产准则规定的 定义和确认条件的,应当确认为无形资产;企业日常活动中持有、最终目的用于出 售的数据资源,符合存货准则规定的定义和确认条件的,应当确认为存货。

《暂行 规定》的出台,有助于反映数据要素价值,有利于积极引导企业加强数据资源管理, 并为监管部门等相关机构完善数字经济治理体系、加强宏观管理提供会计信息支撑。12 月 19 日,作为我国首份专门针对数据要素的基础性文件,“数据二十条”—— 《关于构建数据基础制度更好发挥数据要素作用的意见》发布,为我国数据要素市 场建设起到“指南针”的作用,提出构建四个制度:建立保障权益、合规使用的数 据产权制度,建立合规高效、场内外结合的数据要素流通和交易制度,建立体现效 率、促进公平的数据要素收益分配制度,建立安全可控、弹性包容的数据要素治理 制度。

2022 年以来各地加快数据立法步伐,浙江、上海、江苏、山东等多地纷纷出台 数据相关条例(包括大数据条例、数据条例、数字经济条例),对数据赋能产业、 数据安全保护、数据共享等内容进行规制,以促进当地数字经济高质量发展。


3、数据要素产业链的关键环节:采集、存储、加工、流通等

数据要素市场就是将尚未完全由市场配置的数据要素转向由市场配置的动态过 程,其目的是形成以市场为根本调配机制,实现数据流动的价值或者数据在流动中 产生价值。从产业链的角度出发,我们将我国数据要素市场归结为数据采集、数据 存储、数据加工、数据流通、数据分析、数据应用、生态保障七大模块,覆盖数据 要素从产生到发生要素作用的全过程。据国家工信安全发展研究中心测算数据,2021 年我国数据要素市场规模达到 815 亿元,预计“十四五”期间市场规模复合增速将超过 25%,整体将进入群体性 突破的快速发展阶段。

3.1、数据采集:数据要素市场的基石

企业数据采集主要包括内部数据采集、外部数据采集和定制化数据采集等三种 类型。(1)企业内部数据。一是企业在日常经营活动中产生的数据。通过 Excel、数据仓库、数据库、 ETL 等技术进行储存和调取;政府部门和企业经营数据的采集主要与主体的信息化 水平、数据治理能力提升有直接联系,因此从上到下的整体设计,才能保证数据的 一致性、可用性。二是生产环节的数据采集。该环节主要通过物联网设备,如温度传感器、PLC 传感器、MES 等。但该环节数据采集主要受到两个方面的制约,一是部分机器没有 数据接口,二是存在大量异构的通信规范。

(2)外部数据采集。企业对于外部数据的采集主要是用于网络舆情分析、广告投放检测,以调整自 身的产品和营销策略。(3)定制化数据采集。定制化数据采集,主要是用于非结构化数据采集。定制化数据采集广泛应用在 各个领域。比如摄像头、麦克风、激光雷达都是数据采集工具,采集的数据类型也 包含文本、语音、图像、云点图等。


3.2、数据存储:数据增长引致数据存储需求大幅增加

数据增长引致的数据存储增量需求主要有以下三方面:一是数据量扩大引起的 存储及归档扩容需求;二是数据分析和处理产生的倍增数据存储需求,三是数据价 值被发掘后,企事业单位对数据的安全保障投入更大的精力,进而产生更多的容灾 需求和备份需求。2015 年以来我国数据圈持续保持高速增长趋势,到 2018 年我国数 据圈 7.6ZB,预计到 2025 年将增至 48.6ZB,成为全球最大的数据圈,2018 年至 2025 年年均复合增长率将达到 30.35%。

3.3、数据加工:提升数据可用性的关键步骤

数据加工是指对企业采集和存储的数据进行筛选和处理,提高数据可用性,为数据资源的挖掘和分析奠定基础,主要包括数据清洗、数据标注、数据审核以及数据融合处理等方式。(1)数据清洗。数据清洗是指对数据进行校验的过程,目的在于删除重复信息、纠正存在的错误,提升数据质量。现阶段数据治理工具、大多数大数据平台都提供自动化的数据清洗功能,简化数据加工过程。例如,百度的EasyData智能数据服务平台可提供图片去模糊、图片去重、图片批量裁剪、图片旋转等功能,利用机器和人工双重检验,保证数据质量。

(2)数据标注。数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频 等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终 具备自主识别特征的一种行为。数据标注行业主要有两种服务模式:一是数据外包 形式,由数据标注公司完成人工智能项目的数据采集、数据标注;二是部署标注平 台,由企业内部人员利用本地化的数据标注平台标注完成企业内部数据。艾瑞咨询统计显示,2019 年国内人工智能基础数据服务行业市场规模为 30.9 亿元,未来几年的平均年增长率为 21.8%,预计到 2025 年,国内人工智能基础数据 服务市场规模将突破 100 亿元。

(3)数据审核。数据审核主要是指对非结构化数据进行涉及色情、反动、欺诈之类的非法内容 审核。一般是机器和人工审核的双重过滤。(4)数据融合处理。数据融合处理是指将多源、多模态数据互相融合、形成可以被挖掘分析的数据 集的技术过程。不同数据管理平台均开始在平台中集成相关多源异构数据融合和多 模态数据挖掘的功能,使企业数据可以被分析和利用,充分释放数据价值。


3.4、数据流通:数据要素市场化配置的关键环节

数据流通在提升公共决策效率、扩展商业应用场景等方面有着显著的作用。针 对数据流通,广东省提出了构建两级要素市场,我们认为其对各地数据流通机制构 建有着很好的借鉴意义。两级要素市场即一方面构建以行政主导的一级数据要素市 场,加快数据资源“一网共享”,推动公共数据与社会数据汇聚融合、授权运营、 加工处理、合规登记,建立首席数据官制度,为数据进入流通交易环节创造条件。另一方面构建以市场竞争为主的二级数据要素市场,培育涵盖数据交易所、数据经 纪人、数据服务商及第三方专业服务机构等主体的多元化数据流通生态。

3.4.1、数据开放共享:以政府为主导,加速推进

根据数据所有权的不同,可将流通数据分为政府数据和企业数据。政府数据开 放共享主要有两层内涵,一是各级政府以及政府部门之间的数据共享,二是政府数 据对外开放;企业数据开放共享是指企业之间的数据共享与开放。与政府数据开放 共享相比,企业数据开放共享仍处于较低水平。企业数据开放共享对提升供应链协 同效应、提升产业竞争力有明显的带动作用。我国政府正在推出相关政策,鼓励支 持企业数据开放共享。

3.4.2、数据交易:以交易所为平台,机制逐渐完善

数据交易是指数据供给方和需求方之间以数据商品作为交易对象,按照共同遵 守的交易规则和定价机制对数据的所有权、使用权等进行的价值交换,数据交易是 市场经济条件下促进数据要素市场流通的基本方式。据玛娜数据《数据交易的商业 模式》研究报告,数据交易商业模式的框架主要由“3+4+1”要素构成。其中,3 表 示“数据交易的环境”、“数据交易的基础设施”、“法律环境和市场机制”,4 表示 “主体”、“客体”、“流程”和“标准”,1 表示“数据交易的商业实践”。数据交易的定价机制:目前主要存在数据所有权交易定价和数据使用权交易定 价两大类,又可细分为第三方平台预定价、协议定价、拍卖定价、按次计价(VIP 会员制)及实时定价等五种大数据交易定价机制。

(1)数据所有权交易定价。数据所有权交易类型是指数据交易双方直接产生数据所有权属变更的交易,如 数据集的交易等。数据所有权交易定价可参考资产评估方法,确定交易过程中数据 资产的价值。一是第三方平台预定价。如果数据卖方无法确定数据产品的具体价格,大数据 交易平台可以委托大数据交易相关第三方专业人员进行评估定价。第三方专业人员 基于大数据交易平台特点,利用数据质量评价指标(数据量、数据种类、数据完整 性、数据时间跨度、数据实时性、数据深度、数据覆盖度、数据稀缺性等)给出评 价结果,并根据评价结果和同类同级数据集/产品的历史成交价给出一个合理的价格 区间,数据卖方基于此价格区间在交易前对交易数据进行再定价。


二是协议定价。即数据买卖双方协商交易价格。大数据交易平台用于促进数据交易双方的沟通,使数据交易双方达成对该交易数据交易价格的一致认可,并完成数据交易的最终成交。这种定价方式目标性强,在不违反政策限制的情况下,双方对价格的把控自由度大,沟通机会多,成交率高。但这有可能会使整个协议过程形成一个漫长的博弈过程,增加时间成本。三是拍卖定价。即在一个卖方和多个买方之间经过拍卖而确定价格。现今各大数据交易平台交易的数据至少都经过了脱敏等预处理,这样数据交易双方无法对所成交数据的最终使用价值进行准确的定价。于是交易双方会倾向于通过拍卖方式对交易数据进行最终的定价。拍卖定价方式是强调对数据产品及服务的一次性交易,是针对数据产品或技术所有权的直接交易。

(2)数据使用权交易定价。数据使用权交易类型是指数据交易双方不产生数据所有权属的变更,而主要通 过调用数据集达到训练算法模型等目的,如 API 技术服务等。数据使用权交易定价 更多地将数据交易视为服务形式,并参考服务业定价机制。一是按次计价机制。基于数据调用模式,数据买方每调用一次数据就付费一次。这种方式实际上出售的仅仅是数据的使用权。这一定价方式的计价标准由大数据的 提供者定价,大数据交易平台或大数据技术服务提供商作为中介对数据进行传输。部分企业在按次计费的基础上延伸了 VIP 会员制,即购买 VIP 会员即可获得免费接 口一定时间范围内的调用次数。按次计价定价方式强调对 API 的多次调用,是针对 数据产品或技术使用权的多次交易,因此此定价方式与权利归属中的交易权方式结 合,能更好地体现大数据交易平台的盈利模式。

二是实时定价机制。依据数据的样本量和单一的数据指标项价值,通过交易系 统自动定价,价格实时浮动。采用实时定价的数据商品价格受市场环境和市场供求 关系的影响,当市场供需实时变化时,数据价值也实时波动。此外,数据所包含的 商品价值和使用价值会随着时间变化出现波动,将会直接影响交易数据的最终交易 定价。若交易数据处于市场需求低,数据价值低的时段,数据交易价格也会较低。

全国各地开启了新一轮的数据交易市场建设,对数据的流通和交易意义重大。自 2014 年我国最早的 3 家数据交易机构(中关村数海大数据交易平台、北京大数 据交易服务平台和香港大数据交易所)建立以来,目前已有 40 多家数据交易机构 先后成立,但期间有不少机构停止业务。2020 年 4 月,中共中央、国务院发布了 《关于构建更加完善的要素市场化配置体制机制的意见》,明确提出引导培育大数据交易市场,依法合规开展数据交易。全国各地开启了新一轮的数据交易市场建设, 标志着我国数据流通市场的发展进入新的阶段。


从数据交易所的交易流程来看,数据交易可以分为 7 个步骤:(1)交易所以有 偿的方式获得源数据使用权,所有权仍属于提供方,有偿方式为数据补贴、减免数 据税等;(2)源数据经过数据审计、数据合规等审查后,注明“审查通过”标签, 随即由交易所统一存储;(3)交易所将有标签的数据上架至隐私层,供运营、技术、 分析等数商取用;(4)数商针对自身资源随意取用源数据,并对源数据进行一系列 治理等操作,全程受交易所、第三方数商监管,经运营后的数据产品由交易所统一 管理、存储;(5)交易所将数据产品上架至产品层,供公开市场上的数据需求方获 取;(6)若源数据方获取相对应的数据产品,则免费,但需扣除数据补贴等前置有 偿条件,若获取以外数据产品或需求方获取数据产品,则需要付费;(7)收入进入 交易所监管账户,瞬时划拨至数据提供方、数商账户。

收益分配机制是指基于数据权利归属和定价方式的数据价值实现机制,大数据 交易平台和数据卖方的价值实现是大数据交易的关键。(1)数据交易平台收益分配机制。目前我国典型政府类大数据交易平台,大多数都扮演着数据交易中介的角色, 主要交易来源于不同数据所有者提供的数据。我国大数据交易平台的收益分配机制 主要有交易分成和保留数据增值收益权两种。一是交易分成收益分配机制。在数据交易完成后大数据交易平台与数据卖方按 约定好的比例分成。大数据交易平台作为数据交易中介会在促成数据所有权或使用 权交易后收取相应的中介费用。大数据交易分成机制是目前国内大数据交易平台普 遍采用且符合市场规律的收益分配机制。

二是保留数据增值收益权分配机制。即大数据交易平台对数据保留增值收益权 并以此为基础收费的方式。数据包含丰富的价值,大数据交易平台作为数据中介机 构需要在交易前准确预测数据交易后能否产生增值价值并保留数据增值收益权。

(2)大数据交易卖方收益分配机制。大数据交易卖方是数据所有者,根据权利归属和定价方式的不同,其收益分配 机制主要包含一次性交易所有权、多次交易使用权和保留数据增值收益权三种机制。一是一次性交易所有权收益分配机制。即在数据交易中一次性转移数据占有权、 使用权、处分权、收益权。这一模式主要适用于协议定价、拍卖定价方式。协议定 价方式能够形成数据交易双方讨价还价的博弈,协调得出一个交易双方认同的交易 价格。在拍卖定价方式下,数据卖方虽然根据自身对数据价值的评估给出了起拍价及加价幅度等相关拍卖规则,但是实际最终定价的权利属于参与竞拍的多个买家。所以面对协议定价和拍卖定价方式下的一次性交易所有权收益分配机制,数据卖方 对最后定价权利很被动,相应地压缩了利润空间。


二是多次交易使用权收益分配机制。即不将数据所有权一次性转移,只针对数 据使用权进行反复多次的交易,进而带来更多的收益。数据交易双方约定只针对数 据使用权进行交易,数据卖方能够反复对数据进行交易以获取更多的利益,尤其是 在按次计价定价方式或 API 技术服务模式下。因此,多次交易数据使用收益分配机制 是目前数据服务商进行数据交易的首选。但由于数据产品的低成本可复制性、便捷 可传递性,在该模式下,数据卖方如何对交易数据进行安全、保密、可控传递,避 免数据被大规模复制使用成为这一收益分配机制实现的关键。

三是保留数据增值收益权分配机制。数据卖方更清楚数据的来源和数据采集、 处理、分析过程,因此更能直接准确地评价数据的价值,并预测数据交易后是否有 增值收益的可能性。基于相关优势,数据卖方能更准确地判断是否需要保留对收益 权的占有,并按多少比例进行合同约定。以上海数据交易所为例,在数商生态培育方面,上海数据交易所正围绕数据交 易主体、数据合规咨询、质量评估、资产评估、交付等领域,重点打造 10 类数商。截至目前,上海数据交易所完成数商对接超 800 家,签约数商超 500 家。在收费模 式方面,上海数据交易所针对供方数商和需方数商逐渐形成较为成熟的收费模式。

3.5、数据安全:隐私计算技术将成数据价值安全释放的关键突破口

数据要素流通对数据安全的提出新需求。要进行数据安全流通要着力破解制约 要素市场化的主要矛盾,如数据开放共享和安全保护、数据确权、隐私安全等瓶颈 制约,隐私计算技术是解决数据安全问题的重要突破口。隐私计算能够在处理和分 析计算数据的过程中能保持数据不透明、不泄露、无法被计算方以及其他非授权方 获取。在隐私计算框架下,参与方的数据不出本地,在保护数据安全的同时实现多 源数据跨域合作,可以破解数据保护与融合应用难题。常见的实现隐私计算的技术路径包括联邦学习、安全多方计算、可信计算等, 此外区块链也是隐私计算的重要补充。


(1)联邦学习。联邦学习是一种分布式机器学习技术和系统,其核心思想是通过在多个拥有本 地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前 提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模 型,从而实现数据隐私保护和数据共享计算的平衡,即“数据可用不可见”、“数据 不动模型动”的应用新范式。

(2)多方安全计算。多方安全计算是一种在参与方不共享各自数据且没有可信第三方的情况下安全 地计算约定函数的技术和系统。通过安全的算法和协议,参与方将明文形式的数据 加密后或转化后再提供给其他方,任一参与方都无法接触到其他方的明文形式的数 据,从而保证各方数据的安全。安全多方计算的基本安全算子包括同态加密、秘密 分享、混淆电路、不经意传输、零知识证明、同态承诺等。解决特定应用问题的安 全多方计算协议包括隐私集合求交、隐私信息检索及隐私统计分析等。由于多方安 全计算需要消耗大量的计算和通信资源,目前应用更加适用于小规模数据量,并且 应用主要是聚焦相对简单的统计、查询等类型的计算,而基于多方安全计算的联合 建模框架只能支持相对简单的机器学习模型,如逻辑回归模型等。

(3)可信计算。可信计算指借助硬件 CPU 芯片实现可信执行环境(TEE),从而构建一个受保 护的“飞地”(Enclave),对于应用程序来说,它的 Enclave 是一个安全的内容容器, 用于存放应用程序的敏感数据与代码,并保证它们的机密性与完整性。可信计算 (TEE)是基于硬件和密码学原理的隐私计算方案,相比于纯软件解决方案,具有 较高的通用性、易用性和较优的性能。其缺点是需要引入可信方,即信任芯片厂商。此外由于 CPU 相关实现属于 TCB,侧信道攻击也成为不可忽视的攻击向量,需要 关注相关漏洞和研究进展。

由于技术路径的不同,各类隐私计算技术均有其更加适用的场景:多方安全计 算技术不依赖硬件且具备较高的安全性,但是仅支持一些相对简单的运算逻辑;可 信执行环境技术具备更好的性能和算法适用性,但是对硬件有一定依赖;联邦学习 技术则可以解决复杂的算法建模问题,但是性能存在一定瓶颈。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

获取精品报告请登录【未来智库官网】www.vzkoo.com。
立即登录请点击下方“阅读原文”。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存