蔡跃洲教授在中国数字经济发展和治理学术年会(2023)上的主旨演讲:数据资源、数据要素与数据规模-价值创造视角的统计测算框架构建
7月4日,中国数字经济发展和治理学术年会(2023)在清华大学顺利举办。本次大会以“数据要素治理,数据价值释放,数字经济创新”为主题,邀请了国内外40余位数字经济领域著名专家以及在数字产业实践中取得优异成果的机构代表进行主旨演讲和交流。来自清华大学、北京大学、中国人民大学、中国科学院大学、中国社会科学院大学、南开大学、上海交通大学、复旦大学、中山大学、南京大学等高校和数字经济相关科研机构及企业的代表共400余人出席线下会议,会议通过多个平台进行同步直播,当天信息浏览量超过11万人次。
中国社会科学院数量经济与技术经济研究所研究员、数字经济研究室主任、中国社会科学院大学应用经济学院蔡跃洲教授以《数据资源、数据要素与数据规模——价值创造视角的统计测算框架构建》为题进行了主旨演讲。本文根据蔡跃洲教授现场发言内容整理。
蔡跃洲教授作主旨演讲
谢谢吴院长,非常荣幸能参加数字经济发展和治理学术年会。今天大会的主题是数据要素。我最近也正好参加了邱老师主持的国家自然科学基金应急项目《数据要素流通与治理的机制与政策研究》,承担的是关于数据要素规模统计测算的课题。正好借此机会,跟各位汇报一下近期关于数据要素统计测算的一些思考和我们已经开展的一些工作。目前, “数据要素统计测算”领域存在的突出矛盾,我自己起了一个名字叫“数据要素/大数据的统计测算悖论”。
自十九届四中全会以来,社会各界都认识到数据很重要,数据也被列为同劳动、资本、土地、知识、技术、管理并列的第七种生产要素。而且大约从2011年“大数据”这个概念提出来以后,学界、业界都在设想着我们怎么样利用大数据来改善统计及预测分析。然而,我们能够感受到海量数据存在、感受到海量数据对整个经济社会变化带来影响,却无法说清楚海量数据的规模究竟有多大。社会上究竟有多少数据要素?至少到目前为止还没有一个被各界公认或广泛认可的统计测算结果。所以,这就出现了“悖论”。
“数据统计测算悖论”可能主要源于两方面原因。一方面,数据作为生产要素是数字经济时代的产物,而现行官方统计体系和国民经济核算框架,以及微观层面的会计核算体系,本质上都是工业经济时代的产物,反映的是工业化成熟阶段的经济运行特征;而数据要素作为新一轮科技革命和产业变革下数字经济新模式、新业态的关键支撑,既有国民经济统计核算体系指标无法直接提供有关其规模的信息。另外一方面,社会各界对于数据的理解和认识其实是比较模糊的,更多是一种大而化之的笼统概念。实际上在数字经济运行实践中,数据概念本身可以划分成不同的层次,有原始数据、企业内部积累的数据资产、加工以后对外出售的数据产品/数据服务等等,形成一个内涵边界差异巨大,但又紧密关联、相互交织的复杂数据生态体系。
面对这样一个复杂的(数据)生态体系,如果我们要科学准确地对其规模进行统计测算,并且能够实现一种常态化的信息输出,即随时从现有的调查统计体系中提取出有关数据要素资源规模的指标,需要做好三方面工作:一是必须对数据要素资源相关的概念、内涵进行辨析并划分层次。二是要根据数据要素、数据资源不同的类别采取相应的统计抽样以及测算方法,包括围绕数据要素资源开展的统计调查怎么样去跟现有的国民经济核算体系进行对接。三是围绕实现持续、常态化地输出数据要素规模相关信息,还要完善现有的会计制度,包括解决企业数据资产如何入表等问题。
在概念内涵方面,不同学科文献对数据的定义,都指向“数据的本质是信息”。当然,这只是说数据从物理层面或者说从其本质来讲指向的是信息,而数据要成为资源和要素就必然跟生产和价值创造关联在一起。资源是能够投入生产并具有价值创造潜力、财富创造潜力的一个需求物品。资源只有在投入到生产过程中时才能叫做参与到财富创造,参与到价值创造当中,它才能叫作生产要素。所以说,只有将数据引入生产过程,把它放置到整个价值/财富创造的语境当中,才能把数据看作是数据资源,进而看作是数据要素。
基于上述基本概念的界定和辨析,我们又可以从涵盖使用范围和价值创造转移的角度将数据进一步划分成四个层次:
第一,涵盖范围的层次是数据资源,包括所有产生的原始数据都可以把它叫做数据资源。
第二,企业层面的数据资产,企业自身不管是通过自我积累还是从企业外进行购买,都会形成一定的数据资产,并将其作为一个中间品投入到生产过程中。从企业自身来讲数据资产是不断积累形成的;其所形成的数据资产则有可能被多次作为投入在生产经营中发挥作用。
第三,企业对外提供的数据产品/服务。一旦企业将其数据资产结合用户的需要,进行加工、整理,对外提供数据产品和数据服务,这就形成了第三个层次数据产品和数据服务的概念。
第四,数据要素。主要是数据(资源、产品、服务等等),作为一种投入被企业用到生产当中参与价值创造,那么这时候,数据就成为了一个生产要素/生产投入的概念。
基于上述四个层次的分类,我们可以进行对照并逐一设计不同的统计测算指标和方案。
在数据资源这个层面,我们可以借鉴历史上对资源进行测算统计的方式。比如说能源煤炭,经常会用物理单位尺度,有多少吨的标煤,当然“标煤”已经包含有一个转化的问题,和原矿质量还不完全一样。但无论如何,可以考虑将物理尺度作为一个测算的维度和标准。如果采用物理尺度,就要回答数据的本质是什么?前面已经提到了,在数字经济时代数据本质就是信息,所以我们就可以考虑能不能用比特作为衡量数据资源的尺度。
我们的基本想法是,首先面向全球主要存储器厂商,像“希捷”“西部数据”“三星”等,收集整理他们每年的存储器出货量指标;同时,对每年全国存储中心的在建规模,在运营中心每年腾出来的存储空间进行匡算;另外,从管道角度,估算每年宽带、移动通信传输的数据流量。在传统的矿山资源估算中,我们虽然没有办法准确估算资源规模,但大致能够推测远期储量规模等。同理在数据规模方面,上述几个角度虽然也没有办法得到准确的估算值,但从不同的角度进行了互相校验,大概能给出一个总量多少个ZB这样的估计规模。
价值角度的测算必然涉及到数据对生产活动和价值创造的参与,对应于其他三个层次的数据概念。首先就是从企业内部资产形成角度进行测算。企业内部形成数据资产,更多的是企业自己根据成本进行计价,属于入表价值,即形成数据资产进入到企业的财务系统和资产负债表中。企业运用其数据资产对外提供数据产品或服务,涉及的就是交易价值;因为这些(数据)产品或服务是可以在市场上卖钱的,当然也就是可以计价的,这主要由市场交易决定。最后就是数据作为生产投入要素,它的价值创造潜力。前面谢老师也提到,数据具有即时价值和潜在价值,后者是指它具有在多个场景发挥价值创造作用的潜力。因此,你拥有这部分的数据资产,或者是数据要素,它的潜在的价值或者是价值创造的潜力可能是由多个场景进行叠加所决定的。
基于上述思路,我们想从四个层次多个角度构建相应的指标体系,或者说从相应的维度进行测算。比如说,物理尺度,可以从存储、流量角度,多方设定并收集指标数据;入表价值则要从企业会计核算角度入手,梳理、收集形成数据资产过程中的成本支出;交易价值就需要针对不同的交易模式,既有这种场内交易也有场外交易(当然现在场内交易其实更多的是雷声大雨点小),分析其交易定价模式和机制,确定交易规模。至于价值创造潜力,刚刚谢老师也给了我们很多的启示,前期我们在复旦进行自科项目集中开题的时候受到启发,上海数据交易所正在统计分析不同类型数据资产/产品的交易场景;基于某类数据资产在较长时间内已经存在的交易场景,基本上就能覆盖和刻画出这类数据资产的大部分价值创造场景,再以此为依据对数据资产的潜在价值创造能力进行评估。结合这个思路我们下一步也会去做相应的测算尝试。
目前,我们课题组按照前面的统计测算思路,已经开始推进相关的测算工作。接下来向各位简单展示我们已初步完成的一点点工作。在物理尺度测算方面,我们基于2020年全球存储介质的出货量,大致从多个渠道、多角度进行了规模估算和相互印证。基本的结论大致是:全球整体存储介质出货容量或者说是全球每年新增的存储能力/存储数据,规模大约是在1ZB到2ZB之间;同期从IDC的估计产生的新数据是64ZB;这意味着每年全球实际上真正被存储下来的数据仅占当年新生产出来数据不到5%(3.4%),也就是说个位数的比例。这是我们目前基于物理尺度所做的一个估算。
基于企业数据资产我们是选择了信息传输、软件和信息技术服务这个行业,主要是考虑该行业在数据资源积累以及数据资产投资方面更具代表性。目前,我们仅仅是完成了一部分的测算工作,即对每年这个行业企业在数据资产投资方面的规模进行了估算,或者说还只是对每年数据资产投资的流量进行测算,即每年投入了多少用于数据资产的积累,还不完全是整个行业已经积累的数据资产规模。对于数据资产/资本形成的测算,主要也是基于国民收入核算中的收入法,涵盖劳动力成本、固定成本等等,加上一些能够得到的平均工资薪酬,行业内的劳动报酬等等成本,做了一个测算。大致的测算结果是:2019年,软件信息服务业这样一个数据资产比较密集的行业,每年的数据资产的投资规模高不会超过1万多亿,低限大概也是在4000多亿人民币,这样的一个规模,刚刚我跟徐老师讲的有一个数据在量级上还是比较吻合的,这大致是我们目前从数据资产上做的初步测算工作。
构建完善数据统计测算体系是一项基础性的工作。未来要持续推进,我想首先还是要加强理论和方法层面的探索。在数据产品、数据服务交易定价机制、交易规模估算等方面,应该说数字经济实践其实比我们学术界要走得更远一点。下一步我们也是准备再多跟几个交易所(开展合作),并且多跟大平台进行沟通和合作,因为很多大平台才是场外点对点数据交易的真正载体,需要多看看他们的交易模式和估价模式,才可能切实厘清背后的定价机制,进而推进相关理论方法层面的探索。
第二,考虑到我们要实现持续地对外信息输出,未来还必须对现有的统计测算体系、统计制度、会计制度做适应性的改造。在现有的官方体系中,包括统计局的入户调查,以及企业的问卷调查,常规性的大型调查活动,包括经济普查等,其实应该认真地考虑怎么样把数据资产、数据要素相关的调查统计内容放在里面,尽快完善数据产品、数据服务、数据生产等相关的统计调查体系。与此同时,整个会计制度也需要就数据资产入表进行适应改造完善。财政部去年12月份也出了一个征求意见稿,现在应该考虑怎么样尽快落地。当然,数据资产入表这件事本身确实也存在一些潜在风险和问题。如果我们毫无保留地让数据资产入账的话,肯定又会弄出很多的会计造假腐败案例出来。因此,这本身也是个两难的问题,我们该怎么样权衡好利弊?既能有效防止会计造假等类似问题的出现,同时,又能更好地以现有会计体系、统计体系作为支撑,掌握数字时代最重要资源要素的整体规模,真正做到“心中有数”,这些可能都需要在制度层面做一些特殊安排。
以上就是我们关于数据要素规模统计测算的一些基本观点,感谢各位!敬请批评指正。
推荐阅读
1. 徐翔副教授在中国数字经济发展和治理学术年会(2023)上的主旨演讲:建设数据要素市场,推进数字经济学的中国实践
2. 俞宁教授在中国数字经济发展和治理学术年会(2023)上的主旨演讲:摇号是绝对劣机制的简单证明——管窥数字经济中的市场设计问题
3. 谢康教授在中国数字经济发展和治理学术年会(2023)上的主旨演讲:大数据合作资产的要素市场创新与新商科教育教学