查看原文
其他

复旦大学叶雅珍丨盒装数据 —— 一种数据资产的形态

2023年6月28日,由中国信息通信研究院(以下简称:中国信通院)、中国通信标准化协会主办,中国通信标准化协会大数据技术标准推进委员会承办的2023年大数据产业发展大会-数据资产高质量发展论坛在北京国宾酒店成功召开。
会上,上海市数据科学重点实验室数据资产研究室主任、复旦大学数据产业研究中心主任助理叶雅珍博士分享了《盒装数据 —— 一种数据资产的形态》的主题演讲。

【演讲人简介】

叶雅珍博士,上海市数据科学重点实验室数据资产研究室主任,复旦大学数据产业研究中心主任助理,专著《数据资产》作者,在数据资产研究与实践方面创新提出“数据资产框架”“数据产品运营的两阶段授权模式”等。主要研究方向为数据科学与数字经济,近期主要研究方向为数据资产、数据商业和数字化转型。

【演讲实录】

非常高兴能有机会与大家一起就有关数据资产的内容进行交流和探讨,今天跟大家汇报的题目是“盒装数据——一种数据资产的形态”。

数据是数字经济的关键要素,作为一种极其重要的新类型的资产,数据资产已经获得广泛关注和认同。正如著名经济学家、国际货币基金组织前副总裁、中国人民银行前副行长朱民教授指出的那样:数据资产化是下一个颠覆世界和推动时代发展的里程碑。

有用的数据积累到一定规模就可形成数据资源。数据资源在满足数据权属明确、成本或者价值能被可靠计量、数据可读取等基本条件后就可以成为数据资产。其中,成本或者价值能够被可靠地计量,数据资产得以被准确地计算,就可以建立数据资产的管理目录,才具备了让数据资产计入会计报表的可能,对应的数据产品才能进行登记、出版,并进入市场进行交易、流通。

当前,市场上已有一些标准化的数据产品在进行有效流通,但一般意义上的、更大规模的数据产品的流通仍然存在困难和不畅。造成这个局面的原因当然是多方面的,但其中一个比较重要的原因是这一类数据产品大多数是非标准化的、其产品形态尚未界定,因此不能被准确地计量,从而难以计价。

我们知道,形态是计量计价的基础,如果能够设计出一种数据产品的形态,那么数据产品的生产、流通、监管等多方面都将变得更加有效。今天我们就基于以往的研究和实践的基础,从以下三个方面跟大家一起展开相关内容的探讨:

首先,要跟大家做一个界定,我们这里的“数据”是指网络空间的任何事物、是网络空间的唯一存在。网络空间中的数据主要有两种方式生成:一种方式是利用计算机技术把物理空间中的人、事、物以二进制的形式定义到网络空间,并使其在网络空间中运行、处理、发展;另一种方式是直接在网络空间进行生成(例如,生成式AI)。

数据可以通过键盘、手机、摄影机、正负电子对撞机、对地观测卫星、DNA测序仪等不同的电子仪器设备不停地产生。随着时间的推移,网络空间中所积累的数据类别、形式将越来越多样,复杂度也越来越高。因而,我们要对这么多来自不同对象、不同行业、不同系统、不同仪器设备所产生的不同格式、不同类别的,在互联网中/不在互联网中、公开/非公开的数据进行统一计量,难度可想而知。特别是要对由多种数据组成、类型多样、规模庞大的数据集进行可靠计量挑战巨大。

当前,在技术上并没有适用于所有数据类型的通用型数据库,这也给数据资产及数据产品的计量、存储、运营、管理等带来了困难。

网络空间中的数据具有一定的特有属性:物理属性、存在属性、信息属性和时间属性等。数据资产是由数据组成的,其同样也具有相关的属性。其中,信息属性是数据的价值所在。而数据资产的价值是因人而异的,在不同的应用场景下,同一个数据资产的价值是不完全一致的,对应的数据产品的价值也存在相对性,这也给计量计价带来了挑战。

前面提到,当前市场上已有些标准化的数据产品在进行有效流通,其计量计价方式值得借鉴。比如,音乐数据产品是以一首曲子或者一首歌等(一个完整的音乐作品)作为计量单位,类似的还有以一幅图或者一部影视作品等作为计量单位。

数据产品生产方式主要也有两种:数字化实物产品的方式,以及直接加工网络空间的数据资源来生产制造出数据产品的方式。

根据生产使用的不同阶段,数据产品可以分为两大类:一类是作为生产投入品的数据产品,包括各类数据集、AI算法、各类计算机软件工具、数据应用服务、等等;另一类是作为终端用品的数据产品,例如音乐、电影、照片、电子书和APP等等。

数据产品在形态方面主要存在形式难以统一的困难:很多终端用品多是由单一类型的数据组成,而作为生产投入品的数据产品更多的是由多种数据类型组成,比如各类数据集等。

这也会带来规模统一困难,例如大多数音乐数据产品的规模大小通常在MB级,而各类数据集大多数的规模通常会在GB级及以上的规模,等等。

这些问题和挑战该如何解决?传统图书给出了一些参考和启示,主要是由于传统图书在很多方面与数据资产、数据产品都有类似的地方。比如,传统图书是一类记录和传播信息的载体产品,图书内容所涉及领域非常宽泛,是易于复制的,其传播性和流动性非常好,特别是在价值方面,传统图书与数据资产、数据产品类似,也是因人而异的,主要取决于阅读图书人的知识储备、专业程度和学习能力等方面。传统图书是经过长时间的发展和实践,已形成比较完善和成熟的体系与固定的形态。

传统图书是我们十分熟悉的产品,其形态主要是由两部分组成:首先,正文主体内容,即文字作品按照一定的逻辑顺序,根据排版格式分章节形成一个有机整体;此外,相关配套内容,主要是由封面、扉页、版权页、前言(或序)、后记(或跋)、目录以及相关文字说明等内容组成,其中版权页又称版权记录页,由版权说明、图书在版编目(CIP)数据和版本记录等内容构成,将纸质图书的书名、作者、国际标准书号、出版责任人、出版发行者、规模大小、印刷发行记录等信息都囊括在内。图书形态的相关配套内容对于保护版权人的相关权益和读者使用引导等方面具有非常重要的作用。

图书的形态很好地解决文字、表格、图片、图形、等等不同内容类型及规模不统一的问题,使其汇聚在一起形成标准化的产品,并能在市场上有效流通。

图书是以“本/册”作为计量单位,特别是其出版发行价格并不是以图书的内容价值作为基准,而是以图书编撰、印刷和流通过程中的成本作为基准,值得参考。

我们团队首创提出并在技术上实现了一个数据集标准化的框架模型——数据盒。数据盒是自带自主程序单元,封装在盒中的数据集只能通过单元接口进行受控访问,以实现在数据流通过程中,盒中的数据在保证方便使用的前提下能很好地维护数据拥有方的权益,即数据盒外部可见、可理解、可编程,内部可控、可跟踪、可撤销。每个数据盒设有唯一的字符串类型的标识——数据盒标牌。这与传统图书的国际标准书号ISBN类似。

基于以上介绍,接下来大家跟着我一起来参照图书的形态,基于数据盒模型设计一种数据产品的标准形态。类似图书容纳文字作品那样,数据盒可以被作为一种容纳各类数据的容器。

参考图书,可以用数据盒来包装多种不同的数据类型来作为产品的主体内容,配上相应的配套内容,就设计了一种数据产品的标准形态,我们称之为“盒装数据”。盒装数据是由盒内数据和盒外包装两部分组成。

盒内数据是时间、空间、内容三维度的数据立方体组织,一般包括多种数据类型。通常意义上的数据产品都是比较容易用这三个维度(时间维度、内容维度和空间维度)来加以表达。

这里就用“某证券交易所2022年挂牌股票的行情数据集”为大家简要加以说明。内容维度是指数据集中每个数据对象的内容,即用一个或者多个属性来描述数据对象的完整内容。例子中的内容维度是通过开盘价、收盘价、最高价和最低价这几个属性加以描述。

时间维度是指每个数据对象的时间覆盖范围,即数据产品需要描述其数据对象的具体时间段或者时间粒度。例子中的时间维度是每个交易日。

空间维度是指符合数据产品描述的数据对象的空间覆盖范围,简单来说就是数据产品描述的数据对象的全体。例子中的空间维度是指2022年全年在某证券交易所挂牌的所有股票。

当拿到一个数据集后,就会从内容、时间、空间三个维度对其进行规整和描述,使其成为三维数据立方体组织,进而将其灌入到数据盒中,使其成为数据产品的盒内数据。

盒外包装又称为盒装数据的外部形态,主要由产品登记证书、产品说明书、质量证书和合规证书组成。

登记证书是对盒内数据的概述性介绍,是数据拥有者对相关数据产品权属的声明,由专门的数据产品登记主管部门审核发放,只有登记后的盒装数据产品才具有合法性,才被允许在数据市场上进行流通和交易,并受法律保护。

登记项目主要包括数据产品名称、产品登记号、数据盒标牌、生产商/著作权人、数据量以及访问编程接口和相关权利等。当向主管部门申请登记证书的时候需要同时提供盒装数据产品的产品说明书、质量证书和合规证书作为相关附件内容。

当购买一个数据产品时,需要事先知道是什么,付费购买后需要知道怎么用。盒装产品说明书的作用就在于此。产品说明书主要包括数据产品内容说明,生产方式/著作方式说明以及使用说明,使用说明主要包括使用环境、使用接口、使用举例、接口代码等内容。

盒装数据产品质量证书是对盒内数据达到相应质量标准和要求的证明性文件,证书需要由数据质量检测机构出具。盒装数据产品的质量主要从三维度的完整性加以表达,即时间完整性、空间完整性和内容完整性来体现盒装数据产品质量高低。

盒装数据产品的合规证书,主要是用于承诺盒内数据是符合《数据安全法》《网络安全法》《个人信息保护法》等国家有关法律要求,是合法合规的,证书需要由相关律师事务所提供。

以上就是我们设计的一种数据产品基础标准形态。

当我们拿到一个数据集以后,将会从时间、内容、空间三个维度对其进行规整和描述,使其成为三维度的数据立方体组织;接着将其放入“数据盒”中,使其成为盒内数据,配上相应的产品登记证书、质量证书、产品说明书和合规证书后就得到“盒装数据产品”

实践中,遇到一些没有时间维度的数据集,可先把时间维度设为空值,仅从内容维度和空间维度来加以表达和描述,配上对应的盒外包装,就形成了“没有时间维度的盒装数据产品”。

不同的盒装数据产品之间可以进行相互组合,就像积木一样,具体做法是把不同数据盒按照一定的逻辑、规则加以排序,装入一个更大的数据盒中,配上相应的盒外包装,形成“复合型盒装数据产品”

设计出这样一个数据产品的基础标准形态后,接下来就会进行基础规模大小的设定。因为只有规定了基础规模后,盒装数据才能作为标准化的计量单位。

在设定基础规模大小的时候需要体现和考虑两方面的因素和需求:一方面是市场需求,另一方面是监管需求。

首先,流通的数据显然不是一条一条数据,也不是一个简单的数据集,而是需要达到一定的数据规模符合一定条件的数据产品。那么,到底多大规模的数据产品才适合在市场上流通呢?为此,我们专门对来自国内外的上百位的数据科学家开展调研,结果显示高达96%的受访者认为一个大数据产品至少应该达到GB级别以上的数据规模,并至少包括两种以上数据类型。

其次,盒装数据作为标准产品在市场上流通,就需要政府监管。一方面,政府监管的目的是要维护数据市场的公平、公开、公正,这是所有商品市场开展监管的目的,主要通过法律法规的建设以及整个数据市场体系的构建加以实现。另一方面,数据市场所特有的监管目的是要保护国家数据安全和公民个人信息。那么,多大的数据规模比较有利于监管的实施?以公民个人信息保护为例,我国法律中针对侵犯公民个人信息有专门的量刑标准,非法获取、出售或者提供公民个人信息5000条以上,应当被认定为《刑法》所规定的“情节严重”,已构成犯罪事实,要接受法律的惩处。有关公民个人信息的具体内容,现行法律法条有详细列举,经测算5000条公民个人信息数据的规模大概为1GB

鉴于上述两方面需求,将盒装数据的基础规模大小设定为1GB。这个设定是否科学需要通过实践的总结和完善。鉴于当前多方面因素的考虑,暂时不把小于1GB数据规模的作为盒装数据来考虑,等待后续条件成熟后再将其纳入。前面提到的终端用品这类数据产品,由于其自身已经有比较完整的产品体系,因此不强行将其纳入,就让其沿用原有的产品形态和体系即可。

有了数据产品的基础标准形态,为后续形成数据产品的货币形式的计量计价提供条件,给数据产品在生产、流通和监管等多方面带来益处,使其变得更加有效。以上是今天报告的全部内容,欢迎大家批评指正,感谢。
往期推荐

01

完整议程公布 | 首届“星河杯”隐私计算大赛成果发布即将来袭

02

《数据资产运营能力成熟度模型》标准发布与解读

03

2023隐私计算大会亮点前瞻:“可信数据流通网络TDN框架”解读预告



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存