高新民:树立数据发展观
尊敬的陈院士,各位领导、各位嘉宾,大家早上好!非常高兴参加“2024未来数商大会”,讨论数商这一新型的概念、领域。
一、什么是数据
数据有多种层次和多维度的定义。最底层也是最广义的定义:数据是按照一定规则排列组合的字符串,包括数字、文字和其他符号。在当今数字时代,数据特指二进制字符串及其组合。广义上数据形成的产品、基于数据的服务等都算数据。通常理解的数据,除上述定义还要加一句:数据是物理世界客观事物和过程的记录,或者说是信息的记录。从加工分析维度看,数据又分原始数据、衍生数据以及数据产品。
严格意义上数据与数据产品和数据服务是有区别的。因为数据本身更具有基础性、通用性,数据通用性是发掘数据价值最大化的前提,要倡导数据开源、数据共享。即使以交易方式流通,宜强调数据的非独占性,尤其是目前进入大模型人工智能发展时代。
数据产品一般是在一定场景下的数据应用,目的性和关联度都比较强,专用性和增值性比较突出,作为数据交易的标的,是比较合适的。当前通用大模型蕴藏更多更大的价值,基础算法、算料都是数据,具有通用性和基础性,宜更多以开源社区模式,推动数据开放和共享,实现数据低成本流通。
明确数据和信息的关系也是有意义的。信息是数据的内涵,信息基于数据,数据是信息的外在形式。一些国外专家提出信息是有意义的数据,这是从底层定义出发的。数据与场景关联,在不同场景下,数据有不同的用途和不同的意义,场景下数据有目的性、关联性,便是信息。从这个角度看,数据属于信息资源范畴。
大家熟知的数据金字塔概念中,数据——信息——知识——智慧,金字塔顶端是智慧,底层的是数据。由于数据技术进步,过去无法使用的数据,在信息层次才觉得它有价值;现在大模型训练场景下底层数据便能产生价值。信息上层是知识,其中知识图谱便是在信息基础上形成软件化的、可机器处理的一种知识结构,是确定性人工智能的一种非常重要的形式。
*根据演讲者内容整理绘制
我觉得,对这些常识性问题的理解仍有意义,它们是现阶段我们认识数据、治理数据、利用数据,以及构建相关制度和基础架构的基础。
二、什么是数据的恰当比喻
当前普遍将数字时代中的数据比喻为工业时代的石油或矿藏,从功能视角观察是有道理的。然而,数据具有与物理世界和有形资源完全不同的特性,这些比喻就不够全面准确。若仅依赖此思路来构建我们的制度与路径,恐将陷入误区,这正是我所担忧之处。
我个人更倾向于将数据比作海水,特别是数字化时代的海量数据,几乎等同于无边无际的海洋。海洋之水源源不断、无穷无尽,且具备广泛的承载能力,除了被污染的有害的海水,其价值不言而喻。然而,要将海水转化为资产,则需引入容器的概念,为其设定边界,使其可度量,可识别。然后与场景关联,有目的应用,形成海水作为资产的属性。
例如,海水在核能发电中的冷却作用,或在中东缺水地区的淡化处理,转化为饮用水,具有完全不同的资产属性。这些应用均需付出成本,使海水转化为具有实际价值的资产。在中东地区,这种水的价值甚至超过了石油,充分说明了其珍贵性。因此,当我们将数据比喻为海水时,以便于意识到其潜在的巨大价值,并通过合理的制度和策略,充分发挥其在社会经济发展中的重要作用。
数据,如同广袤无垠的海洋之水,源源不断且永不枯竭。为有效利用这些数据,我们需要运用容器的概念,对数据进行封装,经过加工处理,并赋予其明确的属性,才能确定其实际用途与潜在价值。这正是数据产品化过程。
以330毫升的饮用水为例,若其源自海水,其成本与价格均可精确计算,并与其品牌紧密相连。数据本身具备多元化的应用潜力,与其特性高度相似。因此,我常将数据比作海水,强调其无限性与应用潜力。
根据这一形象的比喻,我们可以引申出一个概念框架:数据资产化必须具备明确的边界、可识别性以及相应的属性描述,并需要投入一定的成本进行处理和加工。此外,在不同的应用场景下,数据的应用目的也会有所不同,可以加工出多样化的产品和服务,从而体现其不同的价值。综上所述,无论是海水资源的利用还是数据处理,都需要我们建立清晰的概念框架,明确各项要素和边界,并合理投入成本以实现其最大价值。
在这框架下,数字对象(DO)是个有用的技术,目前在国际范围内得到广泛推行,它涉及数据与数据之间互操作问题。
DO的确切定义是:一种由二进制字符及其组合构成的数据实体,按标准封装并赋予唯一和持续不变的标识,并具备格式化属性描述。DO的中立性类似于海水,可以将其视为装入瓶中的实体,具有品牌、属性及用途。唯有将数据转化为DO,方可实现其有效利用与治理。在DO的属性中,我们可以明确其应用目的、成本价值、安全保障等级等信息。
参照我国《数据安全法》中的分级分类要求,若无DO这一概念作为前提,治理每一滴海水般的数据将变得不切实际。因此,引入海水这一比喻来理解和利用数据,以及进行数据治理,可能是更为恰当。
三、数据的功能定位
2004年中办34号文件*里的第一句话,“信息资源作为生产要素、无形资产和社会财富,与能源、材料资源同等重要,在经济社会资源结构中具有不可替代的地位,已成为经济全球化背景下国际竞争的一个重点。
这里将信息资源和数据视为同一范畴,有三个定位:一是生产要素;二是无形资产;三是社会财富。生产要素就是生产过程当中必须加以利用的资源。生产要素是一个动态的内涵,在农业时代就是土地,劳动力也是,后来到了工业时代加上资本,变成三要素。再后来随着科学技术发展,又加上技术要素。再到信息经济时代,加上信息资源。现在数字化时代,更强调数据要素。
*34号文件:《中共中央办公厅 国务院办公厅关于加强信息资源开发利用工作的若干意见》(中办发〔2004〕34号)
生产要素这一概念在当前的数字化发展过程中显得尤为重要,尤其是数据生产要素。早在20年前的34号文件中,就已明确提出了信息资源(数据)作为生产要素的重要性。不过,34号文件所强调的并非仅仅是数据作为生产要素的事实,而是其作为无形资产的生产要素地位。传统的无形资产主要指的是商标、专利、著作权等,这些都被广泛认为是无形资产。
然而,当我们考虑到信息资源的加入,特别是数据作为生产要素时,它们构成了一种特殊的无形资产。与商标、著作权甚至某些专利等传统的无形资产相比,数据和信息资源的主要特点在于其易复制性以及可重用性。这种特性使得数据和信息资源的价值与其可重用的流畅度及次数紧密相关。
换句话说,数据和信息资源被重用的次数越多,使用的人越多,其价值也就越高。因此,数据和信息资源作为一种特殊的无形资产,与其他类型的无形资产相比,其非独占性和可重用性是最为突出的特点。
34号文件已明确指出,数据不仅是至关重要的生产要素,更是社会财富不可或缺的组成部分。数据之丰富,如同浩渺的海洋,不仅具备单位或领域的私有价值,同时也具有公共产品的特性。
因此,在数据交易过程中,独占性并非唯一追求,数据的可重用性同样关键,以实现其作为社会财富的重要功能。数据在数字经济发展中的确占据核心生产要素地位,但绝不应将其视为单一生产要素。数据的内涵更为深远,其定位也更为广泛,亟待我们进一步深入研究和发掘。
基于以上认识,数据在社会流通中不仅具备交易价值,需要研究定价和收益分配等问题;同时更要强调开放,研究开源和共享等流通机制。同时,数据是客观事物的映射,涉及国家安全、企业的商业秘密和个人的隐私等情境下需受限保护。因此,推动数据流通时,应重视保护和安全。
数据作为无形资产型的生产要素具有复杂性和特殊性。在数字化转型和经济发展中,数据是关键要素,但也需认识到其复杂性,探索其规律以最大化其价值,需保持理性、严谨的态度,稳健推进数据产业发展。
四、数据要研究的问题
当前数据研究的方向集中在三大领域。
首先是数据技术领域,包括数据采集、传输、存储和建模等关键环节,特别是快速发展的生成式人工智能。
次是数据治理领域,重点在于确保数据质量、管理与评价体系的建设,同时关注数据安全保障和国际间的数据跨境流动问题。
最后是数据经济(Data Economy)领域,主要涉及交易、确权、定价等核心问题,是具有挑战性的课题,同时,各国数据科学家更致力于实现数据的流通与利用问题的研究,目的是将数据转化为社会财富,最大化其价值。数据经济的目的并非单纯为了交易或确权,这是手段或杠杆,而目的是促进数据的流通与价值的最大化发挥,起到激励作用。
五、数据要素与传统要素区别点
一是泛在性,现已进入“一切皆数据,数据即一切”的时代。数据孪生和元宇宙等新兴技术都体现了数据的泛在性。数据无处不在,影响着物理世界的方方面面,同时也由物理世界所承载。
二是映射性,体现在数据是物理世界的映射。数据的主体与物理世界紧密相关,同时数据本身也具有其价值链。确定数据的主体和权益面临相当的挑战,需要深入研究和慎重应对。
三是易变性,在不同的时空、场景和应用目的下,数据的价值、产生的产品和服务都可能发生变化。因此,数据比知识具有更广泛的适用范围,但同时也更具易变性。
四是赋能性,数据价值不仅体现在其本身是物理世界的映射上,还能与业务流程相融合,优化流程。更重要的是,数据现在已经成为产生更高价值数据产品的重要源头,如通用人工智能等典型应用。
五是重用性,是实现数据价值最大化的关键特征。通过便利流通和合规合理重复使用数据,我们可以最大化地发挥其价值,推动业务和技术的不断发展。
六、什么是数据发展观?
数据发展观存在两种解读。一种解读是广义上的理解,即数字化转型需基于数据驱动的社会和经济发展。我所建议的数据发展观,是指符合数据特征及其利用、治理的客观规律,旨在最大化数据价值的基本观点和原则,这是我今天所要阐述的核心内容。
前面所提及的特征与客观规律,都是对数据发展观的深入理解和探索。只有真正认识到这些,我们才能充分发挥数据的价值,推动数字化转型,进而支撑我国经济和社会的高质量发展。我认为,数据发展观至少有以下要点。
一是,关于数据主权与共建共享的理念。我们必须尊重数据主权。20条中提出了三权分置的原则,以解决确权相关的问题,这很重要,需要去实踐,去探索如何落地。但由于数据的复杂性,我们还应强调共建共享的概念,确保数据的合规流通和价值最大化。
二是,安全与数据自动流动之间的平衡至关重要。安全不仅是主权的一部分,还涉及国家安全和机构业务安全,以至个人合法权益。在追求数据自由流动的同时,我们必须确保安全与流动的平衡,避免任何一方的过度倾斜。
三是,数据价值在于重用,重用依赖流通机制合理设计。交易是重要的流通机制,但能够解决数据确权、定价和收益分配的数据交易(不是数据产品和服务)并非易事,除交易外,还应同时倡导开放、共享、数据共同体及授权利用等多元机制,将数据交易唯一化,不是一个良策,应倡导多元化流通机制。
四是,构建对象化的数据基础设施架构至关重要。当前,我们虽已强调数据的基础制度,但仅凭制度尚不足以确保数据发展和治理的有效落地。因此,我们必须依靠技术架构的支持。若无技术架构的支撑,任何制度都难以实施。此基础架构应以对象化的形式呈现,明确其边界、可识别性及其属性。此外,架构需具备开放共享、分布式、管理灵活及安全可靠的特性,以支撑数据的自由流动与安全平衡,并促进多元流动机制的实现。值得一提的是,此架构是数字基础设施的组成部分,但不宜混为一谈。
数字基础设施按功能分类包括通信网络、存储网络IDC与算力网络以及数据网络。数据网作为数据基础设施,本人提出一个四层架构的数据基础设施模型:首层为数据互操作层次,此层次确保数据归属明确,需遵循国际公认的FAIR原则,即异构,异主,异地数据在人的最少干预下机器可发现、可访问、可互操作、可重用。
紧接着是流通层,确保数据在互操作层支持下实现高效安全流通。其上则为建模层,包括机器学习各类模型库以及支持知识图谱建模引擎,因为缺乏建模层,数据在应用层难以实现其价值。最顶层为应用层。此四层架构辅以必要的安全措施、标准与规则,便构成了一个相对完整的数据基础设施体系。
占用了各位宝贵的时间,我分享的内容,有一些大家看来可能是一些普通的常识,但我深信这些内容仍具有一定的现实意义,供大家参考,不对的欢迎大家批评指正,谢谢大家。