高新民:重视数据基础设施建设
《重视数据基础设施建设》全文分享
我今天想讲讲我个人对数据要素价值化的发展的一些看法或者一些建议,以供大家参考。
关于数据方面已经发了很多文件。那么最顶层的就是我们数字中国整体的规划——“2522”架构,第一个“2”就是指两大基础,即数字基础设施和数据资源体系,同时也是数字中国发展的基础;“5”就是“五位一体”,通过数字化来赋能整个我们社会经济的发展,包括经济、政府、文化、生态,形成“五位一体”融合发展。后面两个“2”,一个“2”代表两个能力:一是数字技术创新能力,二是安全保障能力;最后一个“2”代表两个环境:一是国内环境,我们要更好建设一个有利于我们数字中国建设的数据治理,数字治理的环境,另一个是国际环境,我们要推动国际合作,创造一个良好的国际环境。
我认为“2522”是数字中国建设的总体框架,是引领整个数字化发展或者数字化转型的一个顶层的设计。整个框架非常重要,我们需要按照这个思路来建设。
针对两大基础里面提到的数据资源体系,数据二十条文件也提到了一个概念:数据要素是一个崭新的生产要素。这个概念表明了当今社会对数据重要性有了更深的认识,这个全民认知是我们国家经济高质量发展中的一个重要拐点。当然我们还应该承认,数据成为生产要素或者数据价值化本身还是一件新兴事物,他和其他生产要素相比还是有很多特点和区别的。因此我们推进这个事物的时候,包括二十条文件里也提到,要积极鼓励大家创新探索。浙江省作为国内数据价值化的先行省,目前做了许多创新探索重点工作,这是非常必要的。
围绕创新探索,我需要重点提及一个路径——重视数据基础设施的建设。
我们刚提到国内数字中国的建设里面有“2522”的架构,第一个“2”里面讲的数字基础设施我认为包含三个方面,一是如今国内政策文件里主要提及的通信网络基础设施,包括光纤、5G等通信网络的基础设施,目前国内运营商国内运营商和设备制造商都做的不错;二是计算和存储基础设施,目前IDC正在推进新一代的绿色化的基础设施建设。最近国内为了实现东数西算,正在推进算力网络的基础设施建设,至此,算力网络基础设施成为新型的、第三个类型的数字基础设施。以上三个方面的含义是从功能角度来划分的。
我在这里还要提及一个新概念——数据网络基础设施:以数据为中心的基础设施。那数据网络基础设施和网络基础设施、存储基础设施、算力基础设施三者的区别是什么呢?最主要的区别是数据网络基础设施实现异构、异地、异组的数据互操作功能,这个功能是所有数据汇聚的一个基础功能。
我把数据价值重要性分为数据本身的价值、数据价值化本身的价值、和数据在场景趋同下产生的价值三个层次来理解。
一、数据本身是所有人类活动产生的数据,即数字化、电子化、网络化的数据,这就是数据本身的价值;二、数据和他的数据源解耦,产生独立流通的要素,甚至变成资产,并进行各式各样机制的流通,如此产生的其他数据产品和服务,就形成了数据价值化本身的价值;三、数据在流通过程中和业务场景融合也会产生更多的价值。
回到数据层面来讲,我国第一次全国信息化工作会议的最主要的成果是提出了“推动信息化6要素体系建设”,这个6要素是什么呢?第一是信息资源,第二是网络,第三是技术,第四是应用,第五是制度或法规制度,最后是人才。6要素体系起草时就提出:信息资源要素是信息化的核心要素。2004年中办和国办发布《关于加强信息资源开发利用的若干意见》34号文件,该文件开头第一句话就点明“信息资源是社会的重要财富、无形资产和生产要素”。以上两个概念和今天我们讲的新型生产要素,以数据为核心推动数字化发展和数字化转型是一脉相承的。可以看出,这30年以来国内对信息资源应用不断深化,到如今更是达到一个新的高度,同时也是非常重要的转折点。
信息化、信息资源开发利用问题始终是这30年间的信息化发展当中的薄弱环节。这些问题可主要概括为三类:一是数据质量问题,二是数据流通的问题,三是数据融合的问题。以上三个问题限制着我们实现数字价值化。
遇到这些问题,我们的出路何在?一、要理顺流转的思路,数据一定要流转才可以价值化;二、建设数据的基础设施。
实现数据流转一定要把数据互操作的基础设施建设好,才可以真正实现多元的流通机制,保证数据安全条例和法律规定的真正落地和分类分级。换种说法就是一定要依赖于数据基础设施,那么数据基础设施是什么呢?我认为它包括所有的基础设施,主要概括成两个部分:一是最底层的数据互操作基础设施,在一定协议或者标准化情况下可以进行互操作,同时可以再利用;二是数据建模基础设施,它是由知识图谱和大模型训练两方面内容结合构成的。
数据互操作是数据基础设施的基本功能,是按照需要、主权以及数据安全要求的可实现数据共享和数据流通的一个基础设施,这是一个非常重要的概念。它主要由两个架构支撑:制度架构和技术架构。目前国际上针对制度架构出现了一个很好的FAIR原则:F是数据可发现;A就是可以访问,可以授权访问,也可以是交易机制访问;I是互操作,一定协议标准下,进行语义分析;R就是可以重复利用。技术架构主要则是由一个叫做DOA数字对象的架构来支撑。国内,北大已经制订了基于DOA的数据互联网的方案,这个方案目前已经在很多场景应用、推广,并在乌镇世界互联网大会得到科技大奖;国际上,就是欧盟推动的基于德国的IDS国际数据空间的DOA架构。这两个都属于技术架构,但都基于不同的路和思路在推动互建。
DOA架构有基本原则:第一是尊重数据主权,第二是一定要安全的进行数据交换,第三是分布式架构模式,第四是强调数据治理。第五是平台服务网络化,第六是规模,第六是开放,第七是可信参与,以上就是8个原则,以此搭建了DOA架构。
我现阶段对实现产业数据价值化的建议就是重视基础设施,浙江省或者杭州市,能不能借助倡导产业数据共同体的概念来推动数据基础设施的建设和数据基础制度的落实,从而推动形成一个数据共同体。(数据共同体:是由业务强关联的企业参与,按照共识制度和技术架构共建共享,实现数据流转通畅化和数据价值最大化,形成支持产业高质量发展的数据利益共同体。)
最后我想将今天讲的意思归纳总结一下:要想发挥数字价值,一定要理顺整个数据流转的思路,同时要加强基础设施的建设,基础设施建设除了基础制度的建设之外,还有基础的技术架构的建设,将两者全部厘清,才可以真正实现我们三异数据的流通,可以实现数据和场景、规则相融合,从而释放它的价值。
最后我还倡导,面向产业的工业数据共同体,重视数据建模及数据图谱+大模型学习的架构,我今天就提这些意见,供大家参考,谢谢大家!
END
# 好文推荐 #