转载请注明“刊载于《电子政务》2021年第6期”。引用参考文献格式:易成岐,窦悦,陈东,等. 全国一体化大数据中心协同创新体系:总体框架与战略价值[J]. 电子政务,2021(06): 2-10.摘 要:党中央、国务院高度重视数字经济高质量发展,明确提出推动建设全国一体化的国家大数据中心,加快新型基础设施建设布局。从构建全国一体化大数据中心协同创新体系的政策背景和国内外研究现状出发,深度剖析了制约我国大数据协同创新发展面临的数据中心布局、算力资源结构、数据流通融合、数据应用创新和数据安全防护等五大瓶颈性问题,从“数网”“数枢”“数链”“数脑”“数盾”五个方面解析了全国一体化大数据中心协同创新体系总体框架,基于“聚焦一条主线、把握两大定位、实现三个一体化”视角,阐述了全国一体化大数据中心协同创新体系的战略价值,以期对促进新型基础设施高质量发展、深化大数据协同创新提供有益参考。关键词:大数据;一体化;协同创新;数字经济;新型基础设施DOI:10.16582/j.cnki.dzzw.2021.06.001 一、引言党中央、国务院高度重视数字经济发展,数字经济已成为打造经济发展新高地、应对国际激烈竞争、抢抓战略制高点的重要手段。自党的十八大以来,以习近平同志为核心的党中央明确指出,大数据是信息化发展的新阶段,将大数据发展提升到前所未有的战略高度。社会各界高度关注、积极参与,大数据事业呈现加速发展的良好态势,然而,与完善国家治理体系和治理能力现代化的目标相比,还存在明显差距。按照问题导向、顶层统筹、政企协同的发展思路,建立完善适应国家治理现代化要求的全国一体化大数据中心协同创新体系,对构建数字经济时代的新型基础设施具有重要战略价值和现实意义。随着重视程度不断提升,国家有关部门持续发力、多措并举、密集部署推动以5G、物联网、工业互联网、卫星互联网为代表的通信网络基础设施建设,以人工智能、云计算、区块链等为代表的新兴信息技术基础设施建设,以及以数据中心、智能计算中心为代表的算力基础设施建设。就构建全国一体化大数据中心协同创新体系而言,2016年10月,习近平总书记在主持中央政治局第三十六次集体学习时指出:“要深刻认识互联网在国家管理和社会治理中的作用,以推行电子政务、建设新型智慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。”由此,正式提出建设全国一体化国家大数据中心建设的构想。2017年12月,习近平总书记在党的十九大后第二次中央政治局集体学习会上也提到:“要加强政企合作、多方参与,加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接,形成社会治理强大合力。”2020年3月,习近平总书记在中共中央政治局常务委员会上强调,要“加快5G网络、数据中心等新型基础设施建设进度”,将数据中心作为一种新型基础设施上升为数字经济时代区域和国家竞争力的核心战略资源。2020年5月,国家发展改革委《关于2019年国民经济和社会发展计划执行情况与2020年国民经济和社会发展计划草案的报告》中,明确将“实施全国一体化大数据中心建设重大工程,布局10个左右区域级数据中心集群和智能计算中心”纳入新基建发展年度重点任务。2020年12月,在国家大力发展“新基建”的浪潮下,国家发展改革委、中央网信办、工业和信息化部、国家能源局等4部门联合印发《关于加快构建全国一体化大数据中心协同创新体系的指导意见(发改高技〔2020〕1922号)》,并明确指出:“加强全国一体化大数据中心顶层设计,对深化政企协同、行业协同、区域协同以及全面支撑各行业数字化升级和产业数字化转型具有重要意义。”2021年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要(草案)》明确提出,要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设E级和10E级超级计算中心”,为“十四五”期间促进数据中心集群的高质量发展指明了方向。可以看到,我国数字化新型基础设施建设相关政策路线图日趋清晰,全国一体化的大数据中心建设已成为未来新经济社会发展的重要基础。二、一体化国家级大数据中心的研究与建设现状通过查阅研究有关文献发现,国内学者在一体化大数据中心建设领域的研究主要集中在一体化国家大数据战略体系与数据中心产业发展两个方面:第一,构建一体化大数据中心体系。郁明星[1]等研究构建一体化国家大数据中心治理体系的理论依据和可行性方案,旨在推动数据资源跨部门、跨区域共享,提高数据资源利用效率,加速开发信息资源、挖掘数字红利、建设网络强国的信息化进程。贾一苇[2]初步探讨了全国一体化国家大数据中心体系架构模式,以政府统筹构建的数据中心、数据共享交换平台、数据开放平台为核心,形成三个平台体,即数据中心与云计算平台、全国政务信息资源共享交换平台、大数据资源服务平台。张鹏等[3]从行业角度出发,首次引入了业务服务管理(BSM)监控的理念,提出中国疾控数据中心一体化运维监控系统的构建思路。第二,数据中心产业发展。樊轶侠等[4]梳理了全球及国内数据中心产业发展状况和发展趋势,针对产业发展过程中面临的难题和痛点,借鉴发达国家支持数据中心优化发展的经验,提出助力数据中心产业发展质量提高的思路。张莉莉等[5]从推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升城市治理现代化水平、切实保障数据安全等方面对打造一体化城市大数据中心的目标和定位提出建设对策和建议。国外学者研究主要集中在以下三方面:第一,数据中心整体战略布局研究。从2010年起,美国联邦政府提出联邦数据中心整合计划(FDCCI),各州共同推动数据中心大型化、一体化、绿色化建设。整合计划通过运用“云计算优先策略”减少数据中心的数量,设立阶段性关闭数据中心数量的目标,推动数据中心的大型化、一体化,不断推进数据中心产业的优化和升级[4]。2016年,英国发布《2016年至2018年英国开放政府国家行动计划》(UK Open Government National Action Plan 2016 to 2018)[6];加拿大在《开放政府合作伙伴的第三次两年计划(2016-2018)》中,围绕开放政府目标对开放数据以及开放政府数据进行整体部署[7]。第二,数据中心建设投入研究。欧美等国政府均在数据开放、数据中心建设与应用等方面投入大量人力、物力和财力开发。美国、英国、加拿大等国家都通过数据门户,设立高额奖金,通过“开放竞赛”“创意竞赛”等方式鼓励公民创新性使用数据,取得较大收益[8]。美国、日本、韩国等国家在资金投入、税收贷款优惠、投资促进等方面对数据中心建设表示支持。欧盟委员会于2020年2月发布的《欧洲数据战略》提出,在2021-2027年期间投资40亿至60亿欧元的项目,用于支持欧盟数据空间和云基础设施整合建设工作。德国作为欧盟的重要成员,投资计划将进一步促进其大数据中心等基础设施建设[9]。第三,国家数据中心建设进展研究。美国国防部每年投入2.5亿美元资助利用海量数据的新方法研究推动数据公开,积极促进大数据技术从科研向应用领域转化,在资金和政策上大力支持大数据在医疗、农业、商业、学术研究等领域发展。Data Centre Pricing研究了17个欧洲国家数据中心建设状况,2019年12月发布的研究结果显示,英国是欧洲最大的第三方数据中心市场,其数据中心面积为85.8万平方米,其次是德国和荷兰,数据中心面积分别为58.3万平方米和46.1万平方米。世界主要发达国家加大对国家科学数据中心(群)建设的投入且取得显著成效[10]。澳大利亚国家数据服务中心(ANDS)通过建立澳大利亚科学数据发现平台Portal,提供来自44个机构或网站的近2万个数据集,涵盖自然科学、社会科学、艺术人文学科等多学科领域的数据中心[11]。英国2004年成立了数据保存(监护)中心(DCC),2007年英国科学与创新办公室(OSI)发布《发展英国科研与创新信息化基础设施》研究报告,提出数据资源数字化长期保存与共享建设规划,重点建立大规模的国家科学数据中心,协调现有国家、地方、科研院所和其他相关者关系[12]。综上,国内外在大数据中心建设相关领域的工作一直在持续推进中,但是尚未有成熟的研究成果能够对目前数字经济基础设施建设面临的核心问题和解决思路进行系统性归纳总结和集成分析。国内在规划设计方面研究相对较多,大多数研究是提出框架性理论架构,重点对一体化数据中心建设的重要性、存在问题以及数据中心包含的主要模块进行设计与探索。国外在数据开放、科学数据、数据中心建设等方面实践进展较快,但国内外均未形成以问题为导向的全国一体化大数据中心协同创新体系研究成果。三、全国一体化大数据中心协同创新面临的瓶颈性问题近年来,我国大数据发展虽然在顶层设计、统筹协调、创新应用、产业发展、区域示范等方面取得了显著进展,但仍然存在一些束缚大数据发展的瓶颈性问题亟待解决。(一)数据中心布局亟待集约化构建全国一体化大数据中心协同创新体系,首要任务是对现有数据中心进行优化布局。然而,现有数据中心纵向无法联动、横向难成合力,基础设施小散乱、低水平建设现象严重,陷入“大的吃不饱、小的不能用”的困境,数据中心集约化布局尚受到三个方面制约。第一,网络连通。传统运营商网络布局以本地需求而非以跨域大数据资源调度为导向,导致西部地区网络直联点相对不足。“十三五”期间,国家级互联网骨干网直联点由3个增长到13个,在一定程度上提升改善了直联点周边地区网络流量和互通效率。但由于其布局主要考虑下游用户需求规模,西部地区超大型数据中心集聚的内蒙古、甘肃、宁夏、河北、新疆等地均无国家级互联网骨干直联点布局。这些地区由于远离骨干网,网络条件落后,且跨省远距离传输成本和跨运营商网络业务绕转时延均比较高,严重影响网络时延体验,也就难以发挥从东部分流算力需求的作用。第二,能耗限制。根据国家能源局发布的《能源发展“十三五”规划》,全国在“十三五”期间实施单位GDP能耗和能源消费总量的双控行动。在巨大的数据中心能耗需求面前,北京、上海、深圳等一线城市纷纷出台控制政策,或在中心城区全面禁止新建和扩建数据中心,或限制新建数据中心PUE(数据中心总能耗/IT设备能耗)及规模。例如,中国电信原计划在北京亦庄投建3000个机架,由于缺少供电配额而被迫关闭。受限于目前省际之间没有建立较为成熟的能耗指标跨域调配机制,西部能耗指标充裕地区和东部能耗指标严重紧张地区无法实现能耗指标的均衡配置,过剩问题和严重不足现象并存。第三,用电成本。在数据中心建设运行成本中,超过60%为电费消耗。我国数据中心使用电价按照工业用电核算,均价是居民用电均价的1.25倍到1.45倍,平均价在0.7元人民币左右,比美国还要高,因此各大企业纷纷在电力资源丰富、电价便宜的内蒙古、甘肃、宁夏等地建设大型数据中心。由于电力网建设成本高、配套差等原因,其建设周期长于数据网建设周期,数据中心“数等电”的情况时有发生。(二)算力资源结构亟待均衡化5G、边缘计算、区块链等新技术的推广普及将对我国以数据中心为代表的数字新型基础设施发展带来巨大压力,到“十四五”期末,我国数据中心总体将出现较大算力资源缺口,特别是东部地区,算力需求相比中西部地区增长更快,但受制于供电、能耗指标等限制,算力资源拓展空间极为有限,未来算力资源短缺问题将更加严重,有必要在“十四五”期间提前布局、提前应对。我国东西部算力资源供给呈现“东部不足、西部过剩”局面。东部发达地区呈现较为明显的算力资源供给相对不足局面,而中西部地区则呈现算力资源供给过剩局面,此外,北上广深等一线城市数据中心利用率几乎处于饱和状态,但西部地区很多省份数据中心上架率还处于15%至30%之间,提升潜力巨大。当前,虽然已有部分互联网巨头公司在我国西部地区布局建立了数据中心,但主营业务仍以数据容灾备份、离线数据存储为主,这种“东数西存”模式的产业辐射能力较弱,不利于我国西部地区数据中心相关产业生态长远发展,难以带动西部地区数据中心产业升级转型。(三)数据流通融合亟待机制化党的十九届四中全会首次提出:“要健全数据作为一种新型生产要素由市场评价贡献、按贡献决定报酬的机制。”然而,当前构建数据要素市场仍面临如下三个瓶颈:第一,流通体制机制尚未建立。目前,数据尚不具备作为一种生产要素所必需的商品化、资产化机制,无法界定权属、无法评估质量、无法有效定价、无法可信流通,企业获取政府数据、政府获取企业数据或企业之间交换数据,均存在巨大障碍,各类机构对于数据共享流通顾虑重重、瞻前顾后、畏首畏尾。第二,政企数据对接难的问题尚未破题。进入互联网时代,网络上动辄涉及数亿甚至数十亿人流的应用越来越多,社会数据资源分布已经从过去政府掌控80%演变为倒“28”格局,唯有构建政企一体化数据资源体系,才能有效形成社会治理合力。此次新冠疫情暴露出政府数据与社会数据对接不畅的短板,如部分城市缺乏民众移动轨迹数据,无法有效指挥调度,只能组织运营商、部分互联网公司等企业紧急攻关,这种“临阵磨枪”的做法容易导致耽误宝贵的防控战机,绝非长久之计,必须建立政企一体、多源整合的数据资源体系。第三,政府部门数据壁垒尚未有效破除。随着国家大数据战略纵深推进,社会各界都认识到了数据的价值,但少数部门反而把数据视为其“私有财产”,认为“奇货可居”,更加不愿意与人共享,加剧了数据共享难问题,个别部门和地方依然存在“本位主义”思维,死抱着数据不放,导致决策研判受到影响。(四)数据应用创新亟待多元化我国部分信息化项目存在“重建设、轻应用,重硬件、轻软件、更轻数据,重规模、轻实效”等问题,在此次新冠疫情中得到充分暴露,数据应用价值未得到充分释放。基层数据“最后一公里”受阻。在新冠疫情应对中,很多地方的“互联网+”政务服务平台无法有效下沉到社区街道,有网民质疑“相比17年前SARS没有实质进步”。基层填表繁杂、重复填表等问题突出,人民网撰文呼吁“疫情防控别让基层人员做‘表哥’‘表姐’”,引发广泛共鸣。很多规划“纵向到底、横向到边”的系统沦为摆设。由于建设时只注重硬件基础设施等“有显示度”的环节,往往是硬件虽然到位,但应用“既没到底、也没到边”。有专家质疑,2003年SARS疫情后建立的传染病与突发公共卫生事件监测信息系统,在此次疫情早期预警和中后期联防联控中究竟发挥了多少实质作用。新冠疫情爆发后,部分地方政府花巨资建设的各种智慧城市、城市大脑几乎派不上用场,值得深刻反思。“数据决策”的实现依然任重道远。个别地方政府在决策过程中对于客观数据轻视甚至漠视,缺乏利用数据进行政策预判预演的意识和能力,决策依靠“拍脑袋”的习惯根深蒂固,客观数据在决策参考中权重占比太低,缺乏利用数据进行政策预演预判的意识和能力。(五)数据安全防护亟待自主化当前,大数据领域采用的技术设备和基础设施、各类信息端和物联网终端等,尚未实现自主可控。当数据的质和量达到一定程度时,会带来各种新的安全问题,如果不提前布局,大数据未来就是“建立在沙滩上的产业”,随时面临坍塌风险。在基础架构层面,数据中心国产化替代任重道远。当前,我国绝大多数互联网公司和公共部门数据中心底层基础设施国产化自主可控程度很低,一旦被恶意攻击,容易导致大量关系国计民生的数据被窃取或泄露,对国家安全造成巨大潜在危害。由于部分国产化服务器芯片替代方案和产业生态尚未完全成熟,很多产业和政府部门推进数据中心国产化替代决心不强。特别是很多地方和部门新立项或新开工数据中心项目依然沿用X86架构方案,不仅造成新的安全隐患,而且未来二次建设还将造成巨大浪费。在应用和算法层面,我国产业界在大数据算法原始创新、工程实现和系统平台三个核心领域相比美国均存在较大差距。在应用和算法领域,我国互联网领域尚难以完全摆脱商业模式引领、技术配套跟随的“路径依赖”问题,基础架构和分析领域平台级原创技术匮乏,对国际主流开源社区贡献度不高,技术影响力较弱。目前,大数据最前沿的计算框架和衍生生态圈都分布在国外开源社区内,未来一旦国外开源社区的开源代码和软件受出口管制,势必会对依赖开源资源进行开发经营的中国企业带来极大威胁,将导致我国大数据产业面临巨大风险。四、全国一体化大数据中心协同创新体系的总体架构全国一体化大数据中心协同创新体系总体框架如图1所示,主要由国家“数网”体系、“数纽”体系、“数链”体系、“数脑”体系、“数盾”体系等五大部分组成,既涵盖工程建设内容也囊括政策工具内容。