查看原文
其他

数据中心架构及集成优化研究和发展分析

郭亮 钱声攀 中国信息通信研究院CAICT 2019-07-10
 

导读

随着5G、AI和IoT等各类信息新技术的发展,对数据中心的需求越来越强烈。传统的数据中心五层架构需要更多的集成优化,以更好满足各类应用的算力需求。未来数据中心的发展方向将不再局限于云数据中心,边缘节点和超算中心将在更多的应用场景下提供更多的计算能力。


一、引言


近年来,随着各类互联网应用的快速发展以及网络带宽的大幅提高,作为信息基础设施的数据中心发展迅速。从2015年开始,我国固定带宽下载速率从5Mbit/s到2018年上半年提升到21Mbit/s,全国移动宽带用户通过4G网络访问互联网时的平均下载速率为20.22Mbit/s。在这个过程中,全球数据量从2015年的10ZB增长到2018年的30ZB左右。基本而言,带宽和数据量的发展呈现了一定的线性关系。


20世纪末—21世纪初,随着固网带宽的提升和技术的发展,各类门户网站、微博开始兴起,数据量开始增大;随着3G、4G的使用,微信等社交APP、抖音快手等短视频APP开始流行,数据量暴增。也就是在这个过程中,全国各地开始了热火朝天的大型和超大型数据中心建设,国家政府主管部门开始关注这个产业的发展。2013年,工信部发布了《关于数据中心建设布局的指导意见》;2018年,工信部发布了《全国数据中心应用发展指引(2017)》,据悉2018版已经在编制当中。北京、上海、浙江、内蒙古和贵州等地相继出台了数据中心相关的政策和发展指导意见。


随着规模的不断扩大,能耗逐渐成为限制数据中心产业发展的一大挑战并成为大家重点关注的问题。从粗放式发展演进为精细化建设,降低各类资源消耗,提高能源效率水平,让能源得到更加高效的计算能力输出是需要迫切解决的问题,因此非常有必要在数据中心的整个生命周期开展集成和优化研究。


二、需求分析


(一)5G

据报道,2018年12月三大运营商已经获得全国范围5G中低频段试验频率使用许可,5G离我们更近了。那么,5G时代会带来什么?相关研究报告显示,5G将能提供峰值10Gbit/s以上的带宽、毫秒级时延和超高密度连接,实现网络性能新的跃升,开启万物互联、带来无限遐想的新时代。5G网络将提供更低的延迟,更快的速度,从而将会生产越来越多的数据;不仅如此,5G还将具有扩展到计算机和手机之外的能力,涵盖云和全新连接到网络的设备世界,数量惊人。


5G将提供超高密度的信息点接入,此类信息点将产生海量数据。一方面需要边缘节点进行就近处理,另一方面需要云计算数据中心进行集中的存储和挖掘。边缘计算执行实时应用程序,这些应用程序需要在较近的边缘服务器上进行高速响应,通信延迟被缩短到几毫秒。它将用户设备上的一些计算密集型处理卸载到边缘服务器,并使应用程序处理较少依赖于设备的能力。也就是说,5G对边缘数据中心的功能和性能需求将会越来越高。


(二)AI

人工智能会给我们带来什么?据研究资料显示,人工智能系统主要由基础设施提供者、信息提供者、信息处理者和系统协调者4个角色组成。其中,基础设施提供者为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。计算能力由智能芯片等硬件系统开发商提供;与外部世界的沟通通过新型传感器制造商提供;基础平台包括分布式计算框架提供商及网络提供商提供平台保障和支持,即包括云存储和计算、互联互通网络等。


在数据规模上,这一轮以深度学习为代表的人工智能,更多是通过大规模的数据量激发出来的。各类搜索数据、定位数据、消费数据、图像视频数据等对存储的要求非常高。因此,对于人工智能来说,计算能力尤为重要。未来一段时期,AI对算力的要求将呈现指数级的增长,对数据中心的算力供给提出了新的挑战。算力不仅是基于CPU的通用计算,还有多元化的异构计算;算力的提升对网络的整体延时会有大幅度下降的要求,可以通过诸如无损网络之类的解决方案来进行网络的重构。


数据中心将支持并推动AI发展。同时,AI作为一种非常重要的赋能工具,可以把AI研究的成果应用到数据中心。对数据中心IT设备以及供配电、制冷设备的运行数据进行深度学习、平台训练得到模型,产生预测数据,从而进行系统调优,降低运营成本;通过提前故障预判,快速精准定位,缩短故障维修时间;通过负荷预测、业务调度,可以增加服务器的负载,提升机房资源利用率。当数据中心的规模越来越大,迫切需要人工智能替代传统的人力来对数据中心进行运维管理,这样能够解放更多的人力,让人类专注于维护高效数据中心的关键和最有创造性的方面。


(三)IoT

最保守的预测也认为20年后将会有超过1000亿的设备连接在互联网上。这些设备包括了移动设备、可穿戴设备、家用电器、医疗设备、工业探测器、监控摄像头、汽车以及服装等。它们所创造并分享的数据将会给工作和生活带来一场新的信息革命。


人们将可以利用来自物联网的信息来加深对世界以及自己生活的了解,并且做出更加合适的决定。与此同时,联网设备也将把目前许多工作,比如监视、管理以及维修等需要人力的工作自动化。


物联网连接了大量的设备,它增加了跨越不同区域的设备的数字化和自动化。此外,由这些无数设备生成的数据将显著增加安全管理问题。因此,物联网将为不同行业的许多组织带来新的安全挑战。


三、架构分析

一说起数据中心,第一反应一般会是风火水电。毋庸置疑,风火水电对数据中心的正常运行非常重要,但实际上行业对数据中心的创新点通常来源于4个层面:L0层是楼宇防火,L1层是供配电制冷机柜等物理基础设施,L2层是IT设备,L3层以上就是对数据中心的运维调度管理(见图1)。


图1  数据中心五层架构


数据中心的五层架构并不是完全独立各自为战的。运维管理系统负责直接或者间接得对各类硬件资源进行统筹管理。硬件资源之间也有相互影响的关系,比如当IT硬件的能耗上去之后意味着供配电和制冷方面得有更多的调度支持。因此,从对数据中心五层架构的统筹协调来看,在支撑好上层业务稳定运行的基础上如何进行更加高效的集成优化是一个需要深入研究的课题。传统的粗放的数据中心运维管理模式已经不适应现代数据中心的发展需求,更多的创新技术需要融合到整个产业的进步当中。


四、集成优化


集成优化是指对数据中心五层架构的统一调度,其中尤为重要的是风火水电和IT软件硬件资源之间的优化。


首先,利用逻辑池化技术将供电设备、制冷设备通过统一平台进行资源池化,形成L1层的供电资源池与制冷资源池;然后将数据中心内服务器中的CPU、内存以及网络资源虚拟化,形成计算资源池、内存资源池、网络资源池,实现不同类型资源的解耦。在虚拟化的同时也需要建立不同资源池之间资源的关系映射表,以确定不同资源池内资源是否同属一台物理机,为后续虚拟机组装和资源的调度利用提供便利与支撑。


在虚拟化解耦的基础上,根据数据中心业务对资源的需求,将不同资源池内的资源按需组合为虚拟机,以满足任务对计算、存储等资源的需求,满足计算存储资源对供电制冷资源的需求。不同资源池内资源的组合受限于数据中心内服务器的物理结构,在组装虚拟机的过程中,要根据事先建立的映射关系表选取同一台服务器上的不同资源,如CPU、内存、硬盘以组合成为符合任务计算存储需求的虚拟机,从而尽量避免因虚拟机跨物理服务器而产生的额外计算、传输开销。


(一)基础设施层

供电资源和制冷资源的统一管理联动可以综合考虑以下因素进行优化。首先是业务逻辑和对计算的特定需求,以及用户接受的最优成本模型。其次是管控平台提供隔离,保证良好的多业务复用性以及规模可扩展性。同时管控平台提供智能异常诊断、隔离和恢复。第三,供配电和制冷资源本地采集硬件、业务和OS数据,通过智能算法引擎自适应找到最优的硬件配置方案,达到最优的供配电和制冷效率。


同时,基础设施层的优化需要把全局最优的策略输入到服务器本地算法引擎,引导供配电和制冷系统的配置达到最优,引导服务器配置硬件达到全局最优。数据中心的基线配置达到平均最优或者准最优,同时提供足够的弹性和可控性,把环境因素、负载变化和成本模型都考虑进行,将能更好地实现基础设施层的集成优化和配置,更好地满足IT硬件资源的运行和算力的释放。


(二)硬件资源层

在硬件资源层,面临的是需求多样化的问题,不同的业务对硬件IO性能要求,对设备配置配比要求都不一样,因此要求硬件设备具备可编程能力,这样才能满足多元化资源的敏捷交付,白盒交换机、OTII和天蝎3.0的工作方向基本如此。


(1)白盒交换机

传统的交换机来自于各个具体的品牌,他们都有各自的技术规范和操作系统。在资源池化的场景下,传统的交换机管理方式会带来很大的麻烦,交换机需要有统一的硬件平台和操作系统,这对于网络层面的运维管理的便捷性和整套系统的稳定性是具有非常大益处的。目前来看,不管是微软的SONiC(Software for Open Networking in the Cloud)系统还是我国的凤凰系统,它们的特性还不是那么的完善,但是对于那些需要特性不是特别多的互联网用户来说,够用就好,系统的简洁可控更加重要。因此,未来一段时间内,白盒交换机+开源操作系统模式会得到更快的发展。这将成为网络资源集成优化的基础。


(2)OTII

OTII(Open Telcom IT Infrastructure),是由中国移动联合中国电信、中国联通、中国信通院和Intel共同发起的开放服务器项目,目标是形成运营商行业面向电信应用的深度定制、开放标准、统一规范的服务器技术方案及原型产品。


目前来看,边缘机房的数据中心化重构是运营商的一项重要工作。此前,一般的思路是让边缘机房的环境适配现有的标准服务器设备,但在这个过程中为了满足服务器的承重、配电以及湿度、温度等环境要求,需要在边缘机房的改造上下很大的成本。因此,OTII项目换了一个思路,研发具有运营商特色的服务器设备,来适配现有的机房。目前,该项目已经取得了很大的进展。


(3)天蝎3.0

在天蝎项目(整机柜服务器)的基础之上,2015年3月成立了天蝎3.0项目,经过需求研讨之后确定了天蝎3.0的概念原型、技术方向和项目路标。在2018年10月的开放数据中心峰会上,该项目组展示了天蝎3.0T-Flex的原型系统。已经形成的天蝎3.0概念原型中,高速缓存、存储设备(SSD/HDD)、网络IO(NIC)、异构计算(GPU/FPGA)等外围设备将从传统服务器阶段中解耦出来,形成独立的共享资源池。根据行业的成熟度和技术的发展趋势,天蝎3.0项目先从存储池化开始,逐步实现网络IO池化、异构计算池化和高速缓存池化。


(三)软件资源层

软件资源层除了上面说的交换机操作系统,还有服务器方面的CentOS等。从服务器市场看来, 开放平台已成为主流,Linux或Windows操作系统不必依赖于任何硬件设备,不论是x86平台、ARM平台、Power平台或是基于其他的处理器的平台,都可以直接安装和使用Linux或Windows;对于硬件设备来讲,不论是哪家设备商的服务器还是白牌的服务器,都可以安装各种Linux操作系统、Windows操作系统或者其他的操作系统。在服务器的产品方面已经实现了软件和硬件的解耦、软件和软件厂商的解耦、硬件和硬件厂商的解耦,形成了一个开放的生态,这将非常有利于之后的服务器和网络的统一管理和资源调度。


五、发展趋势


(一)云数据中心

有研究显示,到2021年,数据中心内部85%的流量将是东西向流量。通常说的云数据中心,基本上还是指单个数据中心或者数据中心内部部分设备的云化。但其实发展到一定阶段,云数据中心应该是指多个数据中心之间的云化,数据中心提供的IaaS服务是一个单独而又完整的数据中心的云。


目前来看,金融业通常进行的同城灾备或者异地灾备已经有了数据中心云的雏形,但更多部署的是1+1的形式,多个数据中心之间的网络链路的性能和稳定可靠性至关重要。事实上,即使是规模很大的数据中心,如果其网络无法与其他数据中心和广域网建立持续可靠的连接,无法保证更高的性能。Leaf-Spine架构正在使数据中心的网络体系结构更加扁平化、软件定义网络在将数据中心流量的控制和转发分离,网络功能虚拟化在虚拟化各种网络元素。特别是近来被广为研究的软件定义广域网(SD WAN),通过它能够在多种连接之间动态选择链路,以达到负载均衡或者资源弹性,实现多条WAN路径的选择规划。从网络与业务发展的同步性来看,随着SD WAN的不断发展,将能更好地支撑数据中心云的落地。


(二)边缘节点

边缘节点将是未来数据中心体系内的重要一员,成为最靠近应用的支撑边缘计算的先锋部队。把大量的算力部署在边缘,对业务的体验将会极大的提高,对核心网络的压力将会减小。边缘计算的协议栈是当前很多互联网公司发力的重点,大量美国公司如英特尔、诺基亚、爱立信、风河、戴尔等都在Linux基金会做同样的事情。国内BAT都有各自的开源边缘计算平台,例如百度的OpenEdge,可将云计算能力拓展至用户现场,提供临时离线、低延时的计算服务,包括设备接入、消息路由、消息远程同步、函数计算等功能。


不过在边缘计算发展的过程中,也不得不面对它所带来的一系列问题。首先是用户隐私,一些边缘设备的出现,如智能音箱、智能空调和智能电视,包含关于用户个人使用设备的大量信息。这些信息如果没有得到适当的保护,很可能会导致消费者隐私被泄露。其次是存储容量,由于边缘设备可能产生的数据量非常大,将增加对存储容量的需求。这种存储容量的需求将影响现有的存储和网络架构。是边缘计算+集中存储还是边缘计算+存储,这是一个需要进一步探讨的问题。


(三)超算中心

2018年11月,上海市人民政府办公厅发布的“《上海市推进新一代信息基础设施建设助力提升城市能级和核心竞争力三年行动计划(2018—2020年)》”中提到,创建存算一体的数据中心资源高地。数据中心与超算中心实现规模发展、存算均衡、空间集聚、节能降耗。存算一体是一个非常贴切的词汇,既有存又有算,这样才能从根本上称之为上层应用的发展。


通常感觉超算与人们的生活离得比较远,其实超算中心在人们的生活中发挥着重要作用,超算中心所提供的化学计算、生物计算、电磁学、工业仿真、流体计算、动画渲染、建筑设计、数学计算、气象预报、材料模拟、固体力学、大数据分析挖掘等领域的软件平台为政务、健康、教育、工业、气象、警务等提供了众多的服务。跟云计算数据中心不同的是,超算中心做着更加专业和集中的工作。但是从技术层面来说,超算中心和数据中心的融合是一个不可避免的发展趋势。由于计算的高密度,超算所使用的液冷等先进技术已经慢慢渗透到传统的数据中心领域。


六、结束语


有关数据显示,2017年我国IDC全行业总收入达到650.4亿元左右,2012—2017年复合增长率为32%,持续保持快速增长势头。数据中心产业的发展,未来将向规模化、集约化和绿色化发展。数据中心的五层架构之间并不是独立存在的,它们之间的集成优化对于数据中心的高能效运行将具有非常重要的意义。未来,边缘数据中心和超算中心也将从靠近用户和服务民生的角度更多地支撑社会的发展,实现信息基础设施更大的社会价值。



作者简介

郭  

中国信息通信研究院云计算与大数据研究所数据中心部副主任,高级工程师。开放数据中心委员会(ODCC)新技术与测试工作组组长。


钱声攀

中国电力科学研究院有限公司信通所分析评估室业务主管,高级工程师。致力于国家电网公司高效能数据中心方向的研究工作。



本文刊于《信息通信技术与政策》2019年第2期


《信息通信技术与政策》

由工业和信息化部主管、中国信息通信研究院于1975年主办的《电信网技术》(月刊)自2018年3月正式更名为《信息通信技术与政策》。《信息通信技术与政策》刊载内容在覆盖传统电信领域的基础上向信息、通信和ICT领域延伸。本刊物重点解读行业政策、标准,报道国家重大科研项目成果及业内最新最热产品与技术解决方案。


主要栏目:专题、专家论坛、产业与政策、发展策略、泰尔检测、产品与技术方案。


投稿邮箱:ictp@caict.ac.cn



校  审 | 陈  力、 珊  珊

编  辑 | 凌  霄



推荐阅读

数字调制EVM定义不一致性问题及解决方案

分布式事务数据库系统评估体系



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存