其他

【微学堂】解析SDN技术 重构企业网络架构之路

2016-07-04 王楠 CU技术社区
本文编辑整理自【微学堂】第十四期活动实录。

嘉宾介绍

刘峰,华为企业网络产品线敏捷网络市场总监。2001年毕业于河海大学,现为华为企业网络产品线敏捷网络市场总监,在通信技术领域有丰富的经验,主要从事华为敏捷网络解决方案等相关工作。

直播实录解析SDN技术 重构企业网络架构之路

大家好,今天我分享的内容是:解析SDN技术,重构企业网络架构之路。

随着时代的发展,信息化已经成为一个企业的关键甚至核心生产力,而其中网络在信息化建设中是最重要的基石,就像一座城市的道路设计一样,优秀的道路设计能使得城市的运转更高效和快捷。我们生活在一个飞速变化的时代。新的业务,例如移动办公,云计算,统一通信网等,每年都有新的变化。新的业务需要网络快速执行策略和功能。不幸的是,传统的网络设备一直沿用70年代的命令行界面。管理员需要手工的配置数百个网络设备,每台设备上配置数千条命令,时间周期长,配置错误难以避免。此外,传统网络设备使用ASIC转发芯片,它不能支持新功能的转发需求,为了支持新的功能必须开发新的硬件设备。因此,传统网络很难满足新业务快速上线的需求。于此同时传统僵化、封闭的网络给企业带来了很多困惑,例如在面对移动性时,网络的僵化性使得企业需要投入大量人力去配置和实时维护不用用户、终端的权限,才能保证同一个用户(例如VIP)在不同位置访问公司资源能有相同的访问权限。再例如在云计算时代,IT应用的上线是非常快速的(从月缩减到天),网络的封闭性使得网络不能感知企业的业务和应用,这使得企业在完成上层应用部署后,需要投入更多的人力,花费更长的时候来完成底层的网络调整。 为了解决传统网络的问题,业界提出了很多新的思路来解决这些问题,SDN就是其中最火热的一个技术趋势。SDN有自己的优势,但SDN也并没有完全解决网络中企业最关注的一些问题,例如IP网络如果感知业务质量的问题,例如现有网络如何平滑过渡到未来网络的问题。

因此,华为期望帮助客户构建一个面向新时代的新网络,这个网络包含了SDN的优秀基因,同时更具备其他的优秀内涵,帮助企业构建一个能更敏捷地为业务服务的网络。例如通过全可编程,包括转发面可编程让企业更灵活、更开放的支持各种新IT应用,更自动、更快速的完成配置与调整。例如质量感知帮助网络工程师彻底解决网络故障定位的困难。例如平滑演进帮助企业在保护现有投资的情况下,能平稳的向未来网络进行演进,从而享受到最新的业界IT实践。那么技术上,它是如何实现的呢?面向下一代网络目前最主要的技术标准是SDN,它重点关注集中式控制、网络能力开放和网络虚拟化三个方面。其中,集中式控制的主要思路是让网络的资源由Controller统一管理和调度,增强企业对整网的控制能力。网络能力开放,是让网络能够提供各种接口,从而让用户可以根据自己的业务特点自定义开发,支撑业务系统灵活可变的需求。网络虚拟化旨在让网络资源池化,从而实现网络资源动态可分配,大大降低手工配置的工作量。这些特点正是客户关注的重点,但是,在需要实际部署的时候我们发现,这些标准离实际情况还存在一些差距。比如,网络能力开放的交换机在软件层面是比较容易实现的,但是在硬件方面,大多厂商都没有能力自己设计芯片或者不愿意开发全新的芯片,这样单纯的软件开放在没有硬件支持的情况下,对性能的影响非常大,丧失了网络基本的转发功能,在实际上不可行。华为之所以设计开发一款全新的ENP芯片,就是为了解决这个问题。再者说,如果网络不考虑质量感知的问题,就无法精确的感知网络的质量,这样就算能够集中控制,控制的效果是无法保证的。最后就是平滑演进的问题,标准是不断在推陈出新的,如果方案跟不上标准演进速度,那么投资就很有可能被浪费,华为ENP芯片软件升级的方案就是希望让企业客户网络演进的更为平滑,保护投资的时间更长。 当前基于ASIC的SDN交换机,在转发层面上只能支持已知类型报文的转发,对于新转发协议的支持,只能通过替换新设备的方式来实现,也就是说即便声称支持SDN,一旦出现新的SDN协议要求转发协议的改变,那么这个设备就不能支持。而华为敏捷交换机则采用了创新的ENP芯片,ENP芯片实现了转发层面的解放,可以任意定义转发模式、转发行为和查找算法,能够响应各种应用诉求,应对现在及未来的挑战。 敏捷网络在基于SDN的“集中式控制”,“网络能力开放”,“网络虚拟化”的基础上,进一步扩展了SDN的功能,包括“全可编程”,“质量感知”,“平滑演进”。敏捷网络涉及网络设备和芯片的改变,和网络架构的重新定义。目前我们能够提供端到端的敏捷网络解决方案,帮助客户在园区、数据中心、广域、分支和物联等5大场景中满足了移动性、云计算、社交媒体、大数据、物联网6大业务趋势对网络的新诉求,给企业带来了前所未有的新价值。

不希望被束缚在办公室的感觉,希望自由自在地移动,随时随地地办公。但糟糕的远程办公,移动办公体验阻碍我们获得自由,慢如蜗牛的企业内网访问速度,让我们的美好愿望全部落空。 问题在哪里,因为传统网络资源是按照物理位置分配的,它不会移动,更不关注人的体验。 敏捷网络引入了Agile Controller和敏捷交换机,第一次把网络资源跟人关联起来,让网络资源自动跟随人移动,从而保障了人的使用体验和使用安全。敏捷网络,第一次让网络变得人性化,让上班族获得自由。 举个例子,以前企业要配置1000台设备,现在我们要做的创新是什么呢?比如:A是属于营销人员,在controller上IT人员只需要这样定义一下就足够了,然后他可能还要定义一下哪些服务器是可以访问的,同样也只需要配置一次。controller自动把这个人都能懂的语言翻译成机器语言下发到汇聚层交换机,翻译完以后,汇聚交换机自动再向下翻译,到接入交换机,把接入交换机的802.1X使用起来,整个就把它配起来了。也就是说以前需要配1000台的工作量现在只需要配一次,配一次以后,中间是完全自动化的。而且这个界面的语言不是像以前配置Any Deny那种机器语言了,可能在BRAS上是UCL的语言,所以那就需要你要懂好多语言,就像英语、日语、德语都要懂,现在只需要懂一种,就是人话!会说人话就好!人话会被翻译成各种机器语言,配置就只需要配一次。 QOS策略是什么? BYOD以后,上面有不同的业务,有上网的流量,语音的流量,还有视频等等,还有重要的交互流量,对待不同的业务,我们可以给他配置对应的策略的,只在controller上配置一次就好了。他走到哪,QOS策略就跟过去,这就叫QOS策略随行。
我们知道,以前网络上对报文的识别都是以IP地址来做的,以前的网络是以IP地址为识别的一张网络,不是以客观用户为识别的一张网络。现在移动网络到来以后,用户的IP地址是经常变化的,在网络里面不能再根据IP地址实时的区分用户了,因为只有认证点的设备才知道IP地址对应的用户――或者说用户的类别。但是网络的策略都是以用户来区分的,这个矛盾如何解决?在上面的方法中,我们是通过Controller,精确知道客户和客户接入的位置,然后在接入点的接入交换机和汇聚交换机对用户进行限制和QOS保障,还有另外一个方法,就象DiffServ的思想,就是边缘分类打戳,中间根据类别简单配置,实时QOS或者安全策略。具体就是在边缘认证时给用户的报文打一个戳,这个戳就代表了这个用户。当这个报文在网络中转发时,根据戳来判断它应该享有的策略。 当客户很方便的移动起来以后,用户也就可能会遇到各种问题。当问题发生时,传统网络用户体验受损,只要用户不去投诉,网络和网络管理员就不知道这个问题。即使有人投诉,问题也非常难以被发现。因此这些问题就会长期隐藏在网络中。根据华为公司做的用户网络调研,很多用户的网络上长期存在异常丢包问题而自己并不知道,因为传统的TCP业务流会重传,丢包只会让人感觉网络慢,而不会影响业务通断,很多用户都忽略了。直到网络上部署了实时性的业务,如语音/视频/云桌面等,问题才被暴露出来。 敏捷网络中增加了一个叫iPCA(包守恒算法)的技术,使得网络具备了自我感知业务质量并精准定位问题的能力,在用户体验受损时,网络自身会感知到质量不好,并精确定位到是网络里面哪里的问题。并且提供了详细的质量记录,帮助管理员确定是什么问题影响了业务体验。这个算法的原理很简单,我们比如说A、B两台设备直接连起来,外加一台测试仪C。我们一般测丢包是这样的,从C打一个流量,比如打一万个包。通过A1、A2、B1、B2再收回来,看看打一万个包出去,如果收回来是九千九百九十九个,好这中间肯定丢了一个包。查A1端口的接收计数器,这是一万个,A2这是一万个,B1九千九百九十九个,好A1和B1中间丢包了,马上就知道!这个技术原理很简单。我们为什么不能把计数器用于检测丢包呢?每个端口每个接口上都有大量的计数器,现在就有,问题是我们看这个计数器的时候是静态看的!但当这中间是一个实际的带宽的流量的时候,如10G接口,它1秒钟发的包超过一百万个,你不能保证同时取到这两个计数器的值。你第一秒钟取到这个计数器,第二秒钟取到这个计数器,第二个计数器比这个就差了一百多万个,你怎么知道丢包了没有?它不能同一时间看到这两个计数器的值,两个都在增长,速度都在变,你是不知道它丢包了没有,这是最难的。解决这个问题的方案就是在IP包里有一个保留位,这个保留位一定时间变成0,一定时间变成1,就像方波一样,所以它是走带内的,每个IP包是可以改的,我们检测IP包的那个头然后进行计数。通过IP包的染色,这样就会发现每一个被丢掉的包。

对于SDN在网络上的应用,我们跟世纪互联合作,在数据中心专线上部署SDN。为什么要做这件事情,原因就是这个客户一年在专线上面的投资非常庞大,但是只有30%多的利用率,在他看来60%多的钱都浪费了,所以要提升带宽利用率,降低成本。我们通过用controller作负载均衡的算法,下面动态管理出口路由器和交换机,做到自动化的最优链路负载均衡,最终获得的效果和收益是非常明显的。

数据中心内部有两个网络:计算网络和存储网络。 简言之,计算网络就是把服务器连在一起的网络(我们下面简称为LAN),存储网络就是把存储与存储、存储与服务器等连接在一起的网络(我们下面简称为SAN)。 在数据中心早期,LAN和SAN是分开建设的,包括它的布线和设备都是独立的。最早的存储网络采用Fiber Chanel来建。这样做的原因,第一,是因为以太网交换机当时的带宽不如FC。当以太网最高速率是千兆时,FC已经能做到4G bps,后来做到8Gbps。 第二,存储对网络质量要求非常高,FC非常好的满足了要求。以太网网络质量当时没有那么多的手段在丢包率、时延、抖动做到很好。所以当年存储网络使用FC是必然的。 随着网络的快速发展,大浪淘沙,最终IP技术和以太网技术成了最主流的网络技术。以太网目前已经有40G、100G端口,带宽远远超过了FC网络。同时随着技术的发展,以太网质量的提升也非常大,基本能够满足承载存储业务的要求。另外因为以太网规模用于各个领域,使得成本成倍降低,远远低于FC的建网成本。这个是从技术本身来看的发展。 在运维和布署方面,在数据中心里面,当还是两张网络的时候,管理、业务布署等各方面受到很大限制。由于云数据中心的出现和大规模建设,虚拟机的迁移成为一个硬需求。 如果还是两张网络,当虚拟机迁移后,存储如果不迁移,就意味着要从迁移后的VM去远程访问存储,造成整个网络拓朴难以支撑。所以就出现了以FCOE技术为核心的第二代存储网络。第二代存储网络试图把FC Overlay到以太网上,最终把存储网络和计算网络融合成为一张网。这样布线也可以是统一。应该说第二代存储网络为云数据中心带来了重大利好。
但是随着FCoE投入实用,人们发现还是有一些限制。 第一,FCoE网络节点上规模受限(节点小于239个)。一个大的数据中心,计算网络节点通常会达到500个甚至更多。木桶上最短的那根木板决定了桶的深度,FCoE的节点规模限定了整个DCN网络的规模,从而影响了整个网络扩展性。 第二,即使用了FCoE的技术,我们依然需要在每个节点去配置FC这样的协议。因为FC协议的配置、管理、维护、定位都非常复杂,所以带来FCOE设备的布署和维护非常复杂和困难,这一点也没有得到很好的解决。 针对上述问题,我们提出了第三代的存储网络SDSN。 SDSN把软件定义网络的技术引入存储网络。思路就是把FC协议放到敏捷控制器上,让实际转发的交换机简单化,实现了转发和控制分离。这个让交换机做它擅长做的事情--大带宽转发,不需要每台交换机再去配置复杂FC协议。它带来的好处有哪些呢? 第一,规模扩大,实现真正存储计算网络融合。SDSN把网络规模整个扩大20倍,目前第一个版本,能支持1000个网络结点。 第二,配置简单。过去要做FC协议配置需要专业的技能,不是所有工程师都能做,现在在图形界面上配置,用控制器实现一键配置。 第三,可靠性提升。这个是是SDN架构带来的好处。转发层面和控制层面分离以后,单独升级控制层面的时候,转发是不会中断的,也就是说无中断去升级存储网络。 控制器Agile Controller可以同时管理计算网络和存储网络的,对上接口统一。系统都采用了ODL的开源平台,南北向接口是标准接口。从目前SDSN网络布署情况来看,目前运行状态非常良好。 

在IoT领域业务架构包括四个层次: 第一层,传感控制层。 在这一层有大量的传感器、控制部件(比如开关等)和测量部件(比如电表等),另外还有通信部件。这些通信部件可能是独立的,也可能是和其它部件结合在一起的。 第二层,网络层。 网络层主要是实现融合和互联,它的功能除了网络联结、管理之外,还有在边缘进行计算,进行现场处理;同时保证本地的存活。本地存活和现场处理对物联网,尤其是工业和民用大型设施是非常重要的。云计算以后,越来越多的数据集中到数据中心去处理,而对于物联网,在大网络断掉以后,还要保证局部的网络的存活,不能出现事故。还有一块是在IoT领域有特别多的协议,这些协议来自于各个行业历史上的积累,在网关这里很多是要做协议的转换,然后把数据承载在IP之上向外传输。 第三层,管理控制层。 管理控制层,这一层通过送上来的数据进行统一的处理,向上送给应用层。对下面的网络、传感器、控制部件、测量部件进行管理,提供网络布署、配置的自动化工具,对数据完整性进行保障等。 第四层:应用层。 这一层是基于行业各种各样的应用 在控制层,通过控制器Agile Controller-IOT,我们构建了物联网智慧的大脑,基于OpenDayLight开源架构,不仅仅管理网络的策略、自动配置、健康检查,还对整个网络中的传感器、控制部件、测量部件等进行管理。让应用层的处理大大简化。 在网络层中,最重要的部件是网关设备,对这个位置设备需要: 1、环境适应性。有很多地方是需要防火、防尘、防爆、防电磁干扰,它是工业化的产品。 2、支持接口种类多。它要能支持多种工业标准的物理接口,这些接口种类在人与人之间通信领域很少碰到,比如RF、Zigbee、PLC(基于电力线的通信)、RS485等等。 3、需要协议种类多。这里的很多协议,也是传统网络中碰不到的协议,这些协议可能是传感器等末端部件独有的协议类型。所以传统的路由器产品和传统的网关产品,是无法满足要求的。 4、要做边缘计算,边缘决策,本地存储,本地存活。当大网断开的时候,自己要自成系统,一直独立的存活,不依赖与上面。不然的话物联网工业系统,大脑断开,就会出现错误。这个要求是非常高的一个要求。 所以,通过华为的物联网关区别于其他厂家的特性:最强适应、丰富接口、最多协议、本地智能等,同时支持传统的路由器功能。使其能够能更好的完成物联网络的功能。

未来网络一定是需要开放的,固守一隅必然导致最终的失败,基于开放共赢的商业模式,大家一起来出力,共同提供服务,以贡献来获取商业收益,也是我们所坚持的理念。通过开放网络资源和数据,开放网络服务,与第三方一起构建开放的生态系统,降低合作伙伴商业成本。这些都会得到了我们更多合作伙伴的响应。

最后我们总结一下。通过华为的敏捷网络方案: 用户可以根据需要快速定义和部署新业务,新业务上线的时间从24+个月缩短到1个月。大幅改善了用户的使用体验,包括语音,移动办公,视频,和wifi的体验。让员工更加高效的工作。 大幅提高了运维效率,不仅节省人力,也能够促进整个企业的效率提升。 我们提供简单,开放,安全的企业网络,让网络能够更敏捷的为业务服务。 
互动筛选

Q1:安全性相对当前网络有没有提高?
A1:基于安全事件大数据分析将有效提高网络安全性,而controller起的作用是不可替代的。
Q2:如果整个数据中心都实现sdn网络的话,那么目前那些负载均衡设备,流控设备是不是都没有用了?

A2:这些流控设备将来都会逐步NFV化,硬件实体逐渐消失,软件功能持续演进。
Q3:软件性能能达到专用ASIC硬件的性能吗库?

A3:华为ENP芯片可以达到软件定义下硬件的性能。
Q4:如果全无线如何防止别人监听?可以用户自己定义加密?

A4:信道加密、用户认证、非法检测……影响可以忽略,另外加密算法是标准的,无法自定义加密。
Q5:敏捷网络在世纪互联的实际应用中,带宽利用率提高了多少,这个有数据吗?跟Google的b4网络的有什么异同?

A5:提高到90%,这个数据是客户实际测得。我们和google的b4网络异曲同工,最终都是为了达到自动化的负载均衡。世纪互联用的是控制器+CE12800做的。
Q6:这种集中式控制的,达到网络负载均衡的,跟目前f5,a10,或者深信服的负载均衡设备达到的均衡的区别在哪里?

A6SDN集中控制的负载均衡是基于全局网络带宽资源及设备性能进行自动分析、处理的,这是普通的硬件或链路做负载均衡所无法达到的。
Q7:刚刚有说到没有硬件的支持单纯软件的转发性能达不到要求,这是不是意味着就算sdn网络,也要用专用设备?

A7从现在来看,纯软件是达不到专用硬件的性能,所以需要可编程芯片的网络设备满足转发性能也满足业务变化需求。
只为一场完美的技术盛宴!
SACC2016作为国内最受欢迎的架构师盛会,2016第八届中国系统架构师大会(SACC)将于2016年10月27日-29日在北京万达索菲特大酒店撼世来袭!
大会以"架构创新之路"为主题,共设置两个主场分享时段,24个技术交流专场时段;邀请来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域,150多位技术专家及行业领袖来分享他们的经验;并将吸引4000多名系统运维、架构师、及各种企业的IT决策人士参会,为他们提供最具价值的交流平台。
最优折扣来袭!7月28日前,订购SACC2016门票可立享6.8折优惠!团购更有折上折!
点击“阅读原文”立即购票!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存