SD-WAN那点事 民生银行这么干
2019年10月30日,中国民生银行深圳分行整体业务迁移至SD-WAN(广域软件定义网络)环境,民生银行总行信息科技部副总经理吕晓强、网络管理中心处长谢大鹏、深圳分行科技部总经理陈剑雄、华为EBG中国区金融业务部副总经理曹帆、郭凯明等领导来到现场参观并指导工作,共同见证了民生银行网络升级的里程碑时刻。
成功迁移后,民生银行从骨干网1.0时代正式迈入骨干网2.0时代——智能金融骨干网。其他40家分行将逐批迁移。借助SD-WAN控制器灵活调度与智能运维的特点,实现了对骨干网流量进行应用级的灵活调度与智能故障调优,实现了对专线等资源的合理利用,降低了线路租用等运营成本以及降低分行运维压力,大大提升了关键业务的用户体验。
民生银行SD-WAN方案亮点:
①第一家基于SRTE实现数据中心间、总分行间流量调度的整体解决方案,并成功在分行落地。
②通过与华为联合创新引用时间维度,实现了更加灵活的调度策略,进一步提升了专线利用率。
回顾民生银行与SD-WAN的相识与相知,直到项目最终建设落地的经历,有利于更深入、全面了解民生银行SD-WAN方案。
初识SD-WAN
企业广域网由TDM电路到Packet-over-SONET和MPLS,再到以太网接入。虽然以太网的技术已经普及,但是在技术发展进程中,有两件事情始终有待解决,一是广域网带宽仍然很昂贵,二是配置广域网周期依旧很长。此外,广域网还面临诸多挑战,例如线路带宽使用率不均衡,路由策略调度不灵活,缺少精细化流量管理,以及流量不可视和扩容困难等。
为解决上述问题,SD-WAN孕育而生。SD-WAN与SDN理念相同,都是将转发与控制分离,以简化网络的管理和操作。区别是,SDN是针对数据中心网络,
SD-WAN是针对广域网。作为一项新的网络技术,SD-WAN被人们寄予厚望,希望通过软件实现更加灵活,适应性更强的网络配置和管理。
SD-WAN可通过软件自定义实现广域网的网络虚拟化,灵活承载不同类型业务;通过测量网络流量指标为每种应用选择最佳路径,配合自定义控制器实现了链路的按需调度和网络质量的实时可视,一定程度上提高目前广域网网络的可控、可管和灵活性,大幅度降低网络的运营成本和投资成本。
随着全球范围加大了对软件定义网络(SDN)的关注和重视,SD-WAN正朝着更智能、更开发、更全面前进,为未来网络的发展提供更好的基础。
02
SD-WAN收益
在已有专线基础上,SD-WAN提供的低成本快捷方案,受到业界追捧。但是到底适不适合民生银行的骨干网呢?本着务实精神,民生银行对SD-WAN又进行了深入的调研和分析,并对自身骨干网的现状进行了评估。
数据中心骨干网作为民生银行网络的枢纽,通过BGP协议连接着各个分行、职场以及两地三中心,承载着相互之间的访问流量,并基于路由对其进行调度和控制。目前异地灾备中心还没有部署关键性业务,数据中心间的流量不大,所以民生银行骨干网上承载的主要流量是总分行之间的互访流量。从业务类型上,可主要分为视频、语音、生产、办公、测试等5大类。
从传统网络转型到SD-WAN网络后,到底民生银行将得到哪些收益:
1.降低成本
①近年来,骨干网专线流量每年以20%-30%速度增长,专线租用费每年也逐年递增。对骨干网专线上承载的流量进行深入分析后发现,除了一些关键性的生产办公流量外,还有一类流量占用的带宽较大,但其本身业务实时性或优先级并不高,对线路的质量延时抖动以及丢包情况也没有很高要求。比如移动学习发布学习视频、云盘上传文件、软件库病毒库更新等,甚至常用的邮件系统也属于这类应用。传统网络架构下,基于路由的选路原则,很难将这些流量从关键生产和办公流量中剥离,为了不影响专线上其他关键业务的使用,除了对这些业务做一定程度上的限速之外,就只能通过带宽扩容予以解决。而在SD-WAN环境下,可实现基于业务和应用的灵活调度,将这些大流量应用从关键的生产和办公流量中剥离,分配到单独专线上。即使这些流量突发时,也不用担心影响关键业务,从而提高每个专线的扩容阈值和整体的带宽使用率。
②在传统网络两条专线的情况下,为确保在一条专线出现故障的情况下,依然有另一条专线能够完全承载所有业务流量,业务高分期专线的利用率不会超过50%。而在SD-WAN三条专线的情况下,如果出现一条专线故障,那么另外两条专线完全能够承载所有业务,将专线的利用率提升到66%。同时对于第三条专线上承载的部分大流量业务,例如版本库病毒库更新、测试流量等,当第三条专线发生故障时,对这部分流量只做有限带宽保障,可以进一步提高整体的带宽利用率。或许有人会说,在传统网络环境下,三条专线也可以达到66%利用率。然而事实并非如此,由于没有灵活的调度机制以及故障调优机制,导致传统网络环境下的三条专线非常难于管理,实际专线利用率很难达到或接近理论值
③就剥离出来的流量而言,由于其业务自身实时性不高,未来还可以选择运营商提供更丰富的线路接入类型,进一步实现降低整体线路租用成本的目标。
2.加快业务部署上线速度,提升关键业务体验
一个分行使用的业务上线,需要经过严格的带宽评估。以双录应用为例,由于监管需求,业务交易的录音录像需要统一储存到总行,而这样简单的需求,在传统网络环境下,为了不影响其他关键业务,要先评估视频传输占用带宽大小,如果当前剩余可用带宽不能满足需求,那就需要通过扩容的方式满足需求,而带
宽扩容的周期一般需要2周到一个月。而在SD-WAN环境下,则可以将这部分应用调度到专用的大带宽专线上,而不必担心其影响关键业务系统,实现业务快速上线的需求。通过将这些特殊的大流量系统单独剥离出来,并将其承载在单独的大带宽专线上,而原专线上的关键生产和办公业务可以免受这些大带宽业务流量突发影响,提升了分行用户对关键业务使用的体验
3.提高运维效率、降低运维压力
SD-WAN控制器不仅是整个骨干网流量调度策略的中心,同时也是整个SD-WAN网络的智能化运维中心。在流量调度方面,它实现了将特殊大流量业务系统的剥离,从而大大降低关键业务由于流量突发收到影响的概率;在智能化运维方面,它提供了SD-WAN环境下100多台网络设备自动化变更能力,降低了人工操作带来的风险和成本;在故障场景下,可提供一键式处理,降低故障处理时间,提高业务连续性和可用性。
03
建设目标
民生银行SD-WAN的建设目标:
1.明确合作伙伴。在前期调研过程中,华为以其强大的技术实力与专业的服务支持脱颖而出,成为民生银行SD-WAN项目建设的最佳合作伙伴。
2.RSVP or SRTE的抉择。SRTE作为时下最火的广域网流量技术,优势诸多,可天然支持编程且与ipv6无缝对接,协议简单且无需单独部署LDP等标签分发协议,可简化控制,中间节点设备无需维护路径信息。
3.明确建设目标及范围。在了解华为案例并与同业交流后,了解到目前主要有两种部署方案:一种是以解决两地三中心数据中心之间流量调度问题的方案,此方案所包括的设备是两地三中心数据中心骨干网设备;另一种是以解决总分行流量调度问题的方案,此方案包括的设备是总分行专线两侧的设备。
第一种方案,适用于多数据中心都承载的大量业务,以及数据中心间的访问种类较多、流量较大的情况。但它并没有解决民生银行最主要的总分行之间流量调度合理利用专线资源的问题。第二种方案,虽然可以解决民生银行主要的总分行流量调度的问题,但方案弹性和扩展性比较差,不能满足未来异地多活数据中
心、业务中心以及科技公司、子公司等灵活接入的需求。
最终经过项目组充分论证和评估,我们决定将两种部署方案相结合,形成了一个集总分行与数据中心之间流量调度为一体的整体解决方案。该方案既能解决民生银行当前最主要的总分行之间流量调度问题;同时又着眼未来,能够弹性扩展,满足多活数据中心接入需求。
04
实施方案
首先根据业务类型和对线路质量的不同要求,按照业务优先级从高到低分为6大类应用并将这6类应用按需调度到3条专线上。同时根据夜间流量的特点,为夜间时段制定专属策略,将版本更新以及文件传输类的大流量应用在该时段在三条专线上同时传输。
在SD-WAN环境下,是如何实现应用级的灵活调度呢?
第一步识别并定义应用,在总分行的PE设备入接口上,根据五元组区分识
别不同的应用,然后针对不同的应用打上相应的QOS标识。
第二步建立SRTE隧道,在每台分行PE与总行PE之间为每种应用建立不同的隧道。
第三步为每条隧道创立主备路径,主备路径都可以通过设置约束条件,将路径规划到预期专线。在此过程中,控制器会根据选路约束条件为隧道头节点下发SRTE标签,数据包根据标签转发,走到规划路径上。
在此部署下,数据流量进入SD-WAN环境后,会先在PE入接口上根据五元组识别其属于哪种应用并打上相应的QOS标识;再通过查找路由表发现下一跳接口是虚拟的隧道接口,然后根据数据包QOS标识匹配到相应的应用隧道并打上相应的SRTE标签;最后实现不同的应用按照不同策略调度到相应的路径(专线)上。
SD-WAN智能调优案例:
场景一,流量越限。当一条专线上的流量超过阈值80%(可设置)时,SD-WAN控制会将该线路上部分低优先级隧道的流量,切换至备用路径上。切换原则为:
从优先级最低的隧道中选择一条或者几条隧道在流量降到80%以下,同时使得调走的流量最小。此时,如果第二条专线也超过阈值,那么控制器还会调走部分隧道优先级最低的流量。这种流量越限调优有自动和两种方式,我们采用的是第二种,SD-WAN控制提示告警,运维人员手动确认后流量调优。
场景二,专线故障。当一条专线故障时,所有流量会自动切换至隧道的备用路径,这时如果第二条专线流量没有越线,那么所有流量保持现有的调度路径;当第二条专线出现越限情况,则将优先调走故障隧道的流量到第三条专线。
简而言之,故障场景优先调度故障隧道,越限场景优先调度优先级最低的隧道。
场景三,特殊大流量越限。当关键业务或办公隧道流量突发时,通过流量分析系统抓包发现,流量突发是由于某些大文件传输所导致的时候,比如云盘下载文件,版本库更新等,可以将这部分应用从原有关键业务或者办公队列里剔除,并重新定义而将这类应用调度到大流量专线上。
05
经验心得
整个SD-WAN项目从前期调研到最终上线经历了近1年时间,整个项目组也经历了无数个不眠夜,攻克了多个技术难题,整个项目的心得体验为:
第一,要明确SD-WAN到底能给自己带来哪些收益。把收益评估清楚,深入了解自身骨干网上承载的流量特点,借助流量分析等一些辅助工具,与业务人员进行深入沟通某些应用需求,然后再把每种应用根据对线路带宽以及质量的要求进行分类。在充分了解后,结合自身的专线和网络特点,制定一个适合自己的流量调度及调优策略,最终可实现降本增效、提升用户体验等目标。
第二,要明确这张网的定位,以及项目建设整体目标。这张网既能解决当前网络中亟待解决的问题,还要有良好的弹性和可扩展性,满足未来发展对网络的需求。
第三,方案制定好后,要对方案细节做全面测试。对流量调度和智能调优细节要反复推敲,制定测试场景并测试,才能够完全掌握各种场景下其流量调度与调优的方式。
第四,迁移过程中,新老骨干网并存的路由情况要梳理清楚,同时对网络中的一些细节参数也要仔细推敲。例如,在SD-WAN环境下由于数据增加了标签包头,运营商专线MTU以及设备接口MTU该如何设置等。