地铁行业如何实现 Power 服务器虚拟化高可用架构设计?
由于地铁行业业务数据的重要性和行业的特殊性,从目前现状看,地铁行业虚拟化程度虽日渐发展但仍然不高,小型机虚拟化还在初始阶段。
为了帮助地铁行业IT从业人员更深入更快的了解虚拟化技术,尤其是了解服务器虚拟化高可用架构的设计方案、设计难点,twt社区特别组织了线上交流活动,邀请地铁行业实践经验相对先进丰富的专家、Power虚拟化技术专家进行分享和互动交流,活动中解答了很多同行们关心的问题。
为方便更多同行,以及其他有类似问题的相关行业同仁参考,现将活动内容整理如下:
一、Power 服务器虚拟化高可用资源池实现的必要性?
Q1、虚拟化技术在地铁领域有哪些应用?
A1:
在地铁行业,一些用户已经在探讨虚拟化的应用场景,如AFC,ISCS等业务的虚拟化合并,车站业务的统一虚拟化监管和调度等。(@IPSyangyu)
Q2、虚拟化到底能够节省多少系统建设成本?
A2:
从用户的实践角度来看,积累云和虚拟化的经验和真正使用虚拟化部署到生产环境中,确实是需要一个基础学习和储备的过程。但这个过程度过后,虚拟化的便捷性确实可以节省用户的管理成本。
另外,除去管理成本,虚拟化对成本的节省还可以体现在2个方面:1,虚拟化后对资源的利用率提升了,如原本24核的机器,受物理条件所限支持2个分区,但实际处理器并未用满,虚拟化后可以支持更多的分区共享使用,使处理器、内存的利用率提高了。从另一个角度看,新加进来的分区的投资就节省了。2,虚拟化使网卡、光纤卡等资源可以复用,节约了物理板卡的使用量,相应的机房空间和电力的节省也是很明显的。(@IPSyangyu)
Q3、地铁行业中云计算主要的目的是什么?是否有成功案例?
A3:
地铁行业中,目前看到的探讨云计算主要初衷是为了统一管理、便捷调度和降低成本,这也正是云环境给用户带来的核心益处。目前已知一些研究院和最终用户在探讨云环境使用的可行性。(@IPSyangyu)
目前国内多家城市地铁公司已与厂家进行某些应用生产系统(如综合监控系统)进行云平台的测试工作,正式上云的应用系统应该是还没有。(@pengzi)
Q4、如何看待地铁搭建生产系统云平台的必要性?
目前各设计院积极推广云平台建设,国内地铁公司也陆续进行私有云试点,部分城市已经开始搭建生产系统云平台,将通信、综合监控、AFC、PIS、ACS、ATS等众多系统专业服务器合设,搭建云平台,以各位专家的意见,此类云平台搭建会是昙花一现还是成为未来地铁标配?
A4:
能否成为标配还有待检验,目前只是在部分相对没那么重要的系统进行尝试,部分应用系统(比如通信、信号)目前来看其实并不太具备上云的条件,是否需要一定要为了建设而建设?这是决策者们需要考虑的问题,毕竟生产系统是安全稳定为第一位。(@pengzi)
从管理的角度讲,搭建云平台可以整体管理那些原来需要分开管理的IT资源,并且做到灵活调度,对于统一管理还是非常有必要的。过往由于厂家之间设备和管理终端的差异性,在统一界面进行统一标准的管理基本难以实现,现在随着架构的改进,以OpenStack为例的云管平台逐渐统一了各基础设施厂家的管理方式,为统一管理提供了可能性。已经见到有地铁的用户在探讨和进行技术储备,相信这种统一管理的模式是会成为未来的趋势的。(@IPSyangyu)
Q5、目前地铁行业采用小机虚拟化还是使用x86架构虚拟化更适用?
A5:
X86和Power小机的虚拟化各有特色,之所以觉得X86的虚拟化应用更广、成熟度更高,是因为前端业务层面更适合做虚拟化部署,因为横向扩展的和变更的需求更多。在企业核心的数据库和重要业务层面,Power的虚拟化应用案例也是很多的。小机的虚拟化,从安全性、成熟度和高可用性的功能设计上也是非常好的,尤其是适合轨道交通行业的重要业务,如AFC、ISCS的线路和中心级使用。在统一管理的问题上,可以部署PowerVC这样的统一管理云环境,它可以和X86的虚拟化环境集成在一起,同样是OpenStack的架构,给客户展现的就是统一的云管理平台。(@IPSyangyu)
Q6、用小型机来做虚拟化,主要的优势是什么?
A6:
小型机的虚拟化的成熟稳定。Power服务器的虚拟化,是一个经历几十年演进的非常成熟的技术。对于用户而言,成熟稳定在核心业务中的意义是不言而喻的。
从实际的使用效果看,在大并发业务和单机的稳定性上看,小型机还是明显优于PC服务器的。
小型机虚拟化功能也非常丰富。因为要做企业级的虚拟化,在虚拟机部署过程中的高可用设计、后端存储访问的高可用设计、虚机业务在不停机情况下在线迁移的设计等功能上,都有非常完善的设计。可以提供给用户非常好的业务连续性保障。
管理的便捷,虚拟化的部署和后期的维护,均可以在统一的管理平台上简单操作即可完成,对用户一线的运维人员来说非常方便。(@IPSyangyu)
Q7、请教服务器虚拟化实施建议?
如何实施可以方便后期运维?项目实施中可能有哪些困难,可以进行提前预防?此外,地铁的数据量有限,一般情况下两台小型机进行双机热备就够用,小型机是否有必要进行虚拟化?
A7:
任何从既有的传统环境变更为虚拟化甚至是未来的云环境,都需要一个知识学习和知识消化的过程,但随着技术的发展和演进,这种过程又是必须进行的。建议在项目之前,提前进行相关知识和实际使用的学习和测试,确认这些新的功能和业务的需求真的匹配。在实施过程中尽量进行充分的介入并留存好相关的实施文档,同时进行一些后期运维材料的提前准备,如运维手册、切换手册等。
在业务很小的前提下,虚拟化应该不是必须的,但随着后期线路和节点的增加,虚拟化管理的优势会越来越明显。(@IPSyangyu)
二、Power 服务器虚拟化高可用资源池实现的思路及方法?
Q1、Power服务器虚拟化高可用对操作系统有什么要求?能否建立在Power的Linux之上?
A1:
Power服务器的虚拟化各种功能是PowerVM提供的,PowerVM是在HyperVisor层面的,是在操作系统之下的。在PowerVM虚拟出的虚机上,是可以运行AIX,Linux等不同的操作系统的。(@IPSyangyu)
Q2、选择虚拟化或云管理平台的策略?
A2:
Iaas层的云管平台,目前OpenStack确实在架构上是主流架构,但开源平台在产品支持和成熟度上离生产应用也确实有距离。正因为如此,众多的基于OpenStack架构的多个厂家的商用云平台版本才匹配了这样的矛盾。在Power上PowerVC云平台就是这样的解决方案,PowerVC是基于OpenStack的成熟云管平台,在不少客户都有装机案例。而且还会随着OpenStack定期的更新版本而同步更新。在使用体验上,PowerVC也对OpenStack进行了极大的改进,无论在安装部署,还是在后期使用过程中,都做了很多优化,更加便于用户使用。(@IPSyangyu)
Q3、谈谈超融合架构?
A3:
超融合架构的核心是深入的虚拟化应用和分布式存储环境。目的是解决数据的本地化处理问题从而提升处理效率,同时还可以简化运维管理,在线性扩展方面和传统存储架构相比也有比较明显的优势。超融合近几年突然异军突起,被大家广泛提及和研究,是因为相关的技术逐渐成熟:
1,分布式存储软件和算法的逐步完善大大提升了数据块的调度效率,使横向扩展和数据自动负载均衡得以在生产中稳定使用。
2,SSD盘的技术逐渐成熟,使分布式存储的响应时效可以适应更多的业务需求,从而避免了以前的分布式存储响应时效不行的问题。
3,虚拟化技术的发展,使虚机访问本地化的数据成为可能,且主流的超融合厂商支持的虚拟化技术越来越完善。
但从另一个角度看,超融合目前还不适合大型企业的核心负载,对过重的负载也暂时不适合。另外,即使是可以横向线性扩展,但需要考虑计算和存储能力均衡增长的问题。(@IPSyangyu)
超融合需要考虑计算和存储资源相隔离的问题,比如预留多少CPU和内存给存储。
这样比较省资源,但需要注意系统运行的安全等问题。个人感觉对于生产环境还是计算、存储、网络分离部署,更安全。(@崔增顺)
1、超融合架构具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括缓存加速、重复数据删除、在线数据压缩等特性。使用虚拟化平台后节省共享存储资源,节约一定费用。
2、初期小规模使用,后期资源不足,可以通过增加物理主机无缝横向扩展,形成统一的资源池。(@tooyblee)
Q4、虚拟化选型应注意哪些问题?
A4:
小型机的PowerVM和X86的VMWare在实际应用中,是处在客户的不同业务层面。PowerVM虚拟化是一个非常成熟的技术。对于用户而言,成熟稳定在核心业务中的意义是不言而喻的。PowerVM的功能也非常丰富。小型机的虚拟化,在虚拟机部署过程中的高可用设计、后端存储访问的高可用设计、虚机业务在不停机情况下在线迁移的设计等功能上,以及和企业容灾的配合中,都有非常完善的设计。可以提供给用户强有力的业务连续性保障。从用户实践角度看,虚拟化选型可以从两个角度考虑。如果是用于和业务直接相关的生产和准生产环境,技术的成熟度和稳定性是首要考虑的。如果是开发测试等环境,大家则更注重虚拟化管理的灵活性和批量部署等大量解放管理员人力的功能。(@IPSyangyu)
三、Power 服务器虚拟化高可用资源池实现的关键问题?
Q1、资源池的高可用和高稳定性如何去保障?
A1:
核心系统采用资源池部署,在一些IT比较前沿的行业已经有了不少案例,如银行和金融等行业。将最核心的业务部署在企业级高端资源池架构上,并在资源池内通过物理和逻辑的高可用设计来保证高可用性,完全能够满足企业的核心业务的需求。通过企业级设备本身的稳定性、业务间的实时监控和动态切换能力,可以保证业务的计划外停机时间在一个非常小的范围内。而这些高可用的自动化管理,其实也降低了故障时人工判断并应对的难度。(@IPSyangyu)
Q2、云平台维护过程中有什么更好的故障应急处措施?
A2:
这个应该在做架构设计时进行考虑,一定要做到任何一台服务器故障,都不影响系统的使用。这样才可以出现故障场景时,从容的进行硬件维修及更换。这些可以靠一些远程技术去实现,在Power虚拟化中可以通过remote restart功能远程实现虚拟服务器重启。(@崔增顺)
Q3、为什么虚拟化高可用只能建立在共享存储上?
A3:
主要原因有四个:1. 虚拟化的松散耦合方式,CPU、内存、板卡等脱离物理主机限制。2.物理主机指提供计算资源。所有的存储资源都位于共享存储。3. 物理主机故障、虚拟主机迁移至其他物理主机,一般不会造成数据丢失。4. 如果数据存放在某一台物理主机,这台主z机故障,其他主机无法访问这台主机的数据。(@tooyblee)
Q4、云平台搭建过程中需要注意哪些问题?
需要300-500台虚拟机,每天虚拟机下面链接有30-50台终端设备,每天一台虚假机需要满足15万的交易数量。
A4:
这个问题需要立足于以下信息的明确:5万的交易数量,时序分布式如何的,最高秒级交易是多少,如果设计系统必须有详细的要求,秒级交易,带宽,交易日志等的量你都要发出来,另外300-500个vm跨度1倍的,30到50台终端,如何连接等等,这些问题的清晰意味着答案的明确。(@asdf-asdf)
Q5、旧系统如何迁移到虚拟化?
A5:
虚拟化的软件是具有一定的兼容性要求的,通常各种软件都会有兼容的列表,可以提示用户哪些产品在哪些版本之后可以兼容。过于陈旧的系统,可能会由于兼容性的问题无法直接与新系统对接迁移。通常在新旧系统迁移时,还是需要有一次的业务中断的。(@IPSyangyu)
Q6、大并发情况下,软硬件资源如何自动均衡,以避免业务不中断?
A6:
可以通过前端软件或硬件的负载均衡算法将业务分发到后端集群中的不同的服务器中,首先保障分发层面的自动均衡。后端数据库服务器可以集群部署,无论是商业数据库ORACLE RAC、DB2 Purescale 或者开源分布式数据库,都有多个节点保障数据库的连续性,当单个节点故障时只是降低处理总能力,并不会中断服务。当节点修复后可以根据策略加入到集群中。(@IPSyangyu)
四、Power 服务器虚拟化高可用资源池的有效运维管理?
Q1、云平台维护人员需要掌握哪些先进技术?
A1:
操作系统AIX LINUX,平台 openstack k8s,网络 sdn vlan vxlan,脚本python shell,存储 集中式存储、分布式存储。(@崔增顺)
Q2、云平台能集中管理小机吗?目前数据库还是采用小机运行,那么这样就需要x86与小机共同存在?
A2:
现在数据库还是运行在power系统上,web系统是运行在x86上的。云管产品可以集中管理这两类的机器。现在云管管理x86比较简单,而云管对接power有两种思路,一种是对接Powervc,一种是对接hmc。(@崔增顺)
Q3、地铁行业生产环境下使用PowerVM,在高可用性方面需要注意哪些方面的配置?
A3:
1、简单来说,先进行系统规划。重点是网络、存储方面的冗余规划。2、一般采用双VIOS的方式,保证板卡的冗余。3、PowerVM的共享存储,没有VMware迁移方便。需要多加关注。(@tooyblee)
通俗一点说呢,例如:1、两个VIO Server;2、每个业务系统的两个主备的虚拟机分布在两台物理服务器上。;3、每个VIO Server使用网卡etherchannl;4、存储使用多个HBA,多路径。(@崔增顺)
五、Power 服务器虚拟化高可用资源池的容灾?
Q1、云平台异地灾备可以分为多少种类?
A1:
通常异地灾备这个概念可以这样理解:从空间上看,可以考虑同城双中心,异地再有一个第三中心。同城双中心之间数据通过高速交换网络保持实时同步,达到数据双活的能力。异地第三中心,和生产中心之间,由于线路的带宽和成本问题,可以考虑有一定时间差的异步复制,如时间差10分钟等。从功能上看,同城双中心之间,可以做一些功能性的划分,如生产和查询的划分,或不同业务分散在两个中心提供服务。而异地第三中心,则可以适当承载一些开发测试的功能。(@IPSyangyu)
感谢以下社区专家及会员无私分享:pengzi 深圳市地铁集团有限公司、崔增顺 民生银行、IPSyangyu IPS-浪潮商用机器、tooyblee 郑州铁路局、米纳多 地铁公司、EndlessRain、asdf-asdf等
推荐:
地铁集团POWERVM规划设计方案
http://www.talkwithtrend.com/Article/242839
城市轨道交通Power虚拟化高可用分享
http://www.talkwithtrend.com/Document/detail/tid/420681
欢迎关注社区以下 技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流:
→ 虚拟化(点击阅读原文即可前往)
http://www.talkwithtrend.com/Topic/23
→ PowerVM
http://www.talkwithtrend.com/Topic/93703
下载 twt 社区客户端 APP
与更多同行在一起
高手随时解答你的疑难问题
轻松订阅各领域技术主题
浏览下载最新文章资料
长按识别二维码即可下载
或到应用商店搜索“twt”