高峰流量场景下的系统稳定性保障实践沙龙召开
The following article is from 分布式系统稳定性实验室 Author 中国信通院云大所
1月21日下午,中国信通院组织召开了高峰流量场景下的稳定性保障实践分享沙龙,来自顺丰科技、浙江移动、腾讯云、数列科技的专家共同分享了他们在稳定性保障工作中的见解及相关案例。
李卓
顺丰全链路压测
沙龙的第一位嘉宾是来自顺丰科技的应用架构高级工程师李卓。主要介绍了顺丰科技集团在核心业务系统稳定性保障过程中所做的工作。嘉宾重点介绍了21年完成的全链路在线压测项目,该项目解决了顺丰长期以来双十一高峰压测面临的多种问题,包括压测成本高,效率低,压测效果不理想等等。自动化压测平台和配套监控体系的建立拉齐顺丰科技与业界领先水平的技术代差,实现了高峰保障跨越式进步。将之前大量依靠人工操作的工作转化为由工具平台自动化实现,大幅提升了高峰保障的能效。
图1:顺丰科技全链路压测平台架构
史军艇
浙江移动高流量下的稳定性保障行与思
来自浙江移动的SRE架构师史军艇分享了浙江移动多年的SRE工作经验,介绍了稳定性保障体系。演讲嘉宾指出,随着IT产业用户规模的增大,云原生、5G等新技术的层出不穷,线上业务形式也逐渐变得更加复杂,对系统稳定性的需求也达到了新的高度。主要从落地实践的方向出发介绍了浙江移动高峰流量下的稳定性保障体系,包括架构分析、流量回放、容量分析、混沌工程、作战台布防、线上故障抵御等部分。总结了浙江移动的稳定性保障体系架构。
图2:浙江移动高峰流量下稳定性保障体系
杨政权
云函数高并发场景下的最佳实践和落地案例
来自腾讯云的Serverless专家架构师杨政权重点介绍了Severless的极致弹性伸缩在大促、秒杀等高并发场景下的实践。嘉宾指出,为保障系统在高并发场景的平稳运行,除了平台能力之外,对于应用设计也需要符合FaaS的设计规范,从而充分释放系统的潜能,而不合理的应用设计不但会影响系统的可用性还会带来高昂的成本,本次分享将结合腾讯云的云函数高并发场景落地案例,分享FaaS应用设计的最佳实践,以及其在应对高并发场景时的作用。
图3:腾讯云弹性驱动的Serverless设计案例
杨德华
多供应商IT系统稳定性保障实践
数列科技的资深架构技术专家杨德华分享了多供应商场景下的稳定性保障工作。IT系统要实现更复杂的功能、服务更多的用户、承载更大的流量,就意味着要引入更多的组件,这些组件来自于不同的供应商,涉及整个系统的诸多不同环节。更复杂的系统必然会引入更多的潜在故障,也必然存在更高的稳定性风险,这就对多供应商IT系统的稳定性保障提出了更高的要求。嘉宾分享了浙江大学的多供应商IT系统案例,浙江大学采用全链路压测和链路监控的技术发现和定位潜在的链路性能问题,取得了良好的效果,保障了疫情管控时期线上课程的平稳进行。
图4:浙江大学多供应商稳定性保障成效
王超伦
《分布式系统稳定性建设与保障指南》发布
沙龙的最后由中国信通院工程师/分布式系统稳定性实验室技术负责人王超伦分享了《分布式系统稳定性保障及建设指南》(1.0版)的背景、内容和相关编制历程。随着信息化的不断深入,系统的稳定性变得愈发重要。中国信通院分布式系统稳定性实验室协同实验室成员单位于2022年1月完成该指南的编制工作,梳理了系统稳定性建设和保障工作的基本架构,希望给各方的稳定性建设工作提供参考,帮助各行业完善软件系统稳定性保障体系。
指南提出了稳定性相关工作的两大基本原则,即“稳定性建设需注重平衡取舍,稳定性保障需注重积极防御”。指南明确了稳定性相关工作中人员、管理、技术这三个重点要素。指南分别针对日常稳定性建设和流量高峰时期的稳定性保障提出了四个核心能力(针对故障的预防、响应、处置、改进)和五项关键工作(团队组织、业务梳理、系统准备、事中协同工作、事后复盘)。指南的最后介绍了稳定性评估标准。
图5:指南整体框架
扫码观看沙龙直播回放
联系人:王超伦
wangchaolun@caict.ac.cn
欢迎关注中国信通院旗下“分布式系统稳定性实验室”官方微信公众号,我们将持续分享业内干货,举办相关技术交流沙龙,制定行业标准并撰写相关领域的研究报告。欢迎大家报名参与!