TakinTalks稳定性社区

其他

去哪儿的常态化容量保障是怎么做的?

限流的流量识别动态限流很重要的一个环节就是流量识别。举个例子,机票业务的流量识别,我们抽离出来这样五个维度——业务类型、请求源、客户端、行程类型、抓取类型。比如,请求源这里我们会区分
其他

美图是如何搭建压测监控一体化平台的?

模式来进行压测。VU模式是指的虚拟用户模式,一般是用来探测系统的最大的并发数,就是系统能支持多少并发量,这种一般是用在客户端应用多一些,主要是用在客户端应用的一些压测。支持不同压测协议:比如我们有
2022年10月27日
其他

美图SRE:一次线上大事故,我悟出了故障治理的3步9招

就可以非常清晰地看到有哪些服务受到了影响。另外在日常巡检的时候,通过巡检大盘也可以非常清晰地看到全局的状态,识别哪些服务是需要去重点关注的。(美图公司-域名SLA巡检大盘)
其他

阿里云弹性计算SRE实践:亿级调用量下的预警治理六要素

上的云产品的底座,同时也支撑着国内外非常多的业务,其贡献和重要性有目共睹。由于阿里内部的经济体上云和云计算普及,ECS
其他

监控告警怎么搭建比较合理?B站SRE实践总结了4大关键步骤|TakinTalks大咖分享

告警投群往往还有另外一种情况,就是服务负责人不能立马看到告警,针对这种情况我们可以提前准备告警群,把告警投入小组的群里,这样群里的其他同学也能看到告警,帮负责人处理告警或者提醒负责人处理告警。
其他

故障复盘后的告警如何加出效果?浙江移动等老司机总结了4条注意事项|TakinTalks热点话题

713事故后的多活容灾建设👉10年稳定性保障经验总结,故障复盘要回答哪三大关键问题?📢点击【阅读原文】直达故障经验
其他

10年稳定性保障经验总结,故障复盘要回答哪三大关键问题?|TakinTalks大咖分享

怎么样做好故障复盘?是否只要把事故要定责到人就能解决问题?这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点:故障复盘的三大关键问题:1.
其他

B站SRE负责人亲述 713事故后的多活容灾建设|TakinTalks大咖分享

「社区发起人推荐语」——1.分布式系统无法保障绝对可用,相信大家都碰到过软件系统长时间不可用。面对类似问题,美国经济学家⽶歇尔·渥克提出了灰犀牛理论,用灰犀牛⽐喻⼤概率且影响巨⼤的潜在危机。2.如果你也面临复杂系统稳定性保障的难题,推荐阅读本文,武老师给你讲述B站如何遭遇、盯紧、应对稳定性”灰犀牛“的故事,希望对你有一定启发。——杨德华
其他

B站713崩盘、复原、处理、优化全过程实录|TakinTalks推荐阅读

著名的B站713故障想必大家都记忆犹新吧,本文详细讲述了713故障背后的故事,值得细细品味。此外本周六我们邀请了B站老师来讲讲《B站713后的多活容灾建设》,欢迎大家来直播间交流!至暗时刻2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。初因定位22:55