其他
不止是上云,更是上岸
常耀国,腾讯SRE专家,现就职于PCG-大数据平台部,负责千万级QPS业务的上云、监控和自动化工作。
背景
混合云弹性伸缩
弹性伸缩整体效果
弹性伸缩方案
资源管理
日常业务负载小幅度升高,时间持续较短 春节业务负载大幅度升高,并持续一段时间 针对上述的业务场景,我们采用三种资源类型来应对不同场景,具体如下表所述:
类型 | 场景 | set |
---|---|---|
公共资源池 | 日常业务 | bls.sh.1 |
算力平台 | 小高峰 | bls.sh.2 |
专用资源池 | 春节 | bls.sh.3 |
弹性扩缩容
类型 | CPU自动缩容阈值 | CPU自动扩容阈值 | 最小副本数 | 最大副本数 |
---|---|---|---|---|
123平台公共资源池 | 20 | 60 | 300 | 1000 |
算力平台 | 40 | 50 | 300 | 1000 |
123平台专有资源池 | 20 | 60 | 300 | 1000 |
问题及解决
只能绑定 IP 地址,无法拉取实例,实例销毁也不会自动解绑,需要通过控制台或 API 主动解绑(已跨账号,拉取不到实例) 如果是大规模上量:过哪些网关、哪些容量需要评估、风险控制,需要评估
单机故障自动化处理
单机故障处理效果
单机故障处理方案
维度 | 告警项 |
---|---|
系统层面 | CPU |
系统层面 | 内存 |
系统层面 | 网络 |
系统层面 | 磁盘 |
业务层面 | ATTA Agent不可用 |
业务层面 | 队列过长 |
业务层面 | 发送atta数据成功率 |
ATTA Agent 异常处理
问题及解决
总结
迁移方案:上云之前做好迁移方案的调研,特别是依赖系统的支持的功能,降低迁移过程因系统不支持的系统性风险 。 迁移过程:做好指标监控,迁移流量之后,及时观测指标,出现问题及时回滚。
互动赢好礼
精读文章,回答问题赢好礼
Q1:0人力运维是否是伪命题?
Q2:目前大环境都在上云,那么在上云的过程中,各位遇到的问题和解决的方式可以分享一下。12月1日上午11点,由作者选出回答最佳的5位读者,送腾讯定制“猿”T恤一件。
往期精选推荐