欢迎大家点击左下角“阅读原文”到原帖与作者交流讨论哦!
过去4年在亚马逊云2个组待过,都是oncall相对比较重的组,为什么oncall比较重还呆了这么久,一是职业发展考虑,二是身份限制。上个月楼主跳槽了
首先要说,亚马逊云绝大部分组的oncall强度都没有接下来描述的大。
第一类oncall,一级oncall,二级oncall,三级oncall,之所以这么设置是因为经常会出现一些文档无法cover的问题,就像你做的服务是安全认证,但真正核心的安全漏洞算法需要更专业的人去处理,这个更专业的同事在这里扮演二级oncall的角色。
因为这个oncall强度非常大,我们是3周一轮,一次一天,只有白天8个小时。另外16个小时由欧洲和澳洲组cover,保证没有人晚上oncall。以前是24小时的,但后来强度特别大你不能让人24小时不睡觉吧。
强度大什么概念,8个小时平均是10-15个2级,某些2级需要排查10多种情况,几个小时就过去了。如果一级忙不过来,二级必须上手帮忙。
因为业务和code base的原因,组里的ticket数量是降不下来的。
这个组的第二类oncall是QA,就是专注整合测试的,因为产品特别复杂和成熟,整合测试比较多,在代码上线的不同阶段/环境都有相应的整合测试,你的工作任务就是排查测试问题,并修改相应的代码。因为高员工流失率,测试代码是有各种bug的。
这个oncall大概两个月轮转一次,一次一周。
第一种oncall和第二种oncall重叠。节假日oncall二级oncall放假没有额外支持。在第一种oncall时身体不适但没有人愿意换的。某一次20多个二级,自己大概处理了10个,剩下的都是队友帮助的
企业级premium support(他们有业绩需要,极为push,往往非SDE出身不太清楚oncall的强度);同组队友(有可能什么修改,什么新的feature,什么test branch之类的);姐妹组员工经理等;内部客户(一般来说是SDE,交流起来共同语言多)
只有一类oncall,一级oncall,这个和大部分亚马逊云的设置类似。
24小时,虽然在组里的ops review中设置ticket级别尽力不让凌晨被叫醒,但实际操作中大概平均两周会有那么一次晚上被叫醒。因为流量比较大,上游客户比较多,压力还是很大的。
当然,强度和第一个组比小巫见大巫。虽然没有二级(skip明确要求不要二级,说一级都能搞定),但经常会出现sr的帮助new grad的情况
没什么特别的极端情况,无非是一两天都没解决比较严重的availability问题,写个COE啥的比较常见(3个月一次)
全是内部客户,上下游姐妹组。
⭕️ 和不同人优雅撕逼的能力,这里不是推卸责任,而是在遇到一个问题时hold every party accountable,有些客户着急会升级给我们经理,这时候要能解释清楚情况,即时汇报进度。简单说就是沟通能力
⭕️ 技术上的提高。主要是在高流量,变化的流量模式下,系统的瓶颈暴漏。很多时候瓶颈会cascade,这时候排查问题不仅仅需要扎实的知识(比如总有那么一个cache host流量那么大,这很可能是hot partition问题),还需要经验(那么多metric,都查一遍抓不住重点)。
⭕️ 由一些ops上出现的问题,更深层次的理解架构和开发,比如我们在migrate新的产品时,就避开了之前会产生的很多ops问题。
不积极的东西后面再补充,如果有人感兴趣看这个帖子的话。
大家如果还有相关的问题和看法,欢迎点击“阅读原文”到一亩三分地讨论
源于一亩三分地,版权归原作者所有
本文禁止任何形式的转载,请与一亩三分地联系
欢迎小伙伴们爆料提供新闻线索发送到:1point3acres.ops.1@gmail.com,会加米哟
生活|投资|职场|留学
与百万华人一同关注我们4个公众号!
别错过北美最新热点和干货!
商业合作:1point3acres.com/contact
百万级月活,品牌精准投放
Go to "Discover" > "Top Stories" > "Wow"