聊一聊在亚马逊云的oncall经历

Original 一亩三分地用户一亩三分地求职与职场

收录于话题

#亚马逊 7

#职场 54

作者@一亩三分地匿名发布在一亩三分地

欢迎大家点击左下角“阅读原文”到原帖与作者交流讨论哦！

背景

过去4年在亚马逊云2个组待过，都是oncall相对比较重的组，为什么oncall比较重还呆了这么久，一是职业发展考虑，二是身份限制。上个月楼主跳槽了

首先要说，亚马逊云绝大部分组的oncall强度都没有接下来描述的大。

第一个组的oncall设置

第一类oncall，一级oncall，二级oncall，三级oncall，之所以这么设置是因为经常会出现一些文档无法cover的问题，就像你做的服务是安全认证，但真正核心的安全漏洞算法需要更专业的人去处理，这个更专业的同事在这里扮演二级oncall的角色。

因为这个oncall强度非常大，我们是3周一轮，一次一天，只有白天8个小时。另外16个小时由欧洲和澳洲组cover，保证没有人晚上oncall。以前是24小时的，但后来强度特别大你不能让人24小时不睡觉吧。

强度大什么概念，8个小时平均是10-15个2级，某些2级需要排查10多种情况，几个小时就过去了。如果一级忙不过来，二级必须上手帮忙。

因为业务和code base的原因，组里的ticket数量是降不下来的。

这个组的第二类oncall是QA，就是专注整合测试的，因为产品特别复杂和成熟，整合测试比较多，在代码上线的不同阶段/环境都有相应的整合测试，你的工作任务就是排查测试问题，并修改相应的代码。因为高员工流失率，测试代码是有各种bug的。

这个oncall大概两个月轮转一次，一次一周。

第一个组oncall遇到的极端情况：

第一种oncall和第二种oncall重叠。节假日oncall二级oncall放假没有额外支持。在第一种oncall时身体不适但没有人愿意换的。某一次20多个二级，自己大概处理了10个，剩下的都是队友帮助的

第一个组oncall接触的人：

企业级premium support（他们有业绩需要，极为push，往往非SDE出身不太清楚oncall的强度）；同组队友（有可能什么修改，什么新的feature，什么test branch之类的）；姐妹组员工经理等；内部客户（一般来说是SDE，交流起来共同语言多）

第二个组的oncall设置

只有一类oncall，一级oncall，这个和大部分亚马逊云的设置类似。

24小时，虽然在组里的ops review中设置ticket级别尽力不让凌晨被叫醒，但实际操作中大概平均两周会有那么一次晚上被叫醒。因为流量比较大，上游客户比较多，压力还是很大的。

当然，强度和第一个组比小巫见大巫。虽然没有二级（skip明确要求不要二级，说一级都能搞定），但经常会出现sr的帮助new grad的情况

第二个组oncall遇到的极端情况：

没什么特别的极端情况，无非是一两天都没解决比较严重的availability问题，写个COE啥的比较常见（3个月一次）

第二个组oncall接触的人：

全是内部客户，上下游姐妹组。

先说一些积极的东西，不少人关注在oncall中能学到了什么

⭕️ 和不同人优雅撕逼的能力，这里不是推卸责任，而是在遇到一个问题时hold every party accountable，有些客户着急会升级给我们经理，这时候要能解释清楚情况，即时汇报进度。简单说就是沟通能力

⭕️ 技术上的提高。主要是在高流量，变化的流量模式下，系统的瓶颈暴漏。很多时候瓶颈会cascade，这时候排查问题不仅仅需要扎实的知识（比如总有那么一个cache host流量那么大，这很可能是hot partition问题），还需要经验（那么多metric，都查一遍抓不住重点）。

⭕️ 由一些ops上出现的问题，更深层次的理解架构和开发，比如我们在migrate新的产品时，就避开了之前会产生的很多ops问题。

不积极的东西后面再补充，如果有人感兴趣看这个帖子的话。

大家都爱看

👍我和印度人一起工作的8点体验

👍国内大厂高级别IC如何成功

👍美国同事老嘲讽我中国人吃狗肉，我上报公司，然后...

👍亚马逊4年员工，告诉你亚麻到底值不值得选？

大家如果还有相关的问题和看法，欢迎点击“阅读原文”到一亩三分地讨论

源于一亩三分地，版权归原作者所有
本文禁止任何形式的转载，请与一亩三分地联系
欢迎小伙伴们爆料提供新闻线索发送到：1point3acres.ops.1@gmail.com，会加米哟

生活｜投资｜职场｜留学

与百万华人一同关注我们4个公众号！

别错过北美最新热点和干货！

商业合作：1point3acres.com/contact

百万级月活，品牌精准投放