查看原文
其他

搞出生产事故了怎么办?在线等,挺急的!

字节范儿 why技术 2023-04-08

你好呀,我是歪歪。

作为一个程序员,或多或少都经历过一些生产问题。

比如我还记得我的第一个生产问题就是我接到的第一个开发任务,写一个分页查询,但是学艺不精,还带了个死循环的 BUG 上去。

具体就是分页的时候带着状态去查询,在循环体中针对状态进行修改,但是由于没有考虑到异常情况,假设处理的时候出现了异常,数据状态并没有更改。

比如我要从数据库里面分页查询拿出 10 条状态为 0 的数据修改为 1,但是由于程序异常导致从 0 修改为 1 的操作没有执行成功,从而导致每次从数据库里面都拉出来的是同一批数据。

这就是我职业生涯的第一个生产 BUG。

当时还在试用期,心里慌得一比。后来还主动给领导写了一封诚恳的检讨邮件。

领导特别好,安慰我说:只要不涉及到资金损失,这些都是小问题。都是你以后吹牛逼的资本。

然后...

没多久我就搞出了一个资金损失的生产 BUG,给商户重复划款了几十万。

好在是合作关系比较好的商户,经过沟通把钱打回来了。这钱要是放到了个人用户手里,一整个就是个大大的犊子。

这也是我目前为止的职业生涯唯一的一次涉及到资金损失的生产事故。

其他的大大小小的生产事故就不计其数了,比如最近的一次生产事故,就是由于湖南电信大厦起火导致网络中断了一会:

说是事故,但是由于不是我们自己系统内部导致的,就不是什么大问题。

而且我们在需求分析以及写代码的时候就考虑到了相关的情况,如果某个渠道网络不通,有替换渠道就走替换渠道,没有就预警、hold 住交易、上报情况、等待恢复、发起重试就完事儿了。

无非就是在实现“发起重试”的时候考虑一下大批量数据如何丝滑处理的问题而已。

关于生产,我想起我刚刚入行的时候,在一次会议上,一个同事说:我们要重视生产环境,巴拉巴拉巴拉...

然后领导最后做总结发言的时候,说:刚刚有同事说要“重视”生产环境,我觉得不够准确,力度不够。我觉得应该是要对生产环境怀有敬畏之心。

敬畏生产,这四个字也就是那个时候才第一次刻入了我的脑海里。

同样也是关于生产事故,我在“字节范儿”公众号上看到他们发布的一篇关于生产事故的文章,我觉得挺有意思的,分享给大家。

https://mp.weixin.qq.com/s/FeVJCWZADlH7N6HjNXLPKQ


··············  END  ··············

推荐👍小帅来面试,小美去入职?

推荐👍被优化了!我说的是代码,不是人。

推荐👍啥是有“技术含量”的代码啊?

推荐👍 :千万不要在方法上打断点,有大坑!

推荐👍 :2021,我这一年。

你好呀,我是歪歪。我没进过一线大厂,没创过业,也没写过书,更不是技术专家,所以也没有什么亮眼的title。

当年高考,随缘调剂到了某二本院校计算机专业。纯属误打误撞,进入程序员的行列,之后开始了运气爆棚的程序员之路。

说起程序员之路还是有点意思,可以点击蓝字,查看我的程序员之路

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存