首页 » 技术资讯 » 职场(线上故障断送职场那次)

职场(线上故障断送职场那次)

admin 2024-07-23 22:26:00 技术资讯 0

扫一扫用手机浏览

文章目录 [+]

有些大厂就对故障抓的特别严,比如资金损失超过500块的,可能就会导致全年低绩效甚至走人。
就比如这周冲上热搜的b站小红书崩溃的故障,我估计阿里云那边又有几个研发要被祭天了。
今天继续讲一下让程序员崩溃的事:线上故障。

每一个互联网研发肯定都经历过大大小小的线上问题,今天我就讲一下发生在自己身上的一次线上事故。
我记得那天已经是晚上11点多了,我都快睡着了,突然手机开始疯狂告警,两分钟内就收到了几十条告警短信。
我们团队原因就是我们团队负责的某一个功能开始出现故障,导致用户在线上无法下单。

我一看这线上已经开始出现资金损失了,赶紧又拉群又开线上会议,不过找人就浪费了不少时间,因为有人已经睡着了,得先打电话叫醒。
线上故障的时候最忌讳的就是手忙脚乱,所以一般线上故障的处理就和部队里的四人小分队一样,也是一个四人小组把控。

职场(线上故障断送职场那次) 职场(线上故障断送职场那次) 技术资讯
(图片来自网络侵删)

有一个总指挥把控全局跟进进度,有一个操作者专门执行各种操作来去止损,一个系统负责人来排查故障根因,还有一个人是专门进行协调沟通的发布故障通告什么的。
我们也是按照这个思路迅速分工处理,后面发现是一个地方的代码有bug,赶紧找人修复上线,一直忙活到凌晨2点多这才算解决这个问题。

幸好是半夜,用户下单量也比较小,资金损失不大,否则这就是分分钟走人的节奏了。
互联网公司其实对每一个线上故障都是非常重视的,尤其是那些可能带来资金损失的。
如果发现故障必须当时立即找相关人事去解决,以避免造成更多的交易损失。

职场(线上故障断送职场那次) 职场(线上故障断送职场那次) 技术资讯
(图片来自网络侵删)

并且故障解决后还要对此事去做复盘、定损、定级、定责任人、定罚,全公司去通报以警效尤。
有些大厂就对故障抓的特别严,比如资金损失超过500块的,可能就会导致全年低绩效甚至走人。
就比如这周冲上热搜的b站小红书崩溃的故障,我估计阿里云那边又有几个研发要被祭天了。
b站小红书崩溃的那个故障,我估计阿里云那边又有几个研发要被祭天了。

之前我还见过更奇葩的公司,竟然起诉了已经离职的程序员,要求他赔偿线上故障造成的资损。
一发生线上事故,基本上这条线上的人都得全军出动,故障群里面随时待命。
不管你当时在做什么,你在哪个地方,都必须紧紧盯在电脑前。
如果因为某件事联系不上你,那你这责任可就大了。

而由于现在的互联网产品大都是24小时提供服务,所以我们也得7乘以24小时待命。
这也就是为什么大家在网上看到那么多程序员去哪都背着个电脑,在地铁站,在路边去修bug。

标签:

相关文章