脸书全球服务宕机超六小时用户全炸锅平台怎么应对

今天本来在写代码,手机突然开始抽风。连不上网,刷新个动态圈圈转半天。我寻思是路由器坏了,结果一看热搜,嚯!脸书炸了,全世界用户都在骂街。

一、刚发现问题时候手忙脚乱

我这边先是后台监控系统开始滴滴叫,红的黄的警报闪成迪厅灯球。抄起电话打给运维小哥,他也在电话里吼:“老大!用户报障电话被打爆了,客服那边直接占线!” 我俩对着电话都能听见对面办公室鸡飞狗跳的动静。

当时根本顾不上下班不下班的。冲出工位直奔控制中心,好家伙,二十几号人全挤在大屏幕前面,汗味儿混着咖啡味儿。数据流量曲线跟跳悬崖似的直往下栽。工程总监脸都绿了,拍着桌子吼:“先别管什么原因!赶紧发公告压压火!”

  • 第一步: 行政小妹抓了台笔记本就开始敲通知,手指头快得飞起
  • 第二步: 运维组把能重启的服务全撸了一遍,屁用没有
  • 第三步: 网络组抱着路由器喊爹骂娘,查半天愣是找不着北

二、挖地三尺找病根儿

眼瞅着宕机快仨钟头,老板电话直接打爆工程总监手机,隔着两米都能听见听筒里在咆哮。这时候有个新来的小弟弱弱举手:“那个...核心数据库的主从同步好像卡死了?” 全场静了两秒,运维老大直接蹦起来:“操!早上的日常备份脚本是不是没关?!”

还真让这菜鸟说着了。技术专家调出后台日志一查,早上自动跑的数据备份把主库拖崩了,连带把路由器的通信协议搞乱了套——就跟十字路口红绿灯全变红灯似的,所有数据堵死在服务器门口。

发现原因也没用!普通用户手机都刷成砖了。产品经理急得直薅头发:“先救能喘气的用户!” 我们只能拆东墙补西墙:

  • 保命操作1: 手动切了三个备用数据库顶着
  • 保命操作2: 把用户分流到没崩的二级服务器
  • 保命操作3: 把首页大图全换成纯文字省带宽

三、血泪教训换来的规矩

折腾到第六个钟头终于修所有人累得像被抽了筋。复盘会从半夜开到天亮,烟灰缸堆成小山。技术老大拍板立新规矩:

  • 铁律1: 备份脚本禁止在流量高峰期跑
  • 铁律2: 核心服务器配置必须由三人核对
  • 铁律3: 每月搞一次断网演习,就当集体渡劫

散会时窗外天都亮了。我灌下今天第六杯咖啡,突然想起上个月有人提议搞备灾演练,当时大伙都说“没空整这些虚的”。现在可全球瘫痪六小时,股价跌掉两百亿,这学费交得真他妈肉疼。

所以朋友们,平时多备点救急方案真不是吃饱撑的。下次再有人说“系统稳得很不会崩”,你就把这篇记录糊他脸上——我这黑眼圈就是最好的防宕机广告。