脸书全球服务宕机超六小时用户全炸锅平台怎么应对|WIN攻略

今天本来在写代码，手机突然开始抽风。连不上网，刷新个动态圈圈转半天。我寻思是路由器坏了，结果一看热搜，嚯！脸书炸了，全世界用户都在骂街。

一、刚发现问题时候手忙脚乱

我这边先是后台监控系统开始滴滴叫，红的黄的警报闪成迪厅灯球。抄起电话打给运维小哥，他也在电话里吼：“老大！用户报障电话被打爆了，客服那边直接占线！” 我俩对着电话都能听见对面办公室鸡飞狗跳的动静。

当时根本顾不上下班不下班的。冲出工位直奔控制中心，好家伙，二十几号人全挤在大屏幕前面，汗味儿混着咖啡味儿。数据流量曲线跟跳悬崖似的直往下栽。工程总监脸都绿了，拍着桌子吼：“先别管什么原因！赶紧发公告压压火！”

眼瞅着宕机快仨钟头，老板电话直接打爆工程总监手机，隔着两米都能听见听筒里在咆哮。这时候有个新来的小弟弱弱举手：“那个...核心数据库的主从同步好像卡死了？” 全场静了两秒，运维老大直接蹦起来：“操！早上的日常备份脚本是不是没关？！”

还真让这菜鸟说着了。技术专家调出后台日志一查，早上自动跑的数据备份把主库拖崩了，连带把路由器的通信协议搞乱了套——就跟十字路口红绿灯全变红灯似的，所有数据堵死在服务器门口。

发现原因也没用！普通用户手机都刷成砖了。产品经理急得直薅头发：“先救能喘气的用户！” 我们只能拆东墙补西墙：

折腾到第六个钟头终于修所有人累得像被抽了筋。复盘会从半夜开到天亮，烟灰缸堆成小山。技术老大拍板立新规矩：

散会时窗外天都亮了。我灌下今天第六杯咖啡，突然想起上个月有人提议搞备灾演练，当时大伙都说“没空整这些虚的”。现在可全球瘫痪六小时，股价跌掉两百亿，这学费交得真他妈肉疼。

所以朋友们，平时多备点救急方案真不是吃饱撑的。下次再有人说“系统稳得很不会崩”，你就把这篇记录糊他脸上——我这黑眼圈就是最好的防宕机广告。