又崩了？盤點2023年十大線上事故！

作者：CUGGZ 2023-12-31 12:06:51

這已是 X 平臺今年第二次大規模宕機事件。早在今年 3 月，該平臺便經歷了一次全球性中斷。自 440 億美元收購后，馬斯克對其進行了大幅裁員，裁員幅度接近 80%，其中包括許多負責修復和防止服務中斷的工程師。

又崩了？盤點2023年十大線上事故！

2023 年，互聯網世界日新月異，線上應用已成為我們生活中不可或缺的一部分。然而，在這一年里，一系列令人咋舌的線上事故頻頻發生，“XXX 崩了”成為熱搜常客。這些事故不僅給用戶帶來了不便和困擾，也暴露出線上服務在穩定性、安全性和應對突發事件的能力方面存在的問題。本文將盤點 2023 年的十大線上事故，以期為未來的線上服務提供借鑒和警示。

嗶哩嗶哩

3 月 5 日晚，B 站出現服務器故障，網頁端和移動端的視頻均無法加載，轉發的視頻鏈接顯示“資源失效”。

圖片

受影響的主要是“番劇”和“影視”頁面，用戶反映“追番一直提示獲取視頻內容失敗”、“顯示頁面加載失敗”、“看番看一半加載不出來”。還有用戶反映，首頁能夠加載，但全部是繁體字。

圖片

6 月 28 日，不少用戶反應“B 站崩了”，該詞條隨后上了熱搜。用戶反映“追番一直提示獲取視頻內容失敗”“顯示頁面加載失敗，你們也這樣嗎？”“看番看一半加載不出來，我以為我的網有問題”。

該問題持續了一個多小時才被解決。

騰訊

3 月 29 日凌晨，大量網友稱微信、QQ 等騰訊旗下社交軟件出現功能異常。微信包括語音呼叫、賬號登錄、朋友圈以及支付在內的多個功能無法正常使用，QQ 文件傳輸、QQ 空間、QQ 郵箱等也同樣出現問題。

圖片

騰訊客服對此回應稱，由于系統故障，部分用戶使用微信支付相關功能出現異常，目前正在緊急修復中。用戶資金安全不受影響。故障修復后，相關功能使用將恢復正常。

圖片

此次事故是由廣州電信機房冷卻系統故障導致，騰訊將其定義為公司一級事故。

事后，工信部通信管理局就微信“3.29 事件”約談了騰訊相關人員，聽取了情況匯報，并要求騰訊公司進一步健全安全生產管理制度、落實網絡運行保障措施，堅決避免發生重大安全生產事故，切實提升公眾業務安全穩定運行水平。

圖片

12 月 3 日，騰訊視頻突然沒有會員了。

圖片

對此，騰訊視頻官方微博回應：目前騰訊視頻出現了短暫技術問題，我們正在加緊修復，各項功能在逐步恢復中。感謝您的耐心等待，由此給您帶來的不便我們深感歉意。

圖片

唯品會

3 月 29 日，“唯品會崩了”登上微博熱搜。唯品會對此進行了回應：

圖片

事后，唯品會發布了一份處理公告，將 329 機房宕機故障判定為 P0 級故障。官方在公告中稱，此次南沙機房重大故障影響時間持續 12 個小時，導致公司業績損失超億元，影響客戶達 800 多萬。唯品會表示，決定對此次事件嚴肅處理，對應部門的直接管理者承擔此次事故責任，基礎平臺部負責人予以免職做相應處理。

Boss 直聘

5 月 24 日，網友反映 Boss 直聘崩了。隨后 Boss 直聘回應稱：今日上午部分用戶使用 boss 直聘 pc 端時，部分功能出現異常，經過緊急搶修，目前已恢復。

7 月 6 日，許多用戶打開 BOSS 直聘，發現頁面中顯示“系統服務錯誤”，無法正確切換身份。還有網友表示，正和求職者聊著，要馬上約面試了，結果就崩了。BOSS 直聘也于當天發布消息稱，“7 月 6 日上午，BOSS 直聘 APP 出現短時間服務異常，經過團隊搶修已恢復正常。期間為用戶帶來的不便我們深表歉意。我們將持續優化服務保障。感謝大家一直以來的關注與支持”。

9 月 15 日，“BOSS 直聘”突然崩潰，許多用戶無法刷新頁面，無法查看新的招聘信息，甚至無法進行聊天交流。

在社交媒體上，一位自稱是 BOSS 直聘員工表示，金九銀十是招聘旺季，2023 年 9 月 15 日 10 點 15 分 26 秒，在線統計超過 4700 萬人在刷 BOSS 頁面，目前服務器超荷載，正在維護，找工作的人比國慶買票的人還著急。

BOSS 直聘回應稱，關注到一張網傳截圖。服務器崩了，是真的。技術要改進，是真的。網傳的數據，是假的。請大家不信謠，不傳謠。據最新數據，每月使用 BOSS 直聘的用戶，4360 萬人。”

圖片

語雀

10 月 23 日，螞蟻金服旗下的在線文檔編輯與協同工具語雀發生了前所未有的 P0 級事故，導致平臺無法正常訪問和使用，持續了近 8 個小時（14:10 至 21:45）

圖片

事后，語雀給出了故障原因及處理過程：

10 月 23 日下午，服務語雀的數據存儲運維團隊在進行升級操作時，由于新的運維升級工具 bug，導致華東地區生產環境存儲服務器被誤下線。受其影響，語雀數據服務發生嚴重故障，造成大面積的服務中斷。為了盡快恢復服務，我們和數據存儲運維團隊全力進行數據恢復工作，但受限于恢復方案、數據量級等因素，整體用時較長。具體過程如下：
14:07 數據存儲運維團隊收到監控系統報警，定位到原因是存儲在升級中因新的運維工具 bug 導致節點機器下線；
14:15 聯系硬件團隊嘗試將下線機器重新上線；
15:00 確認因存儲系統使用的機器類別較老，無法直接操作上線，立即調整恢復方案為從備份系統中恢復存儲數據。
15:10 開始新建存儲系統，從備份中開始恢復數據，由于語雀數據量龐大，此過程歷時較長
19 點完成數據恢復；同時為保障數據完整性，在完成恢復后，用時 2 個小時進行數據校驗；
21 點存儲系統通過完整性校驗，開始和語雀團隊聯調，最終在 22 點恢復語雀全部服務。用戶所有數據均未丟失。

以及改進措施：

通過這次故障我們深刻認識到，語雀作為一款服務千萬級客戶的文檔產品，應該做到更完善的技術風險保障和高可用架構設計，尤其是面向技術變更操作的“可監控，可灰度，可回滾”的系統化建設和流程審計，從同 Region 多副本容災升級為兩地三中心的高可用能力，設計足夠的數據和系統冗余實現快速恢復，并進行定期的容災應急演練。只有這樣，才能提升嚴重基礎設施故障時的恢復速度，并從根本上避免這類故障再次出現。為此我們制定了如下改進措施：
升級硬件版本和機型，實現離線后的快速上線。該措施在本次故障修復中已完成；
運維團隊加強運維工具的質量保障與測試，杜絕此類運維 bug 再次發生；
縮小運維動作灰度范圍，增加灰度時間，提前發現 bug；
從架構和高可用層面改進服務，為語雀增加存儲系統的異地災備。

并針對語雀個人用戶，贈送了 6 個月的會員服務。