又崩了?盤點2023年十大線上事故!
又崩了?盤點2023年十大線上事故!
2023 年,互聯網世界日新月異,線上應用已成為我們生活中不可或缺的一部分。然而,在這一年里,一系列令人咋舌的線上事故頻頻發生,“XXX 崩了”成為熱搜常客。這些事故不僅給用戶帶來了不便和困擾,也暴露出線上服務在穩定性、安全性和應對突發事件的能力方面存在的問題。本文將盤點 2023 年的十大線上事故,以期為未來的線上服務提供借鑒和警示。
嗶哩嗶哩
3 月 5 日晚,B 站出現服務器故障,網頁端和移動端的視頻均無法加載,轉發的視頻鏈接顯示“資源失效”。
圖片
受影響的主要是“番劇”和“影視”頁面,用戶反映“追番一直提示獲取視頻內容失敗”、“顯示頁面加載失敗”、“看番看一半加載不出來”。還有用戶反映,首頁能夠加載,但全部是繁體字。
圖片
6 月 28 日,不少用戶反應“B 站崩了”,該詞條隨后上了熱搜。用戶反映“追番一直提示獲取視頻內容失敗”“顯示頁面加載失敗,你們也這樣嗎?”“看番看一半加載不出來,我以為我的網有問題”。
該問題持續了一個多小時才被解決。
騰訊
3 月 29 日凌晨,大量網友稱微信、QQ 等騰訊旗下社交軟件出現功能異常。微信包括語音呼叫、賬號登錄、朋友圈以及支付在內的多個功能無法正常使用,QQ 文件傳輸、QQ 空間、QQ 郵箱等也同樣出現問題。
圖片
騰訊客服對此回應稱,由于系統故障,部分用戶使用微信支付相關功能出現異常,目前正在緊急修復中。用戶資金安全不受影響。故障修復后,相關功能使用將恢復正常。
圖片
此次事故是由廣州電信機房冷卻系統故障導致,騰訊將其定義為公司一級事故。
事后,工信部通信管理局就微信“3.29 事件”約談了騰訊相關人員,聽取了情況匯報,并要求騰訊公司進一步健全安全生產管理制度、落實網絡運行保障措施,堅決避免發生重大安全生產事故,切實提升公眾業務安全穩定運行水平。
圖片
12 月 3 日, 騰訊視頻突然沒有會員了。
圖片
對此,騰訊視頻官方微博回應:目前騰訊視頻出現了短暫技術問題,我們正在加緊修復,各項功能在逐步恢復中。感謝您的耐心等待,由此給您帶來的不便我們深感歉意。
圖片
唯品會
3 月 29 日,“唯品會崩了”登上微博熱搜。唯品會對此進行了回應:
圖片
事后,唯品會發布了一份處理公告,將 329 機房宕機故障判定為 P0 級故障。官方在公告中稱,此次南沙機房重大故障影響時間持續 12 個小時,導致公司業績損失超億元,影響客戶達 800 多萬。唯品會表示,決定對此次事件嚴肅處理,對應部門的直接管理者承擔此次事故責任,基礎平臺部負責人予以免職做相應處理。
Boss 直聘
5 月 24 日,網友反映 Boss 直聘崩了。隨后 Boss 直聘回應稱:今日上午部分用戶使用 boss 直聘 pc 端時,部分功能出現異常,經過緊急搶修,目前已恢復。
7 月 6 日,許多用戶打開 BOSS 直聘,發現頁面中顯示“系統服務錯誤”,無法正確切換身份。還有網友表示,正和求職者聊著,要馬上約面試了,結果就崩了。BOSS 直聘也于當天發布消息稱,“7 月 6 日上午,BOSS 直聘 APP 出現短時間服務異常,經過團隊搶修已恢復正常。期間為用戶帶來的不便我們深表歉意。我們將持續優化服務保障。感謝大家一直以來的關注與支持”。
9 月 15 日,“BOSS 直聘”突然崩潰,許多用戶無法刷新頁面,無法查看新的招聘信息,甚至無法進行聊天交流。
在社交媒體上,一位自稱是 BOSS 直聘員工表示,金九銀十是招聘旺季,2023 年 9 月 15 日 10 點 15 分 26 秒,在線統計超過 4700 萬人在刷 BOSS 頁面,目前服務器超荷載,正在維護,找工作的人比國慶買票的人還著急。
BOSS 直聘回應稱,關注到一張網傳截圖。服務器崩了,是真的。技術要改進,是真的。網傳的數據,是假的。請大家不信謠,不傳謠。據最新數據,每月使用 BOSS 直聘的用戶,4360 萬人。”
圖片
語雀
10 月 23 日,螞蟻金服旗下的在線文檔編輯與協同工具語雀發生了前所未有的 P0 級事故,導致平臺無法正常訪問和使用,持續了近 8 個小時(14:10 至 21:45)
圖片
事后,語雀給出了故障原因及處理過程:
10 月 23 日下午,服務語雀的數據存儲運維團隊在進行升級操作時,由于新的運維升級工具 bug,導致華東地區生產環境存儲服務器被誤下線。受其影響,語雀數據服務發生嚴重故障,造成大面積的服務中斷。為了盡快恢復服務,我們和數據存儲運維團隊全力進行數據恢復工作,但受限于恢復方案、數據量級等因素,整體用時較長。具體過程如下:
- 14:07 數據存儲運維團隊收到監控系統報警,定位到原因是存儲在升級中因新的運維工具 bug 導致節點機器下線;
- 14:15 聯系硬件團隊嘗試將下線機器重新上線;
- 15:00 確認因存儲系統使用的機器類別較老,無法直接操作上線,立即調整恢復方案為從備份系統中恢復存儲數據。
- 15:10 開始新建存儲系統,從備份中開始恢復數據,由于語雀數據量龐大,此過程歷時較長
- 19 點完成數據恢復;同時為保障數據完整性,在完成恢復后,用時 2 個小時進行數據校驗;
- 21 點存儲系統通過完整性校驗,開始和語雀團隊聯調,最終在 22 點恢復語雀全部服務。用戶所有數據均未丟失。
以及改進措施:
通過這次故障我們深刻認識到,語雀作為一款服務千萬級客戶的文檔產品,應該做到更完善的技術風險保障和高可用架構設計,尤其是面向技術變更操作的“可監控,可灰度,可回滾”的系統化建設和流程審計,從同 Region 多副本容災升級為兩地三中心的高可用能力,設計足夠的數據和系統冗余實現快速恢復,并進行定期的容災應急演練。只有這樣,才能提升嚴重基礎設施故障時的恢復速度,并從根本上避免這類故障再次出現。為此我們制定了如下改進措施:
- 升級硬件版本和機型,實現離線后的快速上線。該措施在本次故障修復中已完成;
- 運維團隊加強運維工具的質量保障與測試,杜絕此類運維 bug 再次發生;
- 縮小運維動作灰度范圍,增加灰度時間,提前發現 bug;
- 從架構和高可用層面改進服務,為語雀增加存儲系統的異地災備。
并針對語雀個人用戶,贈送了 6 個月的會員服務。
阿里云
11 月 12 日 17 時左右,阿里云突然出現事故,導致阿里云、淘寶、閑魚、釘釘等幾乎阿里全系應用都出現了問題。19 時 20 分左右,經工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤等應用已全面恢復。
圖片
據統計,這次異常的影響范圍涉及 API 網關、視頻點播、運維事件中心在內的 100 多個產品,北京、硅谷、倫敦等 25 個地域受影響。
事后,阿里云并未對外公布事故原因。不過網上流傳著一份事故報告,僅供參考:
圖片
滴滴
11 月 27 日晚,滴滴出行出現系統崩潰,至 28 日修復,崩潰時間長達 12 小時。11 月 29 日,滴滴公布了此次超長時間系統故障的致歉聲明。初步調查結果顯示,這起事故的起因是底層系統軟件發生故障,并非網傳的“遭受攻擊”。
圖片
這次事故發生時,上海、北京、廣州等多地滴滴用戶反饋,滴滴出行 APP 無法使用,地圖無法加載。有網友稱,使用滴滴呼叫了網約車后,APP 突然無法使用,司機找不到乘客。有網約車司機在社交平臺表示,正在送乘客途中,出現導航無法使用,地圖無法加載等情況。
圖片
喜馬拉雅
12 月 19 日,不少網友反饋,喜馬拉雅 App 出現崩潰狀況,無法正常使用或聆聽節目。隨后,喜馬拉雅官博發文致歉,稱目前已緊急修復,不會影響用戶的會員等權益。
圖片
ChatGPT
11 月 8 日 22:00 開始,不少網友反饋 OpenAI 的 ChatGPT,包括 API 都無法正常使用。OpenAI 出現故障的時間大約持續了 100 分鐘,
圖片
事后,OpenAI 也已經把這回的故障,定性為了「嚴重停機」(Major Outage)。OpenAI 表示發現一個問題,導致 ChatGPT 和 API 錯誤率很高,正在努力解決。直到 23:33,OpenAI 表示確定并實施了修復方案,服務逐漸恢復正常。
圖片
OpenAI CEO 奧特曼表示,devday(開發者大會)新功能的使用情況遠遠超出預期,公司原計劃周一為所有訂閱者啟用 GPT,但仍未能實現。由于負載的原因,短期內可能會出現服務不穩定的情況。
圖片
X
12 月 21 日,國外知名社交平臺 X(原推特)遭遇突發崩潰事故。許多用戶反映無法正常加載頁面、瀏覽個人資料、查看粉絲列表等操作,該社交平臺幾乎處于癱瘓狀態。
這已是 X 平臺今年第二次大規模宕機事件。早在今年 3 月,該平臺便經歷了一次全球性中斷。自 440 億美元收購后,馬斯克對其進行了大幅裁員,裁員幅度接近 80%,其中包括許多負責修復和防止服務中斷的工程師。