CloudFlare 宕機導致 78 萬網站下線
幾個小時前,CloudFlare 由于 DNS 路由配置錯誤導致使用其 CDN 和安全服務的 785000 多個網站遭受影響,其中不乏 4chan、Wikileaks, Metallica 等大型網站,故障在 30 分鐘左右被排除,影響持續了一個多小時。
CloudFlare 首席執行官 Matthew Prince 在剛剛官方博客發文闡述了整個事故發生的過程:CloudFlare 的管理團隊發現一處 DDoS 攻擊,監測工具顯示攻擊包大小在 99971 ~ 99985 bytes 左右(正常包大小是 1500 bytes,通常都在 500 ~ 600 bytes),于是將其規則加入 Juniper 的 Junos 防火墻設置中,不過預期大小的包并沒有被攔截,因為實際上并不存在這么大的數據包,取而代之的是匹配規則的數據包沖刷到內存中,直到內存耗盡,系統崩潰。
通常系統崩潰會自動重啟而恢復工作,但這次例外了。由于系統沒有正常啟動,管理端口沒有響應控制,于是 CloufFlare 的管理中心只能電話通知全球 14 個國家的 23 個數據中心的管理員硬啟動機器,這個過程大概花費了 30 分鐘。最早恢復的數據中心由于負荷了最多了訪問流量,仍然導致了 CloudFlare 服務的不穩定性,加上等待 DNS 緩存更新等,服務恢復時已經影響已持續超過 1 小時。
CloudFlare 最新數據顯示,其服務的網站每月 PV 數超過 1000 億,是全球十大流量網站之一,此次宕機是 4 年中第三大事故。與今早 Evernote 被黑客入侵事件一起,云計算服務可靠性和造成的大規模影響應該引發使用者更多關注和思考。