1個P0故障,公司股價漲了10%,老板懵了!
今年 6 月,有一次大范圍的全球知名網(wǎng)站宕機,國內的網(wǎng)民感知可能沒那么強烈,但是在國外,很多知名網(wǎng)站都受到了波及。
圖片來自 Pexels
本次大規(guī)模宕機時長長達一小時,受到影響的網(wǎng)站有谷歌、Twitter、亞馬遜、eBay、Target、Reddit、PayPal、Square、Spotify、Twitch,還有《衛(wèi)報》、《金融時報》、《獨立報》、《紐約時報》、CNN、BBC、TechRadar等各大媒體網(wǎng)站。
01
當晚,網(wǎng)友們在訪問這些網(wǎng)站的時候,網(wǎng)站都無法正常顯示,會提示"Error 503 Service Unavailable"。甚至英國政府網(wǎng)站 gov.uk 同樣中招!
正在網(wǎng)民們猜測是什么原因導致眾多大型網(wǎng)站集體宕機的時候,一家"名不見經傳"的公司宣稱本次大規(guī)模宕機可能和他們有關:“我們目前正在調查對我們的內容交付網(wǎng)絡服務(Content Delivery Network)帶來潛在影響的沖擊。”
這家公司是一家名為 Fastly 的公司,他們的主營業(yè)務就是提供互聯(lián)網(wǎng)內容傳遞服務。
他們主要的產品是邊緣計算平臺,其實就是提供內容分發(fā)網(wǎng)絡(CDN)、網(wǎng)絡安全服務、負載均衡及視頻流等服務的。
因為很多公司要服務全球用戶,全球用戶想要訪問他們的網(wǎng)站,都需要通過網(wǎng)絡從他們的服務器上加載資源。
Fastly 就干了這么一件事兒,就是他提供了可以把服務器資源更近、更快的交付給終端用戶的服務。
相當于把服務器上的資源預先加載到他們的 CDN 節(jié)點中,用戶訪問網(wǎng)站的時候,只需要從他們這里就可以獲取到服務器資源了,不需要和遠程服務器直接交互,大大縮短了時間。
02
美國太平洋時間 8 日凌晨 2:58 分,F(xiàn)astly 表示全球大量網(wǎng)站斷網(wǎng)和他們有關之后,人們開始具體故障原因。
很多人的第一想法是可能是受到了黑客攻擊。甚至很多想象力豐富的朋友已經在腦海里上演了一出黑客攻防大戲了。
大約 1 小時之后,在美國太平洋時間 8 日凌晨 4:10 分,F(xiàn)astly 表示他們已經找到了問題并且完成修復。
“我們發(fā)現(xiàn)一個服務配置的更改引發(fā)了全球服務的短暫中斷,目前已將這一配置關閉,我們全球服務網(wǎng)絡已恢復正常。”
服務器配置更改???這無論怎么看都是個低級錯誤。這個解釋,顯然讓很多程序員們沒辦法接受,這么重要的系統(tǒng),配置推送難道沒有做灰度嗎?
后來,據(jù)說這個配置錯誤最初是在 5 月份的一次發(fā)布時引入的,直到 6 月份才導致 Bug 觸發(fā)。
在看到相關報道之后,我就在想,又要有程序員背鍋了,這么大的影響,一定是個 P0 級故障了,這種故障,至少要有副總裁級別的人被 fire 掉吧?
但是,事情接下來的發(fā)展出乎了我的意料。
03
本以為這件事會以 Fastly 道歉賠償、高管引咎辭職、程序員被開除收場。
但是,有一個有意思的現(xiàn)象發(fā)生了。當人們知道這次重大故障的主要責任方是 Fastly 時,這家公司的股價卻在盤中大漲超過 10%。
因為,很多人發(fā)現(xiàn),原來這個之前從來沒聽說過的公司,竟然和這么多大企業(yè)都有合作關系,竟然能有這么大的影響力。
而且,更讓大家確認這家公司有前途的是,當天的故障,全球最大的云服務商 Amazon 也同樣宕機了。所以….
這個事情一發(fā)生,讓大家瞬間認識了一家叫做 Fastly 的公司。
04
這個事件,有幾個事情是需要大家注意的:
- 邊緣計算云服務現(xiàn)在的應用已經非常廣泛了。
- 云服務商一旦出問題,那就一定是大問題。如何保證云服務的穩(wěn)定性,是個長期的課題。
- 這么大的故障,可以在 1 小時左右發(fā)現(xiàn)、定位并解決,這家公司的效率已經算是很高了。
- 線上變更要謹慎!!!哪怕是一行配置!
最后,本文內容,不構成任何投資建議!!!
出處:轉載自公眾號碼出未來