VMware也玩停機——首次停機后的恢復工作中遭遇二次停機
原創Cloud Foundry服務器接連遭遇停機
VMware公司在對其推出的新云計算服務器進行停機恢復時,無意中于次日造成了第二次停機,此情況目前已得到該公司證實。
VMware新的Cloud Foundry服務器——仍處于測試階段——在上一周遭遇了超過兩天的停機問題,而就在不久之前,剛剛發生了廣為人知的Amazon彈性云計算服務大停機事件。
Cloud Foundry,一款平臺即服務產品,為開發人員在網頁應用程序的構建及組織方面提供所必需的支持,于今年四月十二日發布,但旋即于同月二十五及二十六日接連發生“服務中斷”事故。
***次停機事件的起因是某供電柜發生故障。應用程序仍能夠在線訪問,但開發人員無法執行類似登錄或創建新應用程序等操作。該次停機持續了近十小時,并于當天下午得到修復。
但就在第二天,當VMware公司的官方工作人員嘗試實施先期檢測方案以避免前一天的事故再次發生時,意外導致了新一輪停機。
VMware公司的官方發言人Dekel Tankel解釋說,四月二十五號的供電中斷是“隨時可能發生的意料內事故,”而VMware公司已經通過對相關軟件、監控系統以及運作模式方面的強化來確保客戶不會因系統停電而無法接入服務。
考慮到這一點,VMware公司第二天就開始部署“一套全面的、用以進行先期檢測、預防以及恢復操作的方案”。
“上午八點鐘(四月二十六號)該方案開始由我們的執行及工程團隊進行審查,并預計會在中午時得到初步認定,”Tankel寫道。“當時這套方案還只停留在理論層面,我們的計劃是先進行模擬實踐練習(即在不觸動鍵盤按鍵的前提下進行部署練習),直到審查工作徹底完成。不幸的是,當天上午十點十五分,執行團隊中的某位方案規劃工程師觸動了鍵盤。這直接導致了整套Cloud Foundry網絡基礎設施的停轉。該操作使得所有負載平衡器、路由器和防火墻都被清空;造成了我們的部分內部DNS基礎設施停轉;同時導致全部外部連接都無法接入Cloud Foundry。”
在接連發生的兩次停機中,第二天的停機尤為嚴重。
“這是我們面臨的***次停機問題,這是一次很大的事故,我們需要臨時布置系統維護頁面,”Tankel繼續說道。“在停機過程中,所有的應用程序及系統組件仍在繼續運行。然而,隨著前端網絡的失靈,所有外部用戶都無法應用服務,因此只有我們自己知道設備仍能工作。當日美國太平洋時間上午十一點三十分,前端網絡運行全面恢復。”
VMware公司第二次停機事故表明了人為失誤在云服務網絡故障中所占的比重之大,正如Amazon在對其云服務中斷進行深入分析后得出的結論一樣。在Amazon事件中,系統升級過程中的一次人為失誤引發了極大的麻煩,造成的嚴重后果耗費了數天才得以完全修復。(詳細內容可參考:“Amazon:計劃升級過程中的操作失誤導致停機”)
VMware公司,一直以其服務器虛擬化技術而著稱,是公開類云服務領域的后起之秀。在此之前,VMware公司的主要業務是幫助客戶及服務供應商建立自己的云平臺。
因為就目前來看,Cloud Foundry還屬于一項新興的業務,因此服務器停機并未對太多客戶造成影響,至少不像Amazon事件的影響那么巨大,因為后者發生故障的同時,導致了無數依賴于其基礎設施的其它站點陷入癱瘓。但VMware公司無疑已經從這次事件中吸引了教訓,想要成為服務供應商,一定要對極端情況做好充分的心理準備。
原文名:VMware causes second outage while recovering from first 作者:Jon Brodkin
【本文乃51CTO精選譯文,轉載請標明出處!】
【編輯推薦】