IDC掛了你咋辦?從世紀互聯斷電事件談起
原創【51CTO獨家特稿】對于世紀互聯而言,今天無疑是個黑色星期五。從周四下午5點左右開始,世紀互聯天津塘沽運營商核心機房開始斷電,對外公布的斷電原因是大鏟車意外將機房電纜挖斷。之后,斷電一直持續了16個小時以上,傲游瀏覽器、豌豆莢、新浪郵箱、愛詞霸等多家企業的服務受到不同程度的影響,直到今天早上9點-11點,一些主要的服務才逐步恢復。
超過12個小時的電力中斷,對于配備雙路/三路市電、UPS和柴油發電機的標準機房而言,似乎是個不可想象的事情;根據業內人士分析,意外停電的情況,一般在3-5小時之內肯定能恢復電力了;這次事故與其說是電纜被挖斷,倒更像是光纜被挖斷所造成的。應該說,這次的事故是有疑點的,而這疑點由于世紀互聯目前尚未公布具體的事故報告,暫時還無法了解細節,恐怕需要等待世紀互聯將事故報告和賠償方案提交給他們的客戶之后,才會有一些詳細的情況公布出來。
事故的處理目前已經暫告一段落,對于以上遭受波及的企業而言,在將服務恢復正常的同時,一方面要出事故報告,另一方面也有賠償的事要協商(賠償的方式和金額一般都在企業和IDC的服務條款當中,協議內容一般都是保密的,因此每家企業的情況都不一樣)。對于其他企業的IT管理人員而言,如何在發生類似意外事故的時候盡可能的減少負面影響,才是我們最需要關注的事情。
為此,51CTO編輯聯系了一位對IDC相當熟悉的業內人士cno,請他介紹了一下有關IDC的選擇,以及緊急情況如何處理的一些問題。
如何選擇IDC
根據cno的介紹,一般企業在選擇機房的時候,大多數會考慮代理商,也可以直接租用電信、聯通等運營商的機房。代理商的優勢在于多線全國互聯,價格一般也便宜一些;而直接接入運營商機房的好處則在與少了一層中間環節,出問題的概率較小,出問題后解決問題的效率也高。
對于規模較大、成本控制方面比較寬松的企業,技術部門在提方案的時候,一般只會考慮業界信譽好的幾家IDC,根據服務器量和帶寬的需求,一般需求高的都會獲得一些優惠。另外,也會根據企業的其他應用進行調整,比如使用了藍訊的CDN的企業,那么合理的方案則是將自己的源站放在藍訊的IDC。
冗余災備方面的考慮
冗余方案可以說是應對此類事故的唯一解決方案,不過出于成本的考慮,不少企業省下了這一步,其實是非常危險的。這次豌豆莢和新浪郵箱都沒有遭遇完全的服務中斷,而傲游和愛詞霸的核心業務則徹底不能訪問,正是由于這一點區別。
核心中心做冗余的費用較高,這樣的話做一個備份節點也是可以的,不過別放在同一個機房,否則遇到今天這樣的事故也是白搭。一般在北京的公司,備份節點放在廊坊的很多,因為費用較低。
發生了事故怎么辦?
如果你之前做過冗余方案或異地備份,那么直接切換過去就是了,備份的情況切換要復雜一些,服務質量肯定會受到一些影響,但不會徹底死掉。要是之前什么災備方案都沒做的話,就只能干等了……是了,你可以在焦急的等待中考慮未來的災備方案應該如何做。
***,51CTO編輯還想補充的一點是,面對怨念沖天的用戶,早點公開事故的原因,向用戶道歉,并實時更新***的進展情況,要遠遠勝過對用戶不聞不問,拋下一條冷冰冰的、言語不詳的通告。在服務中斷或不穩定的時候,如何向用戶作交代,讓用戶感到受重視,其實重要度并不亞于盡快恢復服務的工作。
【編輯推薦】