容錯與關鍵業務無關
高可靠性總是與關鍵業務聯系在一起。據統計,金融系統宕機所造成的損失為平均為1000萬美元。因此,關鍵業務應用總是要求系統7×24小時不中斷運行。對可靠性的要求高達99.999%,也就是5個9的水平,這意味每年宕機時間累計不超過5分鐘。久而久之,具有5個9高可靠性的容錯服務器總是和關鍵業務應用聯系在一起。
關鍵業務應用需要高可靠性,但是容錯服務器并不是金融、電信計費的專利。在很多需要高可靠性的應用場合,容錯服務器都有用武之地。以首都機場小火車為例,國際港旅客進出都要乘坐小火車。如此小火車的調度和控制非常關鍵,系統的計算量不大,但是需要高可靠性,就需要承擔調度和控制任務的服務器具有高可靠性。在電力控制、鋼鐵企業都需要系統具有高可靠性。
隨著芯片技術的進步,以及生產工藝水平的提高,服務器產品標準化日趨成熟,如今系統的可靠性大大提升。可以說,服務器宕機是小概率事件。“小概率事件一經產生就是一個大事件。”某行業企業CIO說。
為了應對服務器宕機,用戶多采用雙機系統冗余。當其中一個系統宕機時,由另外一個系統接替服務器工作。但是需要注意的是,雙機系統很難實現無縫過渡,備用服務器接替工作需要時間。如果是首都機場小火車,就會出現停運的事件。春節期間,香港昂平360纜車故障,都在提醒我們,可靠性問題沒有小事情。
如今,虛擬機倍受追捧。系統可靠性并不依賴于單臺服務器的質量,而是構建在虛擬資源池的基礎上,系統應用與物理服務器無關。在虛擬化時代,高可靠性的問題是否迎刃而解呢?
Vmotion,也就是虛擬機在線遷移被寄予厚望。當虛擬機產生故障時,在線遷移到另外一臺虛擬機。實際上,這是一種典型的誤解。Vmotion可以解決計劃內的停機,如系統維護、升級時,可以暫時將虛擬機遷移到其他服務器,維護升級完成之后,在遷移回來。此外,利用Vmotion的功能,可以在一定階段,如晚間業務的波谷期,將虛擬機遷移到少數服務器,關閉多余的服務器,達到綠色節能,降低運維成本的目的。但Vmotion不能夠解決計劃外的意外宕機。但承載虛擬機的物理服務器意外宕機時,虛擬機是沒有辦法進行熱遷移的。
從VMware的解決方案就可以看出結論,虛擬機環境下提升系統的可靠性,不是通過Vmotion,而是通過HA模塊來提供的。所謂HA就是虛擬機環境中的雙機冗余。同樣的,HA的切換也需要時間。針對高可靠性的需求,VMware不是依靠HA,而是提供了Fault Tolerance模塊,也就是類似容錯機的解決方案。從VMware的選擇,就可以知道容錯較之雙機具有更高的可靠性。
采用虛擬機Fault Tolerance方案,還需要容錯服務器嗎?從原理上看,容錯服務器的處理器、內存以及I/O全部是冗余設計,通過鎖步技術,對軟件每一個進程的計算結果進行比對,結果一致才確信處理的正確性,可以有效解決可能的硬件故障。虛擬機Fault Tolerance是否具有同等水平的高可靠性,還需要實踐的檢驗。實際上,在虛擬化環境下,承擔管理和調度任務的服務器,就需要采用容錯服務器。
如果你需要高可靠性,實際上,你就需要容錯服務器。