防止數據中心宕機的集成系統測試(IST)
不久前,洛杉磯地下室爆炸導致其附近的Equinix公司和INTERNAP公司數據中心的電力中斷。而谷歌公司在德國的數據中心最近遭受雷擊。世紀互聯公司新澤西州的一個數據中心冷凍水管道日前發生故障,影響了紐約證券交易所的數據顯示。
所有這些事件都發生在最近幾周,這些事故呈現出導致數據中心宕機和基礎設施故障的類型。
當電源中斷或冷卻水停止流動時,集成系統測試(IST)可以驗證應急電源、機械和監測系統運行的設計和建造,以及應用程序的集群,甚至整個數據中心會回應用戶的期望,
“集成系統測試的唯一機會,你將不得不測試設施的完整的力度。”總部在彼得伯勒的英國數據中心測試企業E1E10公司董事總經理斯蒂芬•福特說,其在集成系統測試(IST)方面有著十多年的經驗。
實施IST的想法是有道理的,但不是每個人都盡他們可能去做。比較IST做備份或災難恢復(DR)。每個人都進行備份并采取快照,但究竟有多少企業能夠實際測試這些備份呢?
拔掉插頭的數據中心
在所有級別的集成系統測試完成之后,Facebook公司最近關閉了其一個數據中心,在所有必要的準備工作到位之后,什么都沒有發生。
福特表示,他認為銀行和政府機構是進行IST最認真的部門。在某些行業中,對法規和規則的遵從對業務連續性或DR準備可能會迫使組織去執行。但其他公司可能還跳過IST或執行時偷工減料。
“有些人只是剛剛經歷就是說他們已經做到了,這并不是系統的真正考驗。”福特說。
vXchnge公司是一家在美國擁有15個數據中心的主機托管提供商,作為中立的供應商,其每年都做一次完整的集成系統測試IST。該公司在客戶已啟動并運行業務之前執行IST,然后每年實施一次。
“它創造了在受控環境中混沌的可能性。”vxchnge公司的佛羅里達州坦帕市工程高級副總裁和首席技術官阿里•瑪利斯說。
Vxchnge公司在一個數據中心進行的可以發現各種各樣的問題,第一次實施IST是其顯示控制和監測系統,其電源電路并沒有全部連接到UPS供電系統。
“當我們把插頭拔了,我們發現監控系統變暗了。”他說。
瑪利斯注意到,“N+1”數據中心設施的可靠性更高,因為其沒有單一故障點,因此風險較低。“這個事件驗證冗余系統可以用無縫的方式捕捉負載運行的情況。”他說。
VXchnge公司取得了一定的增長,在最近幾個月購買了幾家數據中心。在一個案例中,該公司無法確定哪一次是其實施IST的最后一次。
“我們不了解所不知道的東西,而是將我們能回答這些問題的唯一途徑。”“瑪利斯說。“有些企業只是剛剛經歷就說他們已經做到了,其實這不是真正的系統測試。”
瑪利斯致力于集成系統測試工作超過15年,他表示期待兩件事:數據中心可以實現端到端的運營,以及人員和流程可以得到正確的反應。
這很重要,因為“工作人員的錯誤仍是數據中心宕機的最主要的因素。”瑪利斯說,
“大多數主要的多租戶數據中心托管提供商都在實施IST,但其頻率可能會有所不同。”瑪利斯表示,他曾在Equinix工作過三年,每年實施IST是標準的做法。
不要害怕IST
瑪利斯表示,托管客戶通過開展自己的類似的測試與他們的供應商合作,而實施IST可能是一個機會,客戶可以通過失敗的案例,可以更加重視數據中心的冗余備份工作。
對于vXchnge公司來說,總是提前通知客戶要有足夠的注意,使他們能夠按計劃實施自己的試驗。
E1E10公司總經理斯蒂芬•福特建議,數據中心運營商最好每周對其發電機組和UPS供電系統進行一次離線測試。他曾參與的一次IST中,其中一個公司的數據中心一年之內都沒有運行過。在另一種情況下,他發現在柴油貯存罐發現有水,這是一種常見的情況,可能是由于溫度變化,或者很長時間沒有使用柴油燃料。
福特表示,企業的最高管理層擔心集成系統測試的結果可能是其最大的障礙。盡管如此,如果數據中心已經到位,并建立了備用電源和故障轉移的計劃,但人們從來沒有用過,那么怎么知道這是否真的有用?
福特說:“他們只認為這是創造風險的測試。直到有了錯誤,卻很難說服他們去這些做。”
對于一個大型汽車公司來說,星期六是一個忙碌的日子。福特說,而星期一上午,汽車公司管理層對周末的汽車銷售數量進行了審查,發現沒有任何出售車輛。原來,該公司的數據中心已經宕機,其備份失敗,銷售數據沒有保存下來。
福特說:“IST這一業務尚未實現其數據中心的關鍵使命。”
總部在加利福尼亞州布雷亞的PLANNET公司數據中心支持系統經理邁克爾•福魯曼表示,他曾在現場設備進行完整的集成系統測試時遇到過類似的問題。
“反對者說實施IS會冒很大的風險。”福魯曼說。
福魯曼表示,如果IST在計劃和排練時得到了密切關注,其風險很低,遠遠小于數據中心業務關鍵時刻到來的風險。
“實施IST通常在星期天凌晨3點在或某些瘋狂的時候進行。”福魯曼說。
福魯曼和瑪利斯一樣,都認為采購數據中心時實施IST的一個很好的時間。
福魯曼表示,例如,客戶購買了一個使用了五年的數據中心,該數據中心從沒有過任何的失敗,“但這客戶他們真的不知道這個數據中心有什么隱患。”
通常,數據中心一些組件和子系統的個別測試都會首先執行。這有助于檢測出來自不同供應商的設備的任何問題。
他說:“數據中心有一些事情可能不是正確的,如果一次都不發生,也可能是很難搞清楚。”這一切導致了一個更大的“拔掉插頭測試。”,“每個人都會想,這可能是最后一個。”福魯曼說。
在企業數據中心中,集成系統測試將讓數據中心設施更加完善,IST往往需要更詳細的協調執行。
瑪利斯表示,人們沒有理由不這樣做,如果有條件,人們在拔掉數據中心插頭之前,解決那些需要解決的問題。