掉電是數據中心無法抹去的痛
電源對于數據中心的重要性就好比心臟對人類的重要程度,沒有電源的持續供電數據中心就無法運轉。當數據中心的設備出現自動斷電、關機、電源故障等相關不良現象時,統稱為掉電故障。掉電給數據中心帶來的損失將非常嚴重,數據中心可能直接會停止運轉,所有的應用系統都無法繼續運行。比如2016年6月大連電信樞紐機房因市電故障,設備突然閃斷,并造成部分線路短路,變壓器受損引起跳閘,導致核心設備出現故障。掉電造成大連市區、旅順地區移動網用戶手機通話、短信等功能無法正常使用;2015年11月山西證券就因為數據中心機房掉電,股市行情交易系統中斷,導致很多股民無法進行交易,損失嚴重;2012年10月恰逢凡客誠品五周年紀念日,機房掉電導致凡客誠品出現訪問故障,網站長時間沒有交易,損失不少收入;2011年11月天津塘沽的一個運營商核心機房掉電,導致遨游、豌豆莢、新浪郵箱等多個服務中斷,等等。這類數據中心掉電導致業務中斷的案例數不勝數,還有很多,在此不一一列舉。沒有人希望數據中心掉電,掉電已經成為了數據中心的心腹大患,因為不知道掉電會什么時候發生,會在哪些設備發生,掉電發生前沒有任何先兆,這讓數據中心對于掉電問題素手無策。掉電已經成為數據中心無法抹去的痛,面對掉電問題,很多時候都素手無策。
掉電不僅導致正在運行的業務有損失,還會帶來其它很多方面的負面影響。首先掉電對電子設備有很大危害,當正在運行著的設備,突然輸入沒有供電了,設備里的所有電容器件都要進行放電。如果是徹底斷電還好,如果是頻繁上下電,或者供電質量不好有波動,這類情況最容易造成設備內部具有電容屬性的器件故障,減少設備的使用壽命;其次掉電對于電子設備內部使用的內存類存儲器件有影響,內存器件正在讀寫過程中,突然掉電,內存顆粒反復上下電,質量不好的內存條容易出現損壞,進而導致在來電時,設備初始化過不了而無法正常啟動,設備出現故障;第三掉電容易造成應用軟件系統出現運行異常。比如:掉電對LINUX系統服務器的危害。LINUX文件系統包含各種有日志功能的EXT3、REISERFS、JFS等,這些日志文件系統,都敵不過掉電的打擊。常用的EXT3和REISERFS文件系統,當遭遇到突然掉電,系統再次開機時,時常發生無法自舉故障,需手動FSCK才行。
還有對ORACLE數據庫也有損害,掉電會導致ORACLE部分控制文件壞、REDOLOG壞、Rollback Segment壞、數據文件壞等,當重新供電時,ORACLE數據庫無法正常啟動,運行異常。造成這些應用系統異常的根本原因是在發生掉電時,這些應用軟件的數據沒有及時備份起來,如果在掉電發生后,設備能延遲工作幾分鐘,將重要的數據保留完整,就不至于發生這類的故障。第四斷電僅僅是掉電故障的一個原因,很多時候并不是因為沒有供電而導致的掉電,掉電的含義要寬廣得多。比如設備故障引起供電線路的短路,產生了超大的電流,擊穿了保險盒開關,導致這路供電設備均掉電;供電電源遇到了過壓、過溫等保護,電源自動進入保護而不再工作,這樣也會導致設備掉電;有時設備上某些重要電壓沒有產生而造成欠壓保護引起的掉電,通常表現為上電即斷,無法用萬用表測量相關電壓。總之,掉電給數據中心及其設備造成的影響是多方面的,要適當做一些防護措施避免數據中心頻繁發生掉電故障。
很多時候,數據中心發生掉電故障多為人為操作導致的。有時在進行電力施工時,誤將供電電纜搞斷了,引起了掉電。有時在進行設備供電線路調整時,不小心接錯導致斷路或短路,從而引起部分設備掉電,這類人為掉電故障屢見不鮮,教訓深刻。所以,數據中心首要任務就是要將人管理起來,制定嚴格和詳細的操作規范,避免出現低級的人為掉電故障;數據中心還要有冗余供電,根據自己的財力情況,在不同級別的設備供電上做冗余供電,因為只采用一路市電給數據中心所有設備供電,萬一市電故障,整個數據中心就會停轉。
所以***引入兩路不同的市電,并且對核心設備要有UPS、蓄電池或者備份電源,這樣當市電真的故障時,采用備份電源也可以保證數據中心繼續運行數個小時,等市電恢復供電,再將設備供電輸入切到市電上,要周期性檢查這些備份供電系統的剩余容量,平時備份電源是待命狀態,而要使用的時候,供電容量一定要確保,不能在關鍵時刻掉鏈子;要周期性對數據中心的供電安全進行評估,全面核查供電中的安全可靠性,及時發現日常維護中所不能發現的問題。同時制定供電應急預案,明確發生掉電故障時的處理流程、操作人員、操作步驟與廠商支撐等方面要求,在實際應對掉電事件時,就能做到“手中有糧,心中不慌”。要保持數據中心內部良好的溫濕度環境,避免電子設備產生靜電、腐蝕、過壓、過流等故障,這些都可能引發設備掉電故障。雖然我們無法預知掉電故障何時會出現,但我們可以提前做一些防護工作,避免掉電出現,萬一發生了掉電,也有完整的應急預案,確保數據中心業務不受掉電影響。
掉電是數據中心無法抹去的痛,曾給數據中心帶來很多次慘痛的教訓。經過以上的說明,可以看到掉電故障雖可怕,但通過制定一些防護方案是可以大為減少掉電發生頻率的。即使發生了,也有通過提前部署好的冗余供電系統來避免給數據中心業務造成損害。