搞定災難恢復規(guī)劃:實用性建議匯總
譯文
【2013年5月30日 51CTO外電頭條】災難恢復規(guī)劃外加不間斷電源(簡稱UPS)、主機托管服務、數(shù)據(jù)鏡像、熱備份技術等常備方案的結(jié)合,已經(jīng)足以在理論上幫助基礎設施抵御任何自然之力的破壞。然而僅靠備份系統(tǒng)、復制規(guī)則以及快速故障切換解決方案三者就真能高枕無憂了嗎?
任何一位已經(jīng)實施了災難恢復解決方案的數(shù)據(jù)中心經(jīng)理都清楚,意外情況永遠無法徹底被根除。舉例來說,為了節(jié)約成本,發(fā)電機與本地本地協(xié)助設施都只能設計為支持某些服務的特定部分。也就是說當停機事故發(fā)生時,只有某些關鍵性功能可以繼續(xù)運轉(zhuǎn)。為了確保意外情況根據(jù)實際事態(tài)始終處于控制之下,災難恢復規(guī)劃能一直與動態(tài)業(yè)務保護需求保持一致,我們將與大家分享以下幾項關注重點。
* 以精確數(shù)據(jù)指導應急預案。我們首先需要正確理解正常情況下的設施功耗水平,并根據(jù)相應數(shù)據(jù)對IT與設施進行定位,從而確保珍貴的備用電力能在災難發(fā)生時高效分配給最重要的環(huán)節(jié)。
技術供應商當然了解這一需求,他們在數(shù)據(jù)中心解決方案中加入了基準電源管理機制,能夠幫助管理者查詢設備溫度及功耗水平,并利用各種監(jiān)視及控制工具把握現(xiàn)場情況。IT管理者得以借助這些創(chuàng)新技術以或簡單或復雜的方式進一步提高災難恢復效果。一般來說,管理者至少要能夠檢查空調(diào)機組的回流空氣溫度,并收集數(shù)據(jù)中心內(nèi)各機架的單獨功耗數(shù)據(jù)。
另外,全局能源及冷卻管理方案將基礎設施劃分為不同單元,借以嚴格把握各服務器進風溫度。出色的能源管理解決方案還可以匯總服務器的實時進風溫度以及數(shù)據(jù)中心整體的功耗水平。
全局能源管理方案能為我們提供實時及遠期觀察結(jié)論。歸納得出的溫度與功耗數(shù)據(jù)可以通過整理形成發(fā)熱量及能源分配圖,幫助管理者以直觀方式把握數(shù)據(jù)中心內(nèi)的主要發(fā)熱點以及用電大戶。隨著時間的推移,這些數(shù)據(jù)將在趨勢分析工具的匯總下成為災難規(guī)劃的重要依據(jù)。全局方案能根據(jù)實際用電數(shù)據(jù)提供非常精確的數(shù)據(jù)中心管理意見,并以此為基礎生成可供能源管理方案使用的理論模型。
*識別并保護高優(yōu)先級資源。擁有實時查看能源使用與溫度模式的能力,同時又具備長時間運行所積累下來的豐富數(shù)據(jù),數(shù)據(jù)中心管理者得以借此識別哪些才是停電期間最需要優(yōu)先甚至是額外保護的關鍵性資源。關鍵資源中通常包括關鍵性業(yè)務員工團隊的相關系統(tǒng)或者可能對高優(yōu)先級交易造成影響的重要應用程序。
在日常運維的基礎上,監(jiān)控機制保證數(shù)據(jù)中心管理者能以更積極的姿態(tài)應對突發(fā)情況。只有盡早發(fā)現(xiàn)高熱區(qū)域,才能在溫度達到臨界水平之前及時處理,從而最大程度減少高溫對設備及用戶服務的負面影響或者讓預先準備好的預防措施有用武之地。除此之外,高度關注功耗與溫度情況還能幫助大家識別哪些硬件能耗過高,并通過系統(tǒng)更替將能耗控制在合理范圍之內(nèi)。
這類解決方案不僅改善了信息直觀度,還能夠引進更理想的電源控制機制。對電力的合理控制能夠避免停機事故--例如將溫度控制在較低水平--而且即將停機事故無法避免,方案也可以保證關鍵性業(yè)務系統(tǒng)始終擁有電力供給。作為災難恢復解決方案的關鍵性組成部分,電源控制機制既避免本地協(xié)助設施將非必要性系統(tǒng)復制進來,也有助于實現(xiàn)可用系統(tǒng)的最大化發(fā)揮。
這里我們介紹一種粗略的功率控制方法:將功耗主要提供給高優(yōu)先級服務器及相關空氣冷卻設備,這種處理方式在任何危機下都能發(fā)揮不錯的能源節(jié)約效果。由于性能往往與功耗水平直接相關,因此能源管理方案的智能化水平越高、IT人士就越能更好地以動態(tài)方式在功耗與性能之間找到平衡點。
最理想的能源管理方案會通過對實際功耗的連續(xù)監(jiān)測獲取精確數(shù)據(jù),并利用動態(tài)調(diào)整機制為CPU設定工作頻率,這才是最理想的平衡控制方式。解決方案與操作系統(tǒng)或者基于閾值警告的管理程序相交互,并最終將電力短缺狀況給應用程序及終端用戶帶來的影響降到最低。
* 更好的災難抵御能力。能源限制與節(jié)流機制能夠最大程度保證高優(yōu)先級業(yè)務應用的可用性,反過來IT部門需要在電力供應緊張時暫時禁用或者調(diào)低非關鍵性服務器的處理性能。作為對自然災難的回應,這些控制手段能夠有效減少終端用戶與關鍵性應用程序在災難中受到的影響。
* 容量管理。能源管理解決方案在平衡功耗與性能之余,還能以其它方式增強基礎設施的災難抵御能力。通過幫助數(shù)據(jù)中心架構(gòu)師深入了解功耗需求,這類解決方案能夠精確計算并提供理想的機架配置密度,最終在停電過程中盡量延長基礎設施的運行時間。這部分調(diào)整不僅能提高停電期間運轉(zhuǎn)組件的執(zhí)行效率,更能將UPS的續(xù)航壽命延長約25%--這一數(shù)字來自數(shù)據(jù)中心能源管理方案的概念驗證測試。
最大的回報
停機事件帶來的高額損失正是很多企業(yè)投資部署全局性能源管理解決方案的最大動力。然而除了應急情況,這類方案也能從其它方面給業(yè)務系統(tǒng)帶來改善。其中最明顯的一點在于,出色的能源管理方案會始終幫助基礎設施實現(xiàn)能源節(jié)約,而不僅僅是在電力中斷的情況下。
事實上,我們已經(jīng)在觀察中發(fā)現(xiàn)智能化能源管理方案足以將基礎設施的能源消耗降低20%到40%。這還只是很保守的估計,即認為數(shù)據(jù)中心中的服務器有10%到15%處于閑置狀態(tài)。由于典型服務器設備的運轉(zhuǎn)功率普遍為400瓦,因此每臺服務器每年光是能源成本就達到800美元以上。在運營過程中能夠限制機制降低這部分能源損耗能夠顯著減少基礎設施使用成本。
我們有理由提高數(shù)據(jù)中心的能源控制力度,這不僅僅是為了將能源使用成本約束在合理范圍之內(nèi)。服務器數(shù)量的不斷提升已經(jīng)令數(shù)據(jù)中心的用電開支成為運營成本中一筆不容忽視的龐大投入。大家顯然有必要在自然災難降臨或者電費支出居高不下時考慮業(yè)務系統(tǒng)的健康運轉(zhuǎn),因此在現(xiàn)代化數(shù)據(jù)中心內(nèi)推廣全局能源管理方案擁有非常積極的現(xiàn)實意義。
原文鏈接:
http://www.networkworld.com/news/tech/2013/052013-disaster-recovery-269953.html