綜合布線數(shù)據(jù)中心統(tǒng)籌設(shè)計技術(shù)
面對未來的需求,數(shù)據(jù)中心的設(shè)計變得越來越困難。作為一種概念,統(tǒng)籌設(shè)計希望通過對每一位客戶的需求、可用性要求、籌資能力以及各種商業(yè)模型的評估,來滿足數(shù)據(jù)中心的需求。
在最近進行的一次調(diào)查中,要求被調(diào)查者說出所在公司對正常運行時間的***要求。針對這一問題,大約25%的人回答,他們***的要求是99.999%!由此不難看出,為什么現(xiàn)在大部分企業(yè)數(shù)據(jù)中心都將系統(tǒng)可用性看成是最主要的設(shè)計因素。與此同時,從業(yè)者和設(shè)計人員卻很難確定針對每個公司的“理想設(shè)計”。之所以備感棘手,其中涉及到諸多原因。首要原因當(dāng)屬數(shù)據(jù)中心較長的使用壽命。一個數(shù)據(jù)中心有可能維持10年甚至更長,設(shè)計人員通常不會介入如此長的時間,來獲得確定如何改進設(shè)計所需的反饋。
與此同時,諸如微小的設(shè)計缺陷加上低劣的操作程序等各類因素也會引發(fā)很多問題。最終,也許正是由于人們對這方面了解不夠致使改進設(shè)計工作遇到困難。我們只有邊做邊學(xué),將從修建上一個數(shù)據(jù)中心過程中積累的經(jīng)驗,應(yīng)用到新的數(shù)據(jù)中心上,并加以改進。
縱觀現(xiàn)有眾多高可用性數(shù)據(jù)中心,每個數(shù)據(jù)中心的設(shè)計和運營模式差異巨大,但在很多方面卻又存在著相似點。通過整合各類數(shù)據(jù)中心的數(shù)據(jù)、反饋和目標(biāo),我們希望促進并協(xié)助設(shè)計或改進數(shù)據(jù)中心的過程。
本文要討論的主要問題是:
◆ 電源設(shè)計容量的供求不平衡;
◆ 預(yù)測未來的電源需求;
◆ 迅速改變數(shù)據(jù)中心的功率密度;
◆ 建立能夠有效分配電源的基礎(chǔ)設(shè)施;
◆ 增加新數(shù)據(jù)中心的熱限制;
◆ 創(chuàng)建和優(yōu)化電源冗余選件;
◆ 了解運營和培訓(xùn)的影響;
◆ 解釋實現(xiàn)“99.999%”的可行性;
◆ 系統(tǒng)的恢復(fù)是如何影響可用性的。
UPS供電設(shè)計容量與實際需求無法平衡
在設(shè)計和建設(shè)數(shù)據(jù)中心時,人們將預(yù)測數(shù)據(jù)中心規(guī)??闯墒且粋€基本的程序。但是,如果預(yù)測的數(shù)據(jù)中心設(shè)計壽命是10~15年,那么這項任務(wù)就變得異常困難。在這種類型的使用壽命期內(nèi),房間內(nèi)的設(shè)備可能被新一代的設(shè)備“刷新”或更換四五次。IT設(shè)備的快速更新使得最基本的未來容量預(yù)測成為泡影。
例如,摩爾定律指出集成電路的集成度每18個月翻一番。對于每一代產(chǎn)品來說,附加的晶體管需要成比例地增加電源容量。相應(yīng)地,微處理器的熱量輸出也顯著上升。Intel***的Pentium 4芯片大約產(chǎn)生100W的熱量。相比486,后者發(fā)熱量不足10W。芯片密度的增加以同樣的比率增大了熱量的產(chǎn)生。由此聯(lián)想到數(shù)據(jù)中心的設(shè)計,我們所看到的是,功率密度的要求在過去的幾年中迅速膨脹。不久前,每平方米50W還是一個比較典型的數(shù)值,但是目前的大部分設(shè)計人員則將這一數(shù)值增大到每平方米150~200W甚至更多。僅僅在最近幾年中,系統(tǒng)基礎(chǔ)結(jié)構(gòu)就實現(xiàn)了驚人的擴展,以應(yīng)對數(shù)據(jù)中心的電源容量和冷卻不斷變化的要求。
預(yù)測未來電源需要這一極富挑戰(zhàn)性的任務(wù)引發(fā)了最嚴重的數(shù)據(jù)中心問題之一,即UPS設(shè)計容量供求的不平衡。這一問題的出現(xiàn)不僅影響了數(shù)據(jù)中心的效率、利用率和支持能力,而且還妨礙了資本的***使用。例如,一個大型數(shù)據(jù)中心建成后,經(jīng)常需要2~4年才能達到或接近設(shè)計能力。因此,在前幾年的運營中對電源容量的需求很少。而這時的用戶經(jīng)常會斥資數(shù)百萬美元建設(shè)能夠達到全部設(shè)計容量的數(shù)據(jù)中心,包括購買數(shù)兆瓦的冗余電源系統(tǒng)來支持數(shù)據(jù)中心。系統(tǒng)在以最小限度的低容量運行幾年后,才能使用全部容量。在這種情況下,大量的資金用于最初的容量建設(shè),以滿足多年以后才會出現(xiàn)的需要。具有諷刺意味的是,在使用全部電源容量的同時,數(shù)據(jù)中心仍有很大的占地面積可供使用。出現(xiàn)這種情況是因為設(shè)備的功率密度在兩年內(nèi)不斷增加,電源容量已被全部使用,但占地面積卻十分充足。瞬息萬變的設(shè)備技術(shù)使這種情況變得更糟,通常數(shù)據(jù)中心每四年就需要一次大修。除了大修的費用,數(shù)據(jù)中心的宕機風(fēng)險也在實施過程中大幅度增加。
圖1 大型互聯(lián)網(wǎng)數(shù)據(jù)中心的利用率典型曲線
這對于以出租數(shù)據(jù)中心為主要收入來源的設(shè)備托管和互聯(lián)網(wǎng)服務(wù)商來說尤其危險。這些公司在正式運營以前就要支付整個設(shè)施的費用,但是與此成本對應(yīng)的收入經(jīng)常是在多年以后才會收到。對于這類資本密集型行業(yè)來說,在獲得收入之前承擔(dān)巨大的成本負荷是極其危險的(如圖1所示)。應(yīng)注意的是,利用率曲線可能有很大的變化,而且兩年通常是一個非常樂觀的數(shù)字。從圖1中可以看出,供求平衡點幾乎永遠也不存在,這樣就會導(dǎo)致巨大的成本,無法實現(xiàn)***的利用率。
圖2 可擴展系統(tǒng)中電源供求的關(guān)系曲線
圖2所示為具有更高可擴展性的設(shè)計方案電源供求關(guān)系。
在圖2中,系統(tǒng)的設(shè)計允許容量升級。供給始終大于需求。但是這個特別的階段性設(shè)計方法也有局限性。由于基礎(chǔ)設(shè)施的變更會給數(shù)據(jù)中心運營帶來的風(fēng)險,分四個階段建設(shè)非常罕見。實際上,在完成數(shù)據(jù)中心最初的建設(shè)之后,通常需要在一兩個階段內(nèi)就要完成整個工程。
為了改善電源設(shè)計容量與實際需要容量間的不平衡,首先預(yù)測未來的需要是很重要的。盡管困難很大,結(jié)果也總是不盡如人意,但對于長期的成功卻至關(guān)重要。其次,設(shè)計過程中需要融合以前設(shè)計缺少的靈活性和可擴展性。第三,設(shè)計數(shù)據(jù)中心須注意的另一個方面是實現(xiàn)解決方案的定制化,使其更加標(biāo)準(zhǔn)。這不僅可以降低設(shè)計費用,而且可以加速項目的實施。#p#
局部熱量增大將改變制冷系統(tǒng)設(shè)計觀念
另一個與不斷增長的功率密度相關(guān)的重要問題是數(shù)據(jù)中心環(huán)境中增長的熱量。在數(shù)據(jù)中心,所有電力實際上都轉(zhuǎn)化為熱量,之后熱量又被排放回運行環(huán)境中。
多數(shù)數(shù)據(jù)中心機房制冷系統(tǒng)都存在各種基本的設(shè)計和配置缺陷,這可能會導(dǎo)致無法獲得既定的冷卻性能,同時阻礙冷空氣的流通。這些問題通常不會被發(fā)現(xiàn),因為計算機機房運行的功率密度通常遠低于設(shè)計目標(biāo)。然而,隨著IT設(shè)備功率密度的增加,使得數(shù)據(jù)中心機架微環(huán)境逐漸接近其設(shè)計極限,進而暴露出了無法提供有效冷卻性能的問題。
圖3 典型數(shù)據(jù)中心功率消耗分布
低效的冷卻性能除可能降低系統(tǒng)可用性外,還可能導(dǎo)致成本大幅增加。設(shè)計的缺陷可能將冷卻系統(tǒng)的效率降低20%或更多。圖3所示為典型數(shù)據(jù)中心功率消耗分布,冷卻系統(tǒng)消耗的功率接近整個IT負載消耗的功率。冷卻效率降低20%,便可能導(dǎo)致整個功率消耗增加8%。
要對數(shù)據(jù)中心的冷卻系統(tǒng)進一步優(yōu)化,不僅要考慮冷卻設(shè)備自身的設(shè)計和規(guī)范問題,還要注意整個冷卻系統(tǒng)為設(shè)備提供冷空氣的過程。
事實上,不斷增加的散熱需求對于目前的數(shù)據(jù)中心來說無異于又多了一個負擔(dān)。當(dāng)環(huán)境溫度超過一定限度時會導(dǎo)致系統(tǒng)發(fā)生故障,而系統(tǒng)故障最終會導(dǎo)致意外的宕機。盡管現(xiàn)在的高架地板上通??梢苑胖眯碌目諝馓幚砥鳎歉呒艿匕宓母叨葘︻~外的空氣流動不利。尤其是電源和數(shù)據(jù)電纜數(shù)量的增加以及更大的冷卻水管可能會妨礙地板下空氣的適當(dāng)流動,最終導(dǎo)致缺少足夠的靜壓來冷卻高密度的機架設(shè)備。解決問題的一個辦法是在相應(yīng)的設(shè)備前增加額外的出風(fēng)口。這通??梢栽黾釉擖c上的制冷量,但同時也會影響其他區(qū)域的靜壓。
另一個類似的方法是增加空氣處理器的功率。如果能夠用更大的風(fēng)扇吹出更多的空氣,出風(fēng)口就會得到所需的靜壓和冷卻。但是在某些的情況下,結(jié)果恰好相反。功率大的馬達產(chǎn)生的流速快的氣流可能會在鄰近的出風(fēng)口處產(chǎn)生文德里效應(yīng)。文德里效應(yīng)是一個基本的空氣動力學(xué)定律。根據(jù)此定律,當(dāng)流體以相對較高的速度通過一個表面時,對表面的壓力就會降低。
文德里效應(yīng)會導(dǎo)致某些部位致冷效果變差,使設(shè)備運行變得不安全。過去,即便數(shù)據(jù)中心失去致冷功能1個小時甚至更長時間,也能保持安全運行。但是如今,高密度數(shù)據(jù)中心產(chǎn)生的巨大熱量意味著如果致冷暫停幾分鐘,溫度就會上升,從而威脅設(shè)備的運行。
快速散熱的要求不僅影響系統(tǒng)設(shè)計,而且會影響致冷設(shè)備的維護。過去,在更換過濾器或維護空氣處理器時,出現(xiàn)短時間斷電不會有太大影響,但現(xiàn)在所帶來的危險已不可同日而語了。
圖4 熱通道—冷通道方法
因此,更高級別的空氣處理器冗余配置變得越來越普遍。附加的冗余配置使維護工作和設(shè)備故障不至于威脅到整個系統(tǒng)。這方面,一些基本的方法已經(jīng)取得了較好的效果,例如“熱通道—冷通道方法”。該方法是一種機柜布局方式,有助于***限度地增加設(shè)備機柜入口處的冷氣量。如圖4所示。
使用這種方法,機柜的前端彼此相對,并在相應(yīng)的通道中裝有出風(fēng)口。這樣就形成了“冷通道”,有助于設(shè)備入口接受冷卻空氣。在后通道上,每個機柜的背面彼此相對,熱空氣排進該通道中就會上升并產(chǎn)生更強的對流循環(huán)。
致冷問題還表現(xiàn)在一些采用電信設(shè)計規(guī)范的數(shù)據(jù)中心。這些數(shù)據(jù)中心拆除了高架地板,在頂部使用大流量空氣處理器實現(xiàn)冷卻。但實際上,采用這種做法冷卻的是整個房間,而不是機柜。同時該方式還可能存在諸如冷卻水泄漏和冷熱空氣混合的問題。#p#
關(guān)于系統(tǒng)可靠性和可用性的討論
就數(shù)據(jù)中心的統(tǒng)籌設(shè)計而言,必須討論的另一個重要問題是系統(tǒng)的可用性和可靠性。很多客戶、設(shè)計人員和設(shè)備提供商在談到可用性時很少采用量化的概念,也很少了解實現(xiàn)這些目標(biāo)須采取的措施。例如當(dāng)前業(yè)界使用非常頻繁的“99.999%”?!?個9”相當(dāng)于每年5分鐘的宕機時間。目標(biāo)固然理想,但是要在很長時間內(nèi)保持這一標(biāo)準(zhǔn)就必須滿足一些實際要求,而這些要求卻常常得不到設(shè)計者足夠的重視。
對可用性的誤解
一個常見的誤解是可用性是在限定的時間間隔內(nèi)測量出來的數(shù)據(jù),而不是一個連續(xù)測量值。例如,如果數(shù)據(jù)中心一年未發(fā)生宕機,但在隨后的1個月發(fā)生了1小時的斷電。在這種情況下,如果說數(shù)據(jù)中心在除了該月之外的所有月份都達到了“5個9”的可用性,那么從技術(shù)角度來講這是不準(zhǔn)確的。實際上,1小時的斷電會使數(shù)據(jù)中心的可用性在12年內(nèi)達不到“5個9”的目標(biāo),其原因如圖5所示。
圖5 1小時斷電對可用性的影響
可用性是在系統(tǒng)運行壽命期內(nèi)的連續(xù)測量值,它是用總的正常運行時間除以總的運行時間得出的。通過調(diào)整時間框架,尤其是縮短所計算的時間,系統(tǒng)可用性目標(biāo)的實現(xiàn)變得相對容易一些。每個月簽定的服務(wù)級別協(xié)議就是其中一個常見的實例。將可用性時間劃分為1個月的時間間隔可以達到高級別的可用性目標(biāo),但是相對于真正的系統(tǒng)可用性而言則沒有太大的意義。
在確定可用性目標(biāo)時,人們很少為確定數(shù)據(jù)中心實際可能達到的潛在可用性目標(biāo)而進行認真的分析。部分系統(tǒng)每年可能發(fā)生幾十次一兩秒鐘的斷電,1 分鐘以下的中等程度的斷電事故在一年內(nèi)可能出現(xiàn)5~6次,1小時或更長時間的斷電可能一兩年才會出現(xiàn)1次。
在建立這樣一個系統(tǒng)模型時,需要考慮頻度和持續(xù)時間的事件密度函數(shù)。即使5秒鐘的斷電也可能會導(dǎo)致發(fā)電機啟動,并影響不間斷電源電池。從根本上來說,對一個復(fù)雜的電源系統(tǒng)來說,一個5分鐘的事件與60個5秒鐘的事件之間有著巨大的區(qū)別。
與此同時,還要考慮重新啟動和恢復(fù)時間,一次1秒鐘的斷電可能會使服務(wù)器宕機20分鐘。因此,考慮可用性時存在很多的統(tǒng)計屬性和非線性關(guān)系,使得這種可用性計算變得非常困難。不考慮這些電源事件因素的模型得到的結(jié)果是沒有意義的,甚至?xí)?dǎo)致錯誤的結(jié)論。
圖6 典型的冗余策略
圖7 系統(tǒng)MTTR值與不可用性(1-可用性)的關(guān)系曲線
圖8 系統(tǒng)MTBF值與不可用性的關(guān)系曲線
對冗余系統(tǒng)的正確評估
實現(xiàn)可用性的下一個步驟是評估電源系統(tǒng)的冗余和可維護性策略。常用的冗余形式各異,但常常缺少優(yōu)化的方法。圖8 顯示的就是這樣的實例。
如圖6所示,UPS系統(tǒng)采用了全面的系統(tǒng)冗余(2N),但是單電源負載是由一個PDU供電的。而這個PDU又串聯(lián)了很多組件,成為單路徑故障點。其中包括系統(tǒng)輸入斷路器、變壓器、輸出斷路器、主配電盤斷路器,以及支路斷路器。在某些設(shè)計中可能形成5~7個單路徑故障點。
這種設(shè)計使UPS系統(tǒng)有充足的冗余,但是在配電系統(tǒng)中卻沒有。這樣一來,會導(dǎo)致可用性瓶頸,或一部分可用性較高,而另一部分可用性較低。假定宕機時間是可累加的,可用性不高的環(huán)節(jié)始終會妨礙系統(tǒng)達到***的可用性,這在統(tǒng)籌設(shè)計過程中是一個需要特別考慮的重要因素。一個系統(tǒng)內(nèi)部的可用性差異意味著,如果在一個地方花費過多的資金,其他地方的投入將減少。實現(xiàn)平衡對于***限度利用資金獲得***的可用性來說至關(guān)重要。#p#
MTTR對可用性的特殊作用
優(yōu)化可用性的另一個方面與恢復(fù)時間有關(guān)。可用性是與平均無故障工作時間(MTBF)、平均恢復(fù)時間(MTTR)相關(guān)聯(lián)的函數(shù)。所有的系統(tǒng)都會在某個點上出現(xiàn)故障。這是事實,但是,可用性高的系統(tǒng)不會受到太大影響,并且可以快速、高效地修復(fù)。有證據(jù)顯示,如果MTTR過長,就不可能達到較高的可用性。
從圖7和圖8可以看出,平均恢復(fù)時間對提高系統(tǒng)可用性的作用遠大于平均故障時間(MTRF)的作用,其原因有以下幾點:?
***,MTTR對提高可用性的作用是MTBF根本達不到的。
第二,提高MTBF值對可用性的提高并不是總有效的。
第三,MTTR的變化與可用性總是呈線性關(guān)系。
另一個需要了解的影響可用性的情況是,數(shù)據(jù)中心的操作人員無法控制一個部件的MTBF,但是在很大程度上,MTTR是可以控制的。數(shù)據(jù)中心操作人員可以控制MTTR,這就要求現(xiàn)場必須儲存100%的備件,操作人員需要接受有關(guān)設(shè)備操作的培訓(xùn),同時要了解必要時更換或維修設(shè)備的程序。
考慮備件庫存是建立數(shù)據(jù)中心可用性預(yù)期的一個重要組成部分。為此,應(yīng)對本地人員進行培訓(xùn),詳細講解操作程序。與涉及關(guān)鍵業(yè)務(wù)設(shè)施的其他領(lǐng)域相比,數(shù)據(jù)中心的操作人員接受的培訓(xùn)少,操作程序亦很簡單。此外,復(fù)雜性也是造成宕機的重要原因。有最近的統(tǒng)計數(shù)據(jù)顯示,高達50%的宕機與人為錯誤有關(guān)。很明顯,必不可少的培訓(xùn)和備件是實現(xiàn)高可用性的先決條件。
EPO對可用性的影響
可用性數(shù)據(jù)是建立在統(tǒng)計學(xué)或經(jīng)驗數(shù)據(jù)的基礎(chǔ)上。而這些統(tǒng)計或經(jīng)驗數(shù)據(jù)又都是基于以前的運行經(jīng)驗。
其中有一個原則是關(guān)于數(shù)據(jù)中心緊急斷電(EPO)開關(guān)的使用。在大部分情況下,EPO系統(tǒng)是必備的,而且它們被設(shè)計成數(shù)據(jù)中心必不可少的重要環(huán)節(jié)。出于安全原因,它們能夠立即使數(shù)據(jù)中心完全宕機,但在其設(shè)計方面也常有不足之處。鑒于它們對數(shù)據(jù)中心的影響,必須詳盡地考慮這些因素,仔細檢查隱藏的陷阱。
第二個原則被認為是提高可用性的關(guān)鍵原則。該原則指出,高可用性系統(tǒng)要在系統(tǒng)出現(xiàn)故障時使系統(tǒng)的狀態(tài)變化最小化。某些系統(tǒng)設(shè)計時盡管提供了冗余措施,但如果一個部件發(fā)生故障,仍然需要進行狀態(tài)的多種變更。換句話說,如果出現(xiàn)故障,***不要改變狀態(tài),也不要重新確定電源路徑,或者被迫啟動系統(tǒng);而且此時替代系統(tǒng)已經(jīng)可以運行,且準(zhǔn)備就緒。這樣的系統(tǒng)冗余最可靠,但也會更昂貴。
綜上所述,在建立完全適合客戶需要的系統(tǒng)過程中,需要統(tǒng)籌考慮以下各種因素:
◆ 當(dāng)前的系統(tǒng)需求
◆ 后期未來的系統(tǒng)需求
◆ 系統(tǒng)可用性要求
◆ 資金預(yù)算狀況
◆ 商業(yè)模型
認真地檢查所有這些因素,會使客戶滿意度達到***水平,并使項目和業(yè)務(wù)的成功概率達到***。
【編輯推薦】