五個(gè)9高可靠的秘密 解析服務(wù)器容錯(cuò)技術(shù)
相對(duì)于PC來(lái)說(shuō),服務(wù)器擁有更高的可用性和可靠性。隨著信息化的不斷深入和關(guān)鍵業(yè)務(wù)平臺(tái)的IT信息化進(jìn)程的推進(jìn),使得服務(wù)器面臨著有史以來(lái)最沉重的壓力,尤其是在ISP、NCP、金融、電信、證券、能源、科研等行業(yè)和部門的應(yīng)用需求,對(duì)服務(wù)器不斷提出挑戰(zhàn)。
這種挑戰(zhàn)其實(shí)本質(zhì)上就是7*24全天候穩(wěn)定運(yùn)行。如何確保在突發(fā)情況下服務(wù)器能夠正常運(yùn)轉(zhuǎn),并確保故障出現(xiàn)的時(shí)候不會(huì)帶來(lái)業(yè)務(wù)的中斷運(yùn)行,成為了服務(wù)器容錯(cuò)技術(shù)的重中之重。
“容錯(cuò)”,顧名思義是服務(wù)器對(duì)于系統(tǒng)運(yùn)行中產(chǎn)生的錯(cuò)誤、故障的容納、糾錯(cuò)能力,它是企業(yè)級(jí)應(yīng)用中對(duì)于服務(wù)器穩(wěn)定性追求的目標(biāo)。人們俗稱的99.999%就是對(duì)于服務(wù)器系統(tǒng)高穩(wěn)定性訴求的直觀體現(xiàn)。容錯(cuò)服務(wù)器能夠允許出現(xiàn)一定的錯(cuò)誤(故障),這些服務(wù)器通常都具備有自動(dòng)修復(fù)和支持冗余的功能模塊。當(dāng)錯(cuò)誤或者故障出現(xiàn)的時(shí)候,這些出錯(cuò)的部件可以得到及時(shí)的修復(fù)或者切換,從而確保服務(wù)器不間斷運(yùn)行。在目前,服務(wù)器的容錯(cuò)技術(shù)主要集中在服務(wù)器集群、雙機(jī)冗余備份、單機(jī)容錯(cuò)技術(shù)三種。
服務(wù)器容錯(cuò)技術(shù)并不是近幾年才出現(xiàn),早在上世紀(jì)八十年代的時(shí)候就已經(jīng)出現(xiàn)并得到應(yīng)用。容錯(cuò)其實(shí)是來(lái)自國(guó)外(Fault Tolerant)的意譯,該詞最早來(lái)自當(dāng)時(shí)著名的Stratus公司。在上世紀(jì)八十年代第一代容錯(cuò)技術(shù)開(kāi)始進(jìn)入商用領(lǐng)域。當(dāng)時(shí)主要被應(yīng)用在金融、電信、證券、航空等行業(yè)領(lǐng)域。
隨后,服務(wù)器容錯(cuò)技術(shù)得到進(jìn)一步發(fā)展,并先后經(jīng)歷了二代I860、三代HP PA-RISC、四代IA架構(gòu)容錯(cuò)技術(shù)發(fā)展。目前談?wù)摰姆?wù)器容錯(cuò)技術(shù)其實(shí)更主要的是針對(duì)單臺(tái)服務(wù)器而言。這種方式相比其他方式成本較低、容錯(cuò)能力較高、可滿足大多數(shù)用戶的需求。接下來(lái),我們會(huì)重點(diǎn)談?wù)剢螜C(jī)和雙機(jī)(冗余)容錯(cuò)技術(shù)。
#p#
前面我們講過(guò),服務(wù)器容錯(cuò)技術(shù)主要由服務(wù)器集群、雙機(jī)熱備份和單機(jī)容錯(cuò)技術(shù)。在這三種服務(wù)器容錯(cuò)技術(shù)中,它們呈由低到高的級(jí)別遞進(jìn),也就是單機(jī)容錯(cuò)技術(shù)級(jí)別最高,而集群技術(shù)的容錯(cuò)技術(shù)級(jí)別最低。
雙機(jī)熱備份技術(shù)是一種系統(tǒng)級(jí)的容錯(cuò)技術(shù),也就是采用軟硬一體的方式來(lái)實(shí)現(xiàn)容錯(cuò)。一般它們是在兩臺(tái)服務(wù)器之外額外增添一個(gè)共享磁盤陣列,或者兩臺(tái)服務(wù)器中的RAID陣列,并通過(guò)相應(yīng)的雙機(jī)熱備份軟件共同實(shí)現(xiàn)。

雙機(jī)熱備容錯(cuò)技術(shù),主要是“雙保險(xiǎn)”的機(jī)制來(lái)確保其中任何一臺(tái)服務(wù)器出現(xiàn)故障,及時(shí)由另外一臺(tái)機(jī)器切換并保證業(yè)務(wù)的連續(xù)運(yùn)行。不過(guò),由于這種方式往往需要借助另外一臺(tái)服務(wù)器時(shí)刻處于后備狀態(tài),對(duì)于硬件設(shè)施的投入和計(jì)算資源的利用來(lái)說(shuō),存在一定的浪費(fèi)。
相比之下,單機(jī)容錯(cuò)技術(shù)則主要是通過(guò)部件冗余的方式來(lái)實(shí)現(xiàn)。這種單機(jī)容錯(cuò)技術(shù)的容錯(cuò)能力比服務(wù)器集群、雙機(jī)熱備的容錯(cuò)能力都要高。
容錯(cuò)服務(wù)器通常對(duì)CPU、內(nèi)存、磁盤和網(wǎng)卡甚至電源實(shí)現(xiàn)冗余備份,在任何部件出現(xiàn)問(wèn)題的時(shí)候都不會(huì)造成系統(tǒng)宕機(jī)和數(shù)據(jù)丟失。目前很多基于工業(yè)標(biāo)準(zhǔn)的x86服務(wù)器都能實(shí)現(xiàn)這種冗余容錯(cuò)機(jī)制,而且是以更具成本優(yōu)勢(shì)的方式來(lái)實(shí)現(xiàn)。
#p#
容錯(cuò)服務(wù)器是通過(guò)硬件部件的冗余設(shè)計(jì)和同步技術(shù),確保故障帶來(lái)的影響降至最低。目前容錯(cuò)服務(wù)器主要圍繞處理器來(lái)展開(kāi),就目前來(lái)說(shuō),很多服務(wù)器廠商都有自己的容錯(cuò)服務(wù)器。
比如惠普就提供有專門面向關(guān)鍵業(yè)務(wù)容錯(cuò)技術(shù)的NonStop(包括NonStop S和Integrity NonStop)系列服務(wù)器,該系列服務(wù)器就是根據(jù)處理器的不同而被劃分成兩大類,也就是采用MIPS的NonStop S和采用英特爾安騰芯片的Integrity NonStop服務(wù)器。
Integrity NonStop具有很多新的設(shè)計(jì),其產(chǎn)品家族分為入門級(jí)、中高端和最高端服務(wù)器。去年惠普還拓展了安騰服務(wù)器家族,推出了適用于異構(gòu)環(huán)境的NS2100、NS2200。
另外還有兩家比較著名的容錯(cuò)服務(wù)器廠商,包括NEC和Express5800/ft服務(wù)器和Stratus的ftServer服務(wù)器。后者在容錯(cuò)服務(wù)器技術(shù)領(lǐng)域擁有較為成熟的經(jīng)驗(yàn),前后開(kāi)發(fā)出基于Motorola M68000、Intel I860芯片、HP PARISC等不同處理器,以及VOS專有操作系統(tǒng)的服務(wù)器產(chǎn)品。后來(lái)噶公司逐漸采用了基于Linux、Windows等通用平臺(tái)代替專用的VOS操作系統(tǒng),以降低容錯(cuò)服務(wù)器的應(yīng)用成本。

NEC通過(guò)對(duì)Stratus進(jìn)行投資控股,也獲得并采用了與其類似的容錯(cuò)服務(wù)器的開(kāi)發(fā)和推廣策略。在容錯(cuò)技術(shù)領(lǐng)域,NEC早在2001年就推出了首個(gè)基于IA架構(gòu)的容錯(cuò)服務(wù)器。其Express5800/ft系列在Windows及Linux平臺(tái)上的可靠性達(dá)到了99.999%,這種實(shí)時(shí)保護(hù)技術(shù)來(lái)源于STRATUS連續(xù)處理技術(shù)(Fundamentals of Continuous Pro-cessingDesign)。

目前,容錯(cuò)技術(shù)從原來(lái)的電信、證券、金融等傳統(tǒng)關(guān)鍵應(yīng)用行業(yè)逐漸過(guò)渡到基礎(chǔ)性行業(yè),比如制造業(yè)、能源、物流、交通等等。此外,容錯(cuò)服務(wù)器還將更多地會(huì)注重TCO總體擁有成本,而且將有更多的用戶會(huì)放棄傳統(tǒng)的雙機(jī)熱備的方式來(lái)維護(hù)復(fù)雜的集群服務(wù)器,轉(zhuǎn)而采用具有容錯(cuò)技術(shù)的服務(wù)器平臺(tái)。