vCenter Server的虛擬與現(xiàn)實
我們使用VMware vSphere來保護一些關(guān)鍵業(yè)務(wù)的服務(wù)器和應(yīng)用程序,但是,對于vCenter的保護是否也要達到相同的級別呢?事實上,VMware官方開發(fā)出虛擬機形式的vCenter就是讓管理員將vCenter放在虛擬化的環(huán)境中。為此,VMware已經(jīng)開發(fā)出了許多工具來對此進行保護,如高可用(HA)、vCenter Server集群(Heartbeat)和分布式資源調(diào)度(DRS)。所有這些功能旨在保護虛擬的vCenter Server,防止其出現(xiàn)問題,但是這樣做真的可靠嗎?
雖然很多人不認可我的這種說法,但我還是寧愿將vCenter服務(wù)器以物理服務(wù)器的形式使用,而不是構(gòu)建在其管理的VMware虛擬化架構(gòu)之中。在你提出質(zhì)疑前,讓我們先來看一個例子。當我離開家時,我鎖好門,但沒有把房子的鑰匙帶在身上。相反,我把鑰匙放在車庫里,只要車庫開門機正常,房子就很安全。這一切都運行良好,但是直到有一天,電源出現(xiàn)了問題,此時車庫開門機不再工作,房子也進不去了。同樣,將vCenter服務(wù)器以虛擬機的形式放在它管理的虛擬環(huán)境中,前提是VMware的HA、Heartbeat以及DRS能夠處理所有出現(xiàn)的問題,但是你能保證它們永遠都能為你解決掉所有的故障碼?
幾年前,在我任職的一家大型公司的數(shù)據(jù)中心經(jīng)歷了一次完整的數(shù)據(jù)中心停電事故。這次電力中斷的范圍涵蓋了機房中的每個設(shè)備,包括交換機,存儲區(qū)域網(wǎng)絡(luò)(SAN),服務(wù)器和AC單元。停電的原因是由于一個人不小心碰到了一個安全電源分流器所導致。電力恢復后,ESX主機自動啟動,并開始重新啟動虛擬機(VM)。但是,此時的存儲陣列并沒有完全就位,所以HA不能正常啟用,使集群處于不穩(wěn)定狀態(tài)。我們需要立刻進入vCenter來糾正不穩(wěn)定的狀態(tài),并在存儲就位后將主機和虛擬機聯(lián)機。
在這個例子中,vCenter是獨立于虛擬環(huán)境的一臺物理服務(wù)器。進入這個數(shù)據(jù)中心,訪問到這臺服務(wù)器,我們可以在一個小時左右將VMware的虛擬環(huán)境上線。如果vCenter是在虛擬環(huán)境中的一臺虛擬機,我們首先需要定位到它所在的存儲LUN,然后嘗試打開一個單獨的主機,并手動將LUN掛載,這時才可以訪問到中央管理控制臺,修復HA后,將整個虛擬環(huán)境的其余部分上線。在實際情況中,定位到vCenter所在的LUN可能就需要一個小時,然后才能開始后續(xù)的恢復過程。這次事故發(fā)生在vSphere 4.1的平臺上,當然,現(xiàn)在的版本可能已經(jīng)做了改進以阻止這種類型的問題。不過,沒有任何人愿意在自己管理的數(shù)據(jù)中心實地驗證一下vSphere 5.5對這個問題的解決程度和有效性。
即使vSphere 5.5有了很多的改進,而且HA可以阻止這種管理的噩夢,但仍然需要考慮的問題是,vCenter服務(wù)器的虛擬機將如何重新啟動。在環(huán)境恢復過程中,HA會重新啟動vCenter服務(wù)器,但也會同時啟動標記為“高”重新啟動優(yōu)先級的所有虛擬機。在一個大型環(huán)境中,這可能意味著數(shù)百臺虛擬機。這種情況下,管理員所能做的就是等待vCenter的回應(yīng),因為沒有辦法知道啟動的進度,以及啟動中遇到的問題。當你無法查看進度以至于只能處于被動的等待狀態(tài),這時的心情將非常糟糕。
VMware發(fā)布了新的版本,并大力推廣虛擬設(shè)備格式的vCenter服務(wù)器,這很可能使管理員最終將被迫使用一個虛擬的vCenter Server,并存放在它管理虛擬環(huán)境中,除非管理員需要將它放在它管理的虛擬環(huán)境以外。由于ESXi是免費的,而且沒有內(nèi)存限制。可以將vCenter安裝在一臺單獨的擁有本地存儲和備份的虛擬機主機上,或者使用vCenter Heartbeat以確保擁有本地硬件故障的保護。由于沒有集群或HA,我們能夠準確的定位vCenter所在的位置,有了一個明確的出發(fā)點,恢復虛擬數(shù)據(jù)中心將會非常快速和有效。在出現(xiàn)嚴重故障時,恢復流程中最重要的步驟就是找到一個明確的起始點。