通過可靠的設計預防VMware環境故障
ESXi主機需要vCenter才能進行高級功能和管理,當然,即使沒有它,你也可以執行很多管理任務。但是,當你遇到事故或中斷時,vCenter是虛擬環境中最重要的工具。在設計VMware環境時,你必須保護vCenter,并考慮為大規模故障制定應急計劃。
很多管理員在同一個環境虛擬化vCenter以及管理vCenter。這意味著如果你遇到大問題(例如存儲故障),你的主要診斷工具也可能會脫機。
當你使用冗余網絡和電源連接時,你可能會忽略對vCenter的全面保護。幸運的是,你可以在發生故障時將多個vCenter服務器鏈接在一起。高可用性(HA)也可以提供vCenter保護–通過備份vCenter服務器并啟動故障轉移,但如果整個虛擬環境出現故障,這將無濟于事。
規劃管理集群
管理集群是位于主要生產基礎架構外的主機,專用于管理工具和應用程序。管理集群應包含vCenter、Active Directory控制器、備份打印服務器、備份域名系統和動態主機配置協議服務器。異地管理群集對數據中心至關重要。
要使管理群集真正有效,你必須將其連接到主生產網絡,但同時保持其獨立,以免網絡問題影響它。存儲也是如此,存儲應該存在于自己的框架中,或者你可以使用本地共享存儲(例如vSAN)來提供備用存儲位置。
如果你無法阻止VMware環境發生故障,包含關鍵工具和服務的管理集群可以為你提供基本功能以使其他系統重新聯機。這不應取代或復制你現有的數據中心。但是,它可以在發生大規模中斷時保持vCenter安全。
調整規模以防止VMware環境故障
故障威脅會影響你創建主機的大小以及可向主機中部署多少個VM或容器。你的主機越大,中斷的影響就越大,具體取決于你的工作負載分布情況。
VM密度也會影響HA。對于相同數量的VM,你擁有的主機越少,重啟所用的時間就越長,因為你必須一次重新啟動更多的VM。
同時,保持工作負載分離可能會增加主機故障的影響。而如果你將生產工作負載與開發或測試工作負載混合在一起,則故障的影響會更小。但你必須管理更多資源池以確保生產VM具有資源權限。混合工作負載還會創建更密集的主機,因此你必須確定哪個更重要:在環境平穩運行時減少工作量,還是在發生重大故障時減少工作量。
在設計中尋找折中點
好的設計需要折中點。對你有意義的內容可能會讓另一個管理員感到困惑,并且,修復可能并不總是完美。你可以通過確保其他管理員了解你的思維過程,以防止未來的VMware環境故障。
你應該記錄你的設計過程,這不僅包括你做出的決定,還包括做出這些決定的原因。這有助于其他人理解背后的邏輯。這些細節可以防止他人犯錯誤。你當然不會希望新員工升級或更換基礎架構時,遇到與你相同的問題。