重磅干貨:OPENSTACK與DRaaS典型架構與設計
隨著IT基礎架構在新時代中的發展,采用云計算替代傳統基礎架構的趨勢已日漸明顯。其中以OpenStack為首的開源云正在逐步靠近各類IT業務系統的核心,承擔起更加重要的角色。
隨著OpenStack內部架構的逐步完善,對于核心業務的容災需求也應當被加入到整個架構當中。在以OpenStack為基礎的容災架構中不僅涵蓋業務的數據和應用,還包括云主機配置,認證授權,網絡等等容災云的元素。OpenStack容災架構的部署,對于提高IT業務的可靠性,可用性和連續性至關重要。
本文主要介紹OpenStack在DR災難恢復場景下對應的技術解決方案,以及OpenStack災難恢復服務DRaaS的規劃、實施和建設。
一、DRaaS的思想和原則
(一)幾個概念
災難(Disaster)是由于人為或自然的原因,造成一個數據中心內的信息系統運行嚴重故障或癱瘓,使信息系統支持的業務功能停頓或服務水平不可接受、達到特定的時間的突發性事件,通常導致信息系統需要切換到備用場地運行。
災難恢復(Diaster Recovery)是指當災難破壞生產中心時在不同地點的數據中心內恢復數據、應用或者業務的能力。
容災是指除了生產站點以外,用戶另外建立的冗余站點,當災難發生,生產站點受到破壞時,冗余站點可以接管用戶正常的業務,達到業務不間斷的目的。為了達到更高的可用性,許多用戶甚至建立多個冗余站點。
衡量容災系統有兩個主要指標:RPO(Recovery Point Objective)和 RTO(Recovery Time Object),其中 RPO代表 了當災難發生時允許丟失的數據量,而 RTO 則代表了系統恢復的時間。RPO 與 RTO 越小,系統的可用性就越高,當然用戶需要的投資也越大。
(二)容災級別
級別 |
定義 |
RTO |
數據級 |
指通過建立同城/異地容災中心和數據的遠程備份/復制,在災難發生之后要確保原有的數據不會丟失或者遭到破壞。容災切換時需要重新部署云主機,利用備份/復制數據恢復業務運行。 |
RTO 最長(若干小時) |
應用級 |
在數據級容災的基礎之上,在備份站點同樣構建一套相同的OpenStack云,通過數據復制技術,保證關鍵應用在允許的時間范圍內恢復運行,盡可能減少災難帶來的損失。 |
RTO 中等(若干分鐘) |
業務級 |
全業務的災備,將災備的范圍擴大到整個Animbus OpenStack云。通過對控制節點元數據的復制,恢復一個完整的云環境,以及云上的所有組件和業務系統。 |
RTO 最?。ㄈ舾煞?/span>鐘或者秒) |
(三)設計目標
設計的目標是通過部署DRaaS服務,能夠滿足并支撐:
- 實現云主機與云硬盤數據跨站點備份/復制,確保災難發生后,防止數據丟失或遭到破壞。
- 實現OpenStack云容災能力,云主機和數據具有異地恢復能力,提高系統的可靠性和連續性。
- 優化DRaaS部署方式,提供模塊化,可選擇,可擴展的部署方式。提供一體化管理界面和可視化管理能力。
二、架構與設計
(一)DRaaS容災架構
DRaaS容災架構通過將Animbus OpenStack劃分成三個層次,虛擬化層,控制層,管理層。虛擬化層集合了Animbus OpenStack的虛擬化資源,包括計算,存儲和網絡資源,屬于容災架構的核心層;控制層融合了Animbus OpenStack的管理組件,包括計算,認證,網絡,存儲,鏡像等,屬于容災架構的中間層;管理層提供了對于整個DRaaS容災環境的集中管理與監控,屬于容災架構的管理層。
在主備容災兩個Animbus OpenStack 環境之間,采用分層的容災技術結構,包括云存儲復制技術,云系統復制技術,云管理同步技術。通過整體容災架構的部署,使得主備Animbus OpenStack環境具備容災切換的能力。
DRaaS架構示意圖
(二)DRaaS容災分級
DRaaS容災架構可以根據業務場景和需求,實現三個不同等級的容災級別。包括:
數據級容災DRaaS of Data
通過采用云存儲復制技術,實現對Animbus OpenStack的數據級容災。在災難發生時,需重新部署云主機,利用Animbus OpenStack存儲上的容災數據實現數據恢復。這種方案價格最為低廉,RTO時間較長(若干小時)
應用級容災DRaaS of Application
通過采用云系統復制技術,實現對Animbus OpenStack的應用級容災。在災難發生時,可以直接恢復云主機以及Animbus OpenStack后臺存儲的數據,局部或者全部恢復業務應用系統環境。這種方案價格相對經濟,RTO時間較短(若干分鐘)
業務級容災DRaaS of Business
通過采用云管理同步技術,實現對Animbus OpenStack云環境的業務級容災。在災難發生時,通過容災轉移一鍵切換,可以快速的恢復整個Animbus OpenStack云平臺環境。這種方案價格相對昂貴,RTO時間最短(若干分鐘或秒)
三、容災DRaaS的應用
(一)災難定義
在信息系統服務時間段內,生產環境出現嚴重故障,系統中斷,無法在短時間內本地恢復,可以通過啟用同城災備(異地災備)環境實現業務的接管,可以根據災難決策,實施災難切換操作。
由于每次災難產生的原因,影響的范圍和時間長度,以及應對措施的差異。需要在制定容災方案中,事先假設對于災難場景的預設,然后可以根據不同的災難場景,制定容災方案以及災難恢復計劃。
(二)災難場景
在DRaaS的容災架構中,已經預設了多樣的災難場景,以及與之對應的容災架構設計和容災方案。通過這些容災體系的建設,可以使整個Animbus OpenStack應對多樣的災難場景,實現快速的,安全的容災切換。
- ***類-自然災害,例如:火災,水災,地震……
- 第二類-核心基礎架構故障,例如:數據中心停電、核心存儲宕機、廣域網絡中斷、內部網絡癱瘓、空調系統宕機……
- 第三類-單個系統故障,例如:操作系統或者數據庫系統崩潰、服務器硬件故障造成的宕機……
(三)DRaaS在實際災難場景中的應用例子
某公司數據中心停電
案情:
由于電力故障,使其數據中心機房大面積停電。決定將IT業務系統整體容災切換到位于另一處的備用數據中心。
在主備數據中心之間部署了基于Animbus OpenStack的DRaaS for Bussiness容災環境,通過啟用容災環境的Animbus OpenStack云,迅速恢復原有的業務系統。保證業務應用的持續運行。
容災恢復過程
災難發生,業務應用出現無響應狀態。
收集系統信息輔助決策,觸發容災切換方案。
關閉主中心Animbus OpenStack應用服務,斷開數據復制線路。
恢復Animbus OpenStack備中心,并恢復業務訪問。
DRaaS在實際災難場景中的應用示意圖