云部署的高可用性和災難恢復的四個專家提示
了解如何使用高可用性 (HA) 和災難恢復 (DR) 方法在停機的情況下繼續不間斷地運行。
業務連續性是指公司在停機情況下繼續不間斷運營的能力。在云環境中,這通常包括高可用性 (HA) 和災難恢復 (DR)。
他們的最終目標是盡可能減少所有停機風險,以便您可以在中斷的情況下正常運行關鍵服務。
繼續閱讀以了解有關 HA 和 DR 以及如何提高云中業務連續性的更多信息。
高可用性意味著什么?
高可用性的基本理念是讓您的基于云的服務和工具可以按需訪問和工作。但是,HA 的概念所指的遠比僅僅讓您的云資源在您需要時隨時可用更具體。
可用性是您的云基礎架構保持運行以達到其目的的時間百分比,通常以九位表示。例如,“五乘九”表示系統在 99.999% 的時間內完全運行,平均每年有 5.5 分鐘的停機時間。
如果您希望為您的云部署實現高可用性,您需要通過系統冗余來消除單點故障。HA 還需要編排云系統以自動路由網絡流量并減少用戶和應用程序的停機時間。
災難恢復意味著什么?
災難恢復是預測和解決可能導致 IT 系統崩潰的問題的過程。
DR 可以像從備份中恢復一樣簡單,但也可以根據恢復時間目標 (RTO) 和恢復點目標 (RPO) 變得更加復雜。
RTO 是系統在再次完全運行之前可以關閉的最長時間。有些設置可以停機數小時甚至數天而不會造成損害,但對于關鍵任務元素,RTO 通常以秒為單位。
RPO 是可容忍的數據丟失量。雖然在某些設置中丟失一天的數據可能是可以接受的,但在更關鍵的系統中,這可能是幾分鐘。
RTO 和 RPO 的可容忍長度會顯著影響您的災難恢復計劃。它們需要的時間越短,您就越需要注意活動數據復制、更多冗余或更頻繁的備份等因素。
所有這些都會轉化為更高的賬單——成本通常是阻止組織推動高可用性和縮短 RTO 和 RPO 的主要因素。達到最佳平衡點需要平衡費用和潛在系統停機時間的影響——在某些情況下,HA 和較短的 DR 值可能是不必要的。
這里有四個專家提示,可幫助您增強云部署的業務連續性。
高可用性和災難恢復的四個技巧
1. 操作可觀察性
了解云部署的整體健康狀況對于云環境的高可用性至關重要。
操作可觀察性是指將日志記錄、指標和跟蹤與用于診斷和故障排除的工具一起聚合的能力。
根據經驗,您的云部署應該集成用于可視化、警報和通知的日志記錄和關鍵指標。
為此,您可以使用云服務提供商的本地監控和可觀察性工具。例如,AWS 有一個名為CloudWatch 的工具集,GCP — Google Cloud 的 Operations Suite(以前稱為 StackDriver),以及 Azure — Azure Monitor。然而,這些并不是免費的,它們的成本取決于指標的數量和處理的日志數據量。
您還可以從眾多第三方工具中進行選擇,例如 DataDog、New Relic、Dynatrace 等。來自Grafana和 Elasticsearch的開源解決方案也是受歡迎的選擇。
根據您的需要選擇合適的工具后,最好通過基礎架構即代碼(IaC) 部署它。
2.使用IaC進行備份和恢復
運行 IaC 工具的一個顯著優勢是它允許您在云中重新創建所有最終工件和組件以實現完全恢復。
使用 IaC,您只需要 Git 存儲庫級別的傳統備份/恢復過程。敏感的備份活動必須轉移到確保您有足夠的代碼存儲庫備份策略。您可以使用 Git 工具和跨區域存儲解決方案來實現這一點。
每個區域云部署都包含需要備份的數據。文件系統、對象存儲桶和塊存儲卷等應用程序可以使用各種存儲解決方案。
每個工件都需要獨立于您的云部署的備份和保留策略。您需要為每個遷移的應用程序和關聯的存儲組件解決這些問題。
3.使用IaC進行災難恢復
IaC 的另一個顯著優勢是它可以在最少的人工干預下自動重建整個云區域。
但是,為了滿足您所需的 RTO 和 RPO,您可能需要數據同步解決方案。
您的部署應包括一個具有最低限度定義的基礎架構的冷備用云區域。主要目標是同步關鍵基礎設施組件的存儲和數據庫以及任何特定于應用程序的存儲和數據庫資產。
4. 學習如何引導一個區域
讓我們想象一下您的整個云區域出現故障的情況。您的目標是為您的云部署記錄平均恢復時間,最好以小時為單位,而不是幾天或幾周。
快速引導區域的能力證明您可以從高影響可用性事件中快速恢復。實例化部署會有所幫助,尤其是因為只有幾個與網絡連接相關的硬性先決條件。
即使缺少數據中心連接,您仍然可以在測試期間快速連續地啟動和拆除大部分云部署組件。您的目標應該是創建一個通過 GitOps 和基礎架構即代碼驅動的可重復流程。
概括
高可用性和災難恢復都針對同一個問題:在出現中斷和其他可能性的情況下保持云系統正常運行。
HA 處理操作系統中的問題,而 DR 則側重于在發生故障后進行恢復。它們共同提高了您的業務連續性,并有助于確保您的云部署保持全面運行。
我們希望以上四個技巧能夠激發您的云遷移策略并使其更加順利。