亞馬遜云科技:構建韌性云服務,賦能企業應對未知挑戰
原創自2006年發布了第一款云服務以來,亞馬遜云科技提供了超過 240 種功能全面的服務。據了解,僅去年,亞馬遜云科技每天穩定啟動的Amazon EC2實例超過1億個,每秒 API請求數高達100萬億次。
那么,亞馬遜云科技如何構建如此可靠且強大的云服務?答案是“韌性”。在充滿變數的商業環境中,韌性成為企業保持穩定、有效抵御各類風險與挑戰的重要基石。
亞馬遜CEO Andy Jassy曾講過,“經驗沒有壓縮算法”。在過去的18年里,亞馬遜云科技在基礎設施構建、系統架構設計和運營機制優化三大核心領域,持續不斷地積累和迭代,形成了一套行之有效的經驗與方法體系。這些寶貴的經驗不僅顯著提升了亞馬遜云科技自身的韌性,同時也為眾多企業用戶提供了強有力的賦能與支持。
近日,亞馬遜云科技大中華區解決方案架構總經理代聞分享了亞馬遜云科技的云端韌性之道。
如何提高基礎設施的韌性?
在基礎設施構建上,亞馬遜云科技設計了區域(Region)與可用區(AZ)的架構,以確保數據中心的可用性和業務連續性。
區域是亞馬遜云科技在全球范圍內設立的多個數據中心集群的物理位置。而可用區作為區域的下一層級單位,是由邏輯數據中心組組成,每個區域都至少包含三個或更多的可用區。
特別的是,為了確保高可用性,同一區域內的可用區之間保持了足夠的物理距離。這樣,即便某個可用區遭遇電力中斷或自然災害,其他可用區也能免受影響,繼續正常運行。這種安全距離的設計,不僅有效防止了相關故障的發生,還實現了數據在可用區之間以單位毫秒級的延遲進行同步復制。通常情況下,亞馬遜云科技的可用區間距離控制在約100公里以內。
此外,無論是在可用區內部、可用區之間,還是區域與區域之間,亞馬遜云科技都鋪設了光纖線路,實現兩兩互聯。這種設計確保了高速數據傳輸的同時,也保證了任一連接的冗余性,從而提高了整個網絡的可靠性。
代聞以中國的北京和寧夏兩個區域為例,詳細解釋了這一架構。在可用區內部,無論是寧夏還是北京,每個可用區內都設有多個數據中心,它們之間通過多條冗余鏈路互聯,實現了數據的直達傳輸。在可用區之間,寧夏或北京的每個可用區都至少通過兩個傳輸中心進行互聯,確保任一可用區的任一數據中心都能通過多條冗余鏈路與傳輸中心相連,從而實現跨可用區的數據互通。此外,在寧夏和北京兩個區域分別實現多層級互聯韌性保障后,它們之間還通過冗余的連接中心站點和分布的冗余鏈路進行互聯,進一步增強了整個網絡的穩定性和可靠性。這些連接中心站點之間的大帶寬冗余鏈路,共同構成了亞馬遜云科技堅實的基建骨干網絡。
如何提高技術架構韌性?
在技術架構的韌性提升上,亞馬遜云科技總結出云服務韌性的四大核心要素:區域隔離,多可用區;控制面和數據面獨立;單元架構;隨機分片。
首先,區域隔離,多可用區方面,亞馬遜云科技依據故障隔離的邊界,將服務細分為可用區級、區域級及全球級三類,從而精準控制故障對客戶的影響范圍,確保服務的連續性。
其次,在控制面和數據面獨立方面,亞馬遜云科技將服務拆分為控制平面和數據平面,確保數據平面能夠獨立于控制平面的狀態持續穩定運行,同時又可以實現獨立擴展互不影響。代聞形象地比喻道,“控制面和數據面的隔離,類似于叫車軟件和打車,兩者其實是相對獨立的。當你坐上車以后,如果一段時間叫車軟件沒有信號無法響應了,也不影響司機將你送到預定的目的地。很多故障失效的情況關鍵在于沒有把數據面和控制面做到很好的隔離。”
再者,單元架構設計方面,亞馬遜云科技將整個系統拆解為更小的獨立單元。當發生故障時,僅有故障單元會受到影響,避免了整個系統的崩潰,從而提升了系統的整體穩定性。
最后,在隨機分片上進一步增強了應用和系統的可用性,為亞馬遜云科技的服務提供了額外的韌性保障。
如何建立卓越的運營機制?
為了確保云服務的韌性,卓越的運營和機制至關重要,這也是亞馬遜云科技的差異化優勢之一。亞馬遜云科技將運營機制精煉為四大模塊:服務責任模型、運營就緒審查、持續安全部署,以及糾錯流程。
亞馬遜云科技采用服務所有權模型,激勵團隊不斷改進運營。工程和產品管理工作由小型、多學科團隊領導,并對其提供的服務擁有強大的所有權。這種所有權不僅要負責設計和啟動服務,還要在生產期間運營它,并在出現問題時隨叫隨到。
在發布和更新亞馬遜云科技服務之前,還需要使用運營就緒性審查(ORR)流程對所有新服務進行審查。發布團隊需要回答一系列關于復原力以及其他已知最佳實踐的問題,并遵循標準化的運行手冊,來確保服務符合標準。服務部署后,每周還會舉行運營會議,檢查系統的運營性能以及任何懸而未決的問題。
此外,亞馬遜云科技在服務更新或推出新服務時,采用了安全、持續部署管道。通過實施廣泛的生產前測試、自動回滾和交錯生產部署,將自動化部署安全性構建到發布過程中,從而最大限度地減少錯誤部署對生產造成的潛在影響。
最后,亞馬遜云科技利用糾錯(CoE)流程等事件管理機制,幫助團隊了解問題的根本原因。在問題得到緩解后推動全公司的工程沖刺,確保該問題在所有服務中得到解決,從而降低了未來類似事件影響其他服務的可能性。這些學習被記錄下來,并融入ORR過程,確保同類問題不再重復發生。
賦能客戶構建端到端的韌性
在與客戶及內部團隊多年的緊密合作中,亞馬遜云科技精煉出韌性構建工程的四大寶貴經驗。代聞指出,首先,系統韌性的提升是一個持續不斷的過程,而非一蹴而就;其次,企業需在業務需求、可靠性、成本控制與系統復雜度之間找到最佳平衡點;第三,借鑒標準的軟件開發生命周期,可以輕松地將韌性構建融入企業的現有流程;最后,從業務戰略、技術實施到持續運營,多維度助力企業全面提升系統韌性。
基于這些經驗,亞馬遜云科技開發了韌性系統建設生命周期框架,該框架由五個關鍵階段組成,并配套提供了一系列服務和工具,幫助企業打造更具韌性的應用。代聞強調,韌性建設是一個循環往復的生命周期過程,需要不斷重復這五個階段,以適應不斷變化的環境和業務需求。
在設定目標階段,企業需要明確定義韌性的目標和要求,評估現有系統的韌性水平,并制定改進計劃。此時,可以利用Amazon Resilience Analysis Framework來獲取指導方案。
進入設計和實施階段,企業可以基于韌性最佳實踐,構建具有適當韌性控制措施的工作負載和系統。亞馬遜云科技提供了多種增強韌性的服務和功能,如自動擴展、負載均衡、備份等。
在驗證和測試階段,企業需要通過常規的測試以及混沌工程,驗證已知風險,積極探索未知風險。
在持續運營階段,企業應采納自動化、監控、變更管理等最佳實踐,持續提高系統的可觀測性和自動化性。
最后,在響應和改進階段,企業需要定期回顧韌性策略和措施的有效性,深入分析事故根因,避免問題再次發生,并持續進行調整和優化。
在數字化轉型的大潮中,云計算已成為企業提升業務韌性與運營效率的關鍵力量。亞馬遜云科技憑借多年實踐經驗以及先進的工具方法,助力不同行業的企業提升韌性,實現業務的平穩升級與卓越運營。例如,奇瑞捷豹路虎將SAP系統遷移至亞馬遜云科技,利用其獨有的一個區域三個可用區特性增強集群穩定性,故障切換提速至3分鐘;紫訊科技通過亞馬遜云科技構建多區域容災架構,核心業務高可用改造,SLA提升至99.995%;FreeWheel依托亞馬遜云實現多區域多活應用,輕松應對百倍流量激增,為全球頂級賽事提供穩定廣告技術支持。