如何保障業務連續性?云之訊有話說
5月12日,Salesforce遭遇電力故障導致宕機;7月22日,支付寶華南機房故障;8月4日,微信8天內3度發生故障。業務的不連續性會導致多大的損失?據IBM的數據顯示,業務中斷小于20分鐘,損失金額大約是100萬美元,業務大于7小時,損失金額大約是1420萬美元,其中還不包括品牌的影響。據不完全統計,只有6%的公司可以在數據丟失后生存下來、43%的公司會徹底關門、51%的公司會在兩年內消失。因此,解決業務的不連續性刻不容緩。
8月20日,由英方股份主辦的“跨越不連續性”主題活動在深圳軟件產業基地深圳灣論壇舉辦,活動邀請了華為災備技術產業聯盟副秘書長周錦才、“虛擬人”創始人吳秋林、英方股份PR總監程權、云之訊運維總監夏偉,從概念、技術、行業相關政策、具體實踐等多個角度針對業務連續性話題與現場觀眾進行了分享與交流。
圖1 云之訊運維總監—夏偉
業務連續性的前世今生
自從17世紀以來,“一切自然過程都是連續的”這條原理,似乎被認為是天經地義的。萊布尼茲和牛頓創立的無限小數量的演算,微積分學的基本精神正體現了這一點。在19世界末20世紀初,這一原理被打破,量子理論告訴我們:世界是不連續性的!因此,業務必然也會有不連續的現象,大量案例提醒我們必須確保業務運行的連續性,否則將會導致巨大的損失。
那么,什么是業務連續性呢(Business Continuity)?它是在中斷事件發生后,組織在預先確定的接受水平上連續交付產品或提供服務的能力。它明確一個機構的關鍵職能以及可能對這些職能構成的威脅,并據此采取相應的技術手段,制定計劃和流程,確保這些關鍵職能在任何環境下都能持續發揮作用。
業務連續性針對的事件場景包括三類:一般故障(Outage)、緊急事件(Emergency)和災難事件(Disaster)。實現業務連續性所需的IT措施包含三個方面:業務狀態數據的備份和復制、業務處理能力的冗余和切換、外部接口冗余和切換。
實現業務連續性的技術手段包含高可用性和災難恢復兩種。高可用性指的是通過技術手段,盡量縮短因日常維護操作(計劃)和突發的系統崩潰(非計劃)所導致的停機時間,以提高系統和應用的可用性。高可用技術通過對網卡、CPU、內存、系統軟件設置不同的可用性檢測點,在這些節點發生故障時實現冗余切換,持續提供服務。而災難恢復是在信息服務終端后,調動資源,在異地重建信息技術服務平臺(包括基礎架構、通信、系統、應用及數據)。
云之訊如何保障業務連續性
云之訊是一個全通信能力開放平臺,通過構建一張開放式的融合通信網絡,把融合通信的能力(短信、互聯網音視頻、IM、隱號通話、多方通話及呼叫中心等)通過簡單可靠的通信接口調用,為企業和開發者提供云通信服務,廣泛應用于互聯網企業、SAAS企業及虛擬運營商。
圖2 云之訊平臺產品
云之訊運維總監夏偉以隱號方案為例,向大家分享了云之訊業務連續性的技術。隱號產品具有高可用、高并發、穩定性、區域性等要求。優化前的產品架構具有質量要求極高、線路調度要求不高、區域性明顯等特點。同時,具有兩大風險:第一,跨越多個IDC網絡,單一IDC故障都會影響業務;第二,長途傳輸較多,受南北互通影響大。
圖3 優化前的隱號產品架構
為了解決骨干網絡異常、機房被攻擊、南北互通、資源過于分散、產品不穩定、公網異常丟包延時等問題,云之訊采用阿里云的多節點(包括API組件、緩存集群、統計監控平臺),優化隱號產品架構。云之訊同時使用公有云和其他服務商的技術(比如阿里云),將數據量分散,降低業務中斷帶來的損失。
圖4 優化后的隱號產品架構
隨著電子政務、物聯網、三網合一、云計算、安防監控、數字化醫院等趨勢在國民經濟各領域應用的日益廣發,數據量呈爆炸式增長,而隨著數據集中、數據挖掘、商業智能、協同作業等技術的成熟,數據價值呈指數上升,數據一旦中斷,造成的損失是無法挽回的。作為一家PaaS平臺服務提供商,云之訊為應對業務不連續帶來的災難,不斷提高自己的PaaS層災備能力。云之訊的PaaS層的災備主要是通過對用戶服務器進行多機房部署和異地容災,進而在基礎設施上保障了高可用性,使災難事件給企業帶來的損失最小化。