小議銀行“存儲雙活”宕機事故
10月12日銀監會下發的【2015】162號文件又一次將銀行信息系統的災備問題推向了風口浪尖。文件指出:“今年5月8日,某城市商業銀行核心系統數據庫發生故障,數據庫自動存儲管理(ASM)文件異常損壞,數據庫無法加載存儲磁盤組,導致數據庫服務器宕機,災備中心無法正常使用,造成該行柜面和渠道業務較長時間的中斷。”
仔細閱讀文件,我們不難發現此城市商業銀行并非缺乏相關災備的解決方案,相反其同城災備數據中心甚至采用了IBM Metro Mirror存儲級數據復制技術,搭建起同城存儲“雙活”架構,號稱可以實現RPO=0,RTO=0,保證業務連續性的***等級需求。
讓我們先來看看什么是Metro Mirror
Metro Mirror同城存儲復制技術(以前也被稱為PPRC),是以存儲為基礎的、實時的、與應用無關的數據遠程鏡像功能。可以保證是無數據丟失且具有完全恢復功能的災難恢復解決方案。
Metro Mirror基于IBM的企業級存儲服務器,通過光纖通道,以邏輯卷為基本單位,將本地存儲設備上的數據同步鏡像到遠端存儲設備上。
Metro Mirror的同步實現機制如下圖所示:
1. 在生產系統中的應用程序將數據寫到生產系統的磁盤。
2. 生產系統中的磁盤數據傳輸到備份中心的磁盤
3. 當生產數據都寫入備份中心存儲設備后,備份磁盤將寫完操作信息返給生產磁盤
4. 當生產系統收到災備系統傳回的已寫信息之后,生產機的磁盤系統通知主機該寫操作已完畢。
Metro Mirror技術能夠實現RPO,RTO=0,從而做到存儲雙活,這話確實沒有錯。然而,這一結論僅限于存儲設備發生物理故障時才成立。而一旦數據本身發生損壞或人為刪除等邏輯故障時,同步雙活只會將錯誤的數據一式兩份,造成生產端和災備端的存儲雙雙“悲劇”。
解決邏輯錯誤的辦法早已有之。快照技術可以按照設定的間隔時間,將存儲數據回退至最近一份正確數據;而CDP技術更是能夠像錄像般記錄整個IO的讀寫,以***的數據丟失量進行數據的“時光穿梭”。
然而,此次遭遇宕機事故的銀行,雖然下血本建了存儲雙活,但卻疏于防范“邏輯故障”這一潛在風險,最終導致了問題的發生。
柏科數據VRD虛擬化網關解決方案,在支持雙活數據中心建設的同時,內建快照與微秒級CDP,有效預防物理故障與邏輯故障,真正做到全方位的災備保護。
除此以外,柏科數據VRD虛擬化網關還支持存儲虛擬化、遠程精簡帶寬傳輸的復制等功能,不管是對過去架構的兼容性,亦或異地災備的構建都能得到強有力的保障。
銀行災備系統的建設是一件復雜而不容有失的任務。選擇能夠全方位應對各種風險,真正保證業務高可用與高可靠的災備解決方案,將是我國銀行業信息化過程中需要著力解決的重要課題之一。