數據異構復制技術場景及發展趨勢
?數據,是指任何以電子或者其他方式對信息的記錄,可以是數字、文字、圖像、聲音等等。可復制可流通且被開發利用的數據,才算是財富,否則可能會成為企業的負擔。數據復制作為數據流通、交換、共享、保護、集成、計算分析、管理等領域的關鍵應用,在幫助數據實現價值最大化的過程中發揮著重要貢獻。
本文來自:中國數據復制行業白皮書(2022年)
數據復制的過程主要包含了數據抓取、數據傳輸和數據復原三個環節。數據抓取環節主要指對生產端的變化數據進行識別和提取,要求識別顆粒度細且對生產系統影響小數據傳輸環節主要指對數據進行分段拆分組合、加密、壓縮等,實現準確、高效、安全地傳輸數據;數據復原主要指目標端的數據接收和數據寫入,其核心在于快速寫入的同時,保證數據的一致性、可用性。
數據復制應遵守三大原則∶一是合規性,包括數據安全、數據一致性、數據加密傳輸、數據分級分類、等保、歸檔管理等;二是時效性,包括數據實時或周期性復制、快速恢復、RTO 合規,滿足可用性、供數要求等;三是多樣性,包括復制數據格式多樣性,以及涵蓋系統層、數據庫層、存儲層等多層的數據復制,滿足用戶生產環境多平臺、多功能、個性化的需求。
數據復制行業的主要應用領域包括數據合規性和大數據采集應用等,此外系統遷移也較為普遍。數據合規性應用包括容災、備份、治理、歸檔、加密、脫敏、數據庫審計、分級分類、等級保護等領域。容災備份也稱為災備,或災難恢復,作為數據復制的典型應用場景之一,災備用于保障用戶的數據安全和業務連續性。衡量災備系統的性能指標是RPO(數據恢復點目標)和RTO(恢復時間目標)。根據RTO和RPO的不同,災備系統可分為定時備份系統和容災系統,而數據復制能力在根本上決定了RPO/RTO,也決定了整體災備系統能力。
1、數據復制基礎知識
數據復制是將一組數據從一個數據源拷貝到其它一個或多個數據源。根據計算機網絡體系結構(OSI),數據源在IT系統中所處的層級不同,數據復制主要可分為存儲硬件層數據復制、操作系統層數據復制和數據庫層數據復制。
同步復制∶也稱為全同步復制,要求每一個I/O寫入操作在執行下一個操作處理之前,在源端和目標端都能完成。特點是數據丟失少,會影響生產系統性能,除非目標系統物理上離生產系統比較近。
異步復制∶在處理下一個I/O寫入操作前,不等待數據復制到目標系統中。特點是復制的數據與源數據有時間差,但這種復制對生產系統性能影響較小。
半同步復制∶介于全同步復制與異步復制之間,主庫在執行完客戶端提交的事務后不是立刻返回給客戶端,而是等待至少一個從庫接收到并寫到relay log中才返回給客戶端。相對于異步復制,半同步復制提高了數據的安全性,同時它也造成了一定程度的延遲,這個延遲最少是一個TCP/IP往返的時間。
序列化傳輸復制∶由于網絡傳輸的數據必須是二進制數據,但調用方請求的出入參數都是對象,對象無法直接在網絡中傳輸,所以需要提前把它轉成可傳輸的二進制,并且轉換算法是可逆的,而序列化是將對象的狀態信息轉換為可以存儲或傳輸形式的過程。
上述數據復制方式各有優缺點,也各有其應用場景,從用戶角度分析,無論采用哪種復制方式,對于數據的采集,要求盡量不影響數據生產端業務邏輯,保障業務運行和數據收集互不影響,即做到非入侵的數據采集。
2、系列數據復制技術
根據計算機網絡體系結構,數據源所處層級可分為存儲硬件層、操作系統層和數據庫層。
存儲硬件層的數據指存儲設備內的所有數據,可能對應多個操作系統層的數據。操作系統層的數據是指由操作系統內部的卷層和文件系統進行組織和管理的數據,可能存儲在若干存儲設備中。數據庫層的數據通常是業務系統及應用程序儲存在數據庫中、需要隨時查詢或使用的數據。
根據獲取數據的層級不同,數據復制軟件也可分為存儲硬件層數據復制軟件、操作系統層數據復制軟件和數據庫層數據復制軟件。具體情況如下∶
A.存儲硬件層復制技術?
存儲硬件層復制主要指基于存儲磁盤陣列之間的直接鏡像,是通過存儲系統內建的固件或操作系統,利用IP網絡或光纖等傳輸介質連結,將數據以同步或異步的方式復制到目標端。
存儲硬件層復制的優勢在于復制工作僅在存儲硬件層面進行,與操作系統層無關,因此可以避免服務器的性能開銷過大的問題,適用于關鍵任務和高端交易應用,也是目前最廣泛用于容災場景的數據復制技術之一。存儲硬件層復制的劣勢在于主要適用于同品牌且同型號的同構存儲系統,并需配備低延遲和大帶寬的物理鏈路,成本較高,給異地復制帶來極大困難。
B.操作系統層復制技術?
在英方實踐中,根據數據捕獲環節的不同,操作系統層復制可以分為字節級復制和塊級復制。
字節級復制技術是指對生產服務器文件系統的I/O操作信息進行實時捕獲,生成序列化I/O操作日志并發送至目標服務器,操作日志包括I/O操作發生的時間、發起的進程、操作具體針對的文件、文件具體操作的位置以及操作的內容。目標服務器收到I/O操作日志后進行數據的寫入,完成數據復制。該技術具有對計算機資源占用小、復制顆粒度細等優勢,能夠實現高實時性的數據復制,在容災以及持續數據保護領域有較強的優勢。
塊級復制技術是指在生產服務器的文件系統之下和磁盤驅動之上的卷層設置驅動模塊,實現磁盤數據變化的捕捉。通過對生產服務器磁盤空間進行劃分,構建磁盤位圖,將發生數據變化的位圖信息發送至目標服務器并與前次位圖信息進行整合,實現數據的復制。和字節級復制相比,塊級復制顆粒度較粗,單次傳輸數據量較大,適用于具有海量文件的文件系統或者非標準化文件系統的場景,在定時備份領域具有較強的優勢。
C.數據庫層復制技術
數據庫層復制通常采用邏輯復制的方式,將源數據庫中的重做日志和歸檔日志解析出SQL語句后,發送至目標數據庫,在目標數據庫上重做SQL語句實現數據復制。
邏輯復制的優點在于可以實現不同品牌數據庫之間的數據復制,且能實現數據庫讀寫分離、多活,適用于各種數據庫數據容災、高可用、讀寫分離等場景。
不管是哪種數據復制,都有其優缺點,用戶可根據生產環境以及項目規劃,選擇合適的技術產品以達到目的。上述三類層級的復制技術優缺點如下∶
3、數據復制技術發展趨勢
數據爆發式的增長,數據應用場景的不斷豐富,數據交易的可持續發展,是推動數據復制技術高速發展的基礎條件。在新基建及新一代信息技術等大環境下,數據復制技術也表現出了三大發展趨勢。
A.軟硬件解耦的數據復制技術?
數據復制技術最早是由存儲硬件及數據庫廠商開發,作為其存儲硬件或數據庫軟件的輔助工具,通常與存儲硬件或數據庫綁定,通常只用于本公司的存儲硬件或數據庫之間的數據復制。
其優點在于對本公司的存儲或數據庫產品的兼容良好、穩定性高、數據復制速度快,但在靈活性和可擴展性上有所欠缺。
隨著信息技術的發展,各行業信息系統不斷升級和迭代,存儲及數據庫類型多樣化,數據量的提升也帶來了分級存儲、分級備份的需求,與硬件或數據庫綁定的復制技術功能單一、缺乏靈活性等缺點逐漸顯現。
軟硬件解耦的數據復制技術可以實現不同存儲硬件、不同數據庫之間的數據復制,在信息系統升級、數據分級存儲等場景下具有較強的優勢,有望成為未來數據復制行業的重要發展方向。同時,在國內信息系統軟硬件安全可信的趨勢下,國產存儲設備和數據庫紛紛涌現,軟硬件解耦的數據復制技術也將在信息系統國產化進程中發揮重要作用,加速國產化進程。
B.云端數據復制技術?
云計算相較于傳統IT架構,具有資源配置效率高、運維難度低、多地多中心布局、業務冗余能力強等優勢。隨著云計算技術和新型基礎設施的逐步成熟,越來越多的企業開始將業務系統、數據應用等遷移上云。數據復制技術也從本地數據復制向云端數據復制發展。和本地IT 架構不同的是,云計算架構將底層硬件設備虛擬化后形成統一的計算資源、存儲資源和網絡資源,企業在云端的業務系統均統一部署在數據中心的虛擬平臺上,因此云端復制和本地復制相比,傳輸環境存在較大的差異,云端復制的傳輸具有帶寬窄、傳輸不穩定等特點,對復制技術的壓縮能力、斷點續傳能力提出了更高的要求。
同時,云端復制還需兼顧數據隱私及安全問題,特別是在公有云的場景下,云供應商有較大的權限,可以對數據進行管理。因此在云端復制場景下,數據的脫敏、加密、備份也是云端復制技術需要考慮的重要問題。例如,不要將數據全部存儲于云平臺,考慮將重要數據在本地進行備份。
C.大數據平臺實時復制技術?
大數據平臺是為了滿足大數據的存儲、運算、分析、展現的軟件平臺,主要功能包括數據接入、數據計算和處理、數據存儲、查詢檢索、分析和可視化、安全管理、數據交換和流通等。
大數據平臺擁有特殊的文件系統、數據庫及數據處理模塊,以適配大數據的查詢、存儲和計算。以Hadoop為例,Hadoop平臺采用HDFS分布式文件系統和HBase分布式數據庫,通過Hive數據倉庫進行數據的存儲、查詢和分析,與傳統的數據庫結構存在較大的差別,因此傳統的數據庫數據復制技術無法實現大數據平臺間的數據實時復制,亦無法實現由傳統數據庫向大數據平臺的數據實時復制。隨著大數據技術不斷演進和應用持續深化,以數據為核心的大數據產業生態正在加速構建。
4、異構復制技術應用場景
在開源軟件及信息技術路線多樣化發展潮流下,數據復制異構場景逐漸增多。?異構復制因為技術和產品架構的不同,數據復制過程中存在數據庫、操作系統、桌面用戶數據、遷移過程的復雜性、大量非結構化數據、遷移過程的安全性等諸多挑戰,涵蓋包括字符集不兼容,中英文轉換難、數據治理難度高、兼容性差等系列難點。
場景一∶文件異構遷移和復制?
文件異構的場景下,又細分為“異構服務器/操作系統之間、異構NAS存儲之間、對象存儲數據遷移和復制”三類應用場景。
場景二:數據庫異構遷移和復制?
異構數據庫的遷移和復制,其應用場景可細分為“異構平臺經Kafka或直接復制遷移、異構數據融合與異構數據庫遷移”。
場景三∶整機異構遷移和復制?
整機遷移即操作系統遷移,該場景整合了字節級遷移與塊級兩種復制技術,可為用戶提供整機在線熱遷移。
場景四:HDFS異構遷移和復制?
HDFS的英文全稱是Hadoop File System,作為大數據文件系統的主要應用場景,在容災方面難以做到底層的實時復制和容災。
網上下載鏈接:https://www.info2soft.com/whitepaper