金融票據(jù)影像數(shù)據(jù)管理方案,海量非結構化文件輕松管
金融行業(yè)在業(yè)務運營中會產生大量紙制憑證,傳統(tǒng)的業(yè)務處理方式存在著憑證保存成本高,手工錄入、翻閱,效率低,無法進行歷史交易統(tǒng)計和關聯(lián)交易分析等種種不便。隨著金融電子化、流程銀行及集中作業(yè)中心等理念的深入推廣,許多金融機構建設了票據(jù)影像集中管理平臺。這是一個集檔案錄入、圖像處理、智能識別、數(shù)據(jù)核對、統(tǒng)計分析、海量存儲、精確查詢于一體的計算機輔助管理系統(tǒng)。此平臺為其它業(yè)務系統(tǒng)提供影像管理方面的業(yè)務支持,極大地提高了工作效率,降低銀行自身的生產運營成本和管理成本,同時提高客戶和員工的滿意度。
海量票據(jù)影像數(shù)據(jù)的管理難題
IDC研究表明,金融行業(yè)未來80%的數(shù)據(jù)主要呈現(xiàn)為影像、照片、音頻、視頻等非結構化數(shù)據(jù)。 從2010年到2020年,非結構化數(shù)據(jù)將以44倍的發(fā)展速度迅猛增長。
票據(jù)影像數(shù)據(jù)為銀行業(yè)務流程中產生的掃描文件、照片等業(yè)務憑證,隨著業(yè)務的發(fā)展,總體數(shù)據(jù)量增長迅速。票據(jù)影像數(shù)據(jù)與傳統(tǒng)的結構化數(shù)據(jù)有很大的不同,其具有以下特點:
◆文件小
◆數(shù)量大
◆空間占用大
◆調閱頻率與生成時間有關
總體上講,銀行票據(jù)影像系統(tǒng)的數(shù)據(jù)特點是一個典型的“海量小文件”場景。
從監(jiān)管上講,在銀行業(yè)務流程過程中產生的數(shù)據(jù)是交易的重要憑據(jù),應當長期保存;系統(tǒng)要對生產系統(tǒng)中的票據(jù)影像文件進行備份,保證生產系統(tǒng)數(shù)據(jù)損壞后能夠快速恢復;對業(yè)務發(fā)生達到一定時間,訪問概率低的票據(jù)影像數(shù)據(jù)應當實現(xiàn)歸檔,以降低對生產存儲的占用;當業(yè)務需要時,譬如在司法場景下、客戶投訴、業(yè)務調取場景下,能夠迅速地查詢到已經歸檔的票據(jù)影像文件。 然而,票據(jù)影像系統(tǒng)數(shù)據(jù)的文件小、數(shù)目多、總量大的特點,使得數(shù)據(jù)存儲與數(shù)據(jù)保護存在諸多技術難點:
◆備份時間長: 針對文件系統(tǒng)進行數(shù)據(jù)保護時,首先需要對全部文件進行掃描,當文件數(shù)量過多時,掃描時間會非常長。其次,需要逐一定位文件,拷貝文件,當文件海量時,備份時間也會非常長。這使得客戶在指定的備份窗口內,無法實現(xiàn)數(shù)據(jù)備份。
◆離線保存后文件調閱麻煩: 如果將長期不用的文件離線保存至光盤或磁帶,需要人工操作。調閱時,必須遵守一系列業(yè)務流程進行。如由業(yè)務發(fā)起調閱請求,科技人員受理,找到相應的介質,并將離線介質回遷至生產存儲進行查詢,查詢后還需要進行刪除。
◆數(shù)量逐年增加: 隨著銀行業(yè)務的拓展、網點數(shù)目不斷的增加、上線時間的變長,數(shù)據(jù)量成顯著上升的趨勢。這導致生產系統(tǒng)容量需求不斷增加,需要不斷的擴容。
以某城城市商業(yè)銀行為例,其票據(jù)影像系統(tǒng)上線3年,文件總數(shù)目達8000萬,數(shù)據(jù)總量已達10TB,且以每年2~3TB的速度增長。大量的票據(jù)文件很快消耗了主存儲系統(tǒng)的空間,面臨著對昂貴主存擴容的壓力。更為嚴峻的是,業(yè)界目前主流的數(shù)據(jù)保護方案,都沒有充分考慮到票據(jù)影像“海量小文件”的特點,只能管理約***的文件,備份速度在每小時幾十GB,10TB的數(shù)據(jù)備份需要數(shù)周時間。但實際環(huán)境中,是不可能有這么長的備份窗口。 因此,所有票據(jù)影像文件根本無法完成備份。
近幾年,我國有上百家銀行逐漸建設了自己的票據(jù)影像系統(tǒng),由于票據(jù)影像數(shù)據(jù)管理的技術難點,幾乎都沒有實現(xiàn)數(shù)據(jù)保護,系統(tǒng)長期處于高風險運行狀態(tài),一旦生產系統(tǒng)出現(xiàn)故障,后果不堪設想。
針對票據(jù)影像的業(yè)務特點,我們認為在票據(jù)影像數(shù)據(jù)管理上需要滿足以下需求:
◆票據(jù)影像數(shù)據(jù)是交易中的重要憑證,必須滿足監(jiān)管部門對系統(tǒng)可靠性及數(shù)據(jù)保護的監(jiān)管要求,實現(xiàn)***數(shù)據(jù)文件在給定的時間窗口內實現(xiàn)備份是基本要求。
◆對于已經歸檔的票據(jù)影像文件需要調閱的情況下,在一堆歸檔磁帶或光盤中人工搜索文件工作量是無法想象的,必須提供“自動化”的、快速的歸檔文件調閱手段。
◆長期不用的票據(jù)影像文件需要從高端生產存儲遷移到成本更低的近線存儲,減少高端存儲的擴容費用; 數(shù)據(jù)的備份與恢復、歸檔與調閱、數(shù)據(jù)校驗等數(shù)據(jù)管理操作需要實現(xiàn)“自動化”,降低運行與維護的難度,減少人力投入。
華為票據(jù)影像數(shù)據(jù)管理解決之道
◆設計理念
票據(jù)影像文件數(shù)據(jù)管理所存在的問題不是一個簡簡單單的提高備份性能的問題。備份性能再高,也不能趕上票據(jù)影像數(shù)據(jù)增長的速度,不能滿足票據(jù)影像管理的需求,管理“海量小文件”要建立相應的管理理念,通過系列的技術組合來實現(xiàn)。
◆華為票據(jù)影像數(shù)據(jù)管理解決方案的“一體化設計”實現(xiàn)“備得出、查得快”
華為金融票據(jù)影像數(shù)據(jù)管理解決方案“一體化”的實現(xiàn)了“海量小文件”場景的存儲、備份、歸檔、分析、重刪、搜索等管理需求,實現(xiàn)自動化的全生命周期管理。
解決方案架構
該解決方案有四大主要功能:
◆分級存儲功能:根據(jù)票據(jù)影像文件生成時間與訪問頻度,合理利用在線、近線、離線存儲介質,減少生產存儲容量,降低TCO。
◆自動歸檔功能:根據(jù)歸檔策略,將訪問頻度低的文件通過“打包歸檔”方式實現(xiàn)數(shù)據(jù)保護,滿足監(jiān)管要求。
◆自動備份功能:實現(xiàn)“海量小文件”的高速備份,在系統(tǒng)故障和個別文件損毀的情況下,能有效管理數(shù)億的文件,并能夠實現(xiàn)數(shù)據(jù)的快速恢復。
◆面向應用“透明訪問”:當應用系統(tǒng)訪問已經歸檔的文件時,方案可以自動將歸檔數(shù)據(jù)從近線存儲中回調至生產存儲,保證應用在等待若干秒后能夠訪問到所需數(shù)據(jù),無需人工干預,操作人員無感知。
華為的解決方案將為客戶帶來如下價值:
◆備得出:對海量小文件的備份效率提高到每小時數(shù)百GB,備份時間縮短至傳統(tǒng)方式的十分之一左右。
◆查得快:“透明訪問”技術,通過“存根”的設計,保留歸檔后的文件位置信息,在需要調取歸檔文件場景下,應用觸發(fā)“存根”回調歸檔的文件,時間僅需幾十秒,而且應用無感知。
◆成本低:首先,采用“分級存儲”思想,用廉價的近線存儲替代昂貴的生產存儲,降低存儲采購成本;其次,方案“一體化”設計,一站式解決海量文件存儲、備份、歸檔、管理問題,建設成本低;***,全自動數(shù)據(jù)管理方案,減少大量運維成本與人員投入。
要實現(xiàn)上述價值,主要得益于“透明訪問”、“二級索引”兩項關鍵技術:
◆“透明訪問”
方案的核心價值是“透明訪問”。在歸檔操作時,一方面將超過一定時間的數(shù)據(jù)文件遷移到“近線存儲”,另一方面在生產存儲留下相應的“存根”。該存根指向文件遷出后的實際位置。在應用系統(tǒng)訪問已經歸檔的文件時,就訪問到了“存根”,此時會觸發(fā)一個將歸檔文件回調至生產存儲的操作,使得應用系統(tǒng)能夠讀到該文件。這就是“透明訪問”功能。
◆“二級索引”
采用備份/歸檔技術進行數(shù)據(jù)保護,被保護的文件是“打包”保存的,需要在備份系統(tǒng)中建立索引才能進行恢復與查詢操作。“二級索引”的設計,是將記錄文件的一級索引與介質一起存放,由介質服務器管理,備份服務器只管理“二級索引”。這種分布式的索引技術,可以支持數(shù)十億文件的高性能管理。
通過華為票據(jù)影像數(shù)據(jù)管理解決方案,實現(xiàn)客戶數(shù)據(jù)“備得出、查得快”,保障金融系統(tǒng)安全、高效運行。