成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

高容錯!銀行如何搞定PB級非結構化數據的存儲與快速搜索

大數據
本文針對銀行內非結構化數據增長迅速、存儲困難、搜索緩慢、識別采集空缺等問題,提出了非結構化數據服務平臺的設計和部署方案,并對平臺中的非結構化數據生命周期管理策略與平臺容災容錯架構設計思路的進行了分析與總結,最后,做出了商業銀行非結構化數據服務平臺的業務對接計劃,提出了未來業務的發展方向。

引言

本文針對銀行內非結構化數據增長迅速、存儲困難、搜索緩慢、識別采集空缺等問題,提出了非結構化數據服務平臺的設計和部署方案,并對平臺中的非結構化數據生命周期管理策略與平臺容災容錯架構設計思路的進行了分析與總結,最后,做出了商業銀行非結構化數據服務平臺的業務對接計劃,提出了未來業務的發展方向。

一、背景:

非結構化數據服務平臺現狀與行內要解決的實際問題

銀行作為非結構化數據密集的企業,基本上涵蓋所有類型的非結構化數據,如視頻數據、音頻數據、圖片數據,既包括系統自己產生的近些年越來越多的行內業務系統,也包括與客戶交換產生的,還有購買獲取的,這些數據按照格式分為電子文檔、圖像、音頻、視頻、XML/HTML等類型。非結構化數據格式、標準多樣,而且這些數據每年以幾何級數在增長,在技術上比結構化數據更難存儲和分析。

行內信貸類業務、信用卡業務、手機/網上銀行等渠道類業務、財務共享業務、柜面無紙化以及電子檔案等多個業務系統,僅影像文件每日產生新寫入文件接近10萬張,調閱影像文件近30萬次,每年數據增量近10T,隨著線上業務的開展,與業務場景相關的影像文件數量與容量仍會持續增長。此外,銀行內部郵件信息、聊天記錄客服熱線音頻文件、市場調研結果、視頻課件、客戶關系管理系統中的評價及程序中的文本字段等非結構化數據都面臨著和影像文件類似的存儲與管理壓力與挑戰。

二、建設目標:

如何解決上述問題并設計合理架構滿足未來發展

隨著非結構化數據的劇增,傳統型數據庫無法滿足存儲大數據基本的非結構數據,導致架構急需做出調整,盡可能的滿足業務需求,實現PB級別數據的存儲以及快速搜索。在此基礎之上提出非結構化集中處理平臺產品方案,主要針對行內業務系統產生的圖片、文檔、提供一套高可靠、高效性、高擴展性、高容錯性的企業級非結構化數據服務解決方案。

為了大規模、高效率地存調、分析非結構化數據,平臺針對標準接口的字段進行了定義,提供一個較為規整、有章可循的非結構化數據集,提取其基本元素,形成數據字段。

數據字段是通過對非結構化數據進行主題提煉形成主題字段,通過匯總非結構化數據通用屬性形成通用字段,通過標識非結構化數據的格式形成技術字段,并基于以上三個維度的標簽滿足更大規模的數據分析和系統性存儲。

主題字段包括渠道來源、機構號、流水號、系統號和數據來源等,通用字段通過匯總非結構化數據的通用屬性形成,這些屬性不涉及非結構化數據的主題,包括掃描時間、掃描人、影像名稱、文件類型等;技術字段反映的是形成非結構化數據所運用的原始處理技術,從而獲得非結構化數據的底層特性,包括影像ID、數據大小、分辨率等。上述數據字段形成后,非結構化數據的基本屬性與業務屬性都可以較全面的描述和快速檢索,也為不同類型非結構化數據的統一存儲提供了可能。

非結構化數據服務平臺在設計上采用低耦合思路,分為表象層,業務邏輯層,數據訪問層的三層架構,它會將業務產生的圖像數據掃描歸檔到影像平臺,并實現影像的查詢、條碼打印、按順序批量打包下載影像文件的歸檔、修改歸檔、拷貝歸檔、分類查詢、階段標示綁定關系、影像操作日志等功能。

表現層(UI)展現給用戶操作的界面,包含多個調用渠道。本平臺以渠道為單位,針對各個渠道進行管理,提供一個安全可靠的環境,保證數據實時性的同時保證服務的穩定性。這些渠道主要通過http/https協議和數據上傳平臺進行通信,保證傳輸過程中數據的安全性。這些渠道在本系統中只是以影像數據傳輸接入,沒有業務邏輯,各個渠道具體限制由管理平臺配置化實現。

業務邏輯層由非結構化數據集中處理平臺(UCP)服務及三方數據上傳平臺應用服務組成,三方數據上傳平臺主要負責處理非結構化數據業務邏輯,UCP主要實現非結構化數據的存儲,該平臺支持大部分行內業務系統的非結構化數據處理服務,少量有高定制化需求的業務,UCP提供非標準接口,有針對性的為信貸類業務系統定制化開發,實現其全流程信貸系統非結構化數據的存儲以及下載,而針對無定制化其他渠道,均通過標準接口進行滿足。三方數據上傳平臺APP主要實現互聯網系統非結構化數據的校驗、控制、緩存以及壓力均衡。

數據層主要由非結構化存儲ElasticSearch(ES)分布式搜索服務,配合輕量級的傳統DB與后端高、中、低性能網絡存儲共同構成。ES主要負責保存UCP寫入的元數據,并可高效完成大量非結構化數據的搜索和分析;傳統DB主要負責配置信息以及部分日志信息的存儲;采用開源軟件定義存儲,主要負責非結構化數據的歸檔,高速網絡存儲部分可作為上傳平臺影像文件緩存,提高ES索引存調速度,最后通過歸檔流轉規則進行非結構化數據的動態遷移與歸檔保存。

三、基本組成

1、接口服務

標準接口基于REST方式實現,調用方以REST API調用方式調用即可;調用方根據Content-Type字段的值完成單張或批量打包的操作,配合數據的字段標簽,上送不同的文件類型,如圖片格式(jpg、jpeg、tif、tiff、png、bmp)、word、pdf、excel等常見格式;另外配合接口中請求類型的不同,可實現上傳、下載、替換和刪除等操作請求;標準控件調用時,接口字段除接口參數以外,會增加控件類型ID,接口名和返回值,非標準接口會在標準接口基礎之上,為信貸類業務流程單獨定制接口類型,結合業務具體需求,增加查看控件調用方式,動作類型以及對客對司的功能編號等字段。

物理結構上由2臺非標準影像應用服務器通過應用負載對接信貸系統渠道,3臺標準影像應用服務器通過負載均衡對接行內其他業務系統渠道;互聯網業務數據通過三方上傳平臺處理之后,會對接影像應用服務器。

2、索引服務

ES索引服務主要負責索引(存入)與檢索(調閱)兩部分,其中索引部分包含分詞器、過濾器、字符映射器等,檢索部分包含查詢解析器等。其索引是先在內存里生成,然后定期以段文件的形式將元數據刷到磁盤的。每段寫到磁盤上之后是不能被修改的,一個段文件就作為了一個實際上的索引,字段就是最小的檢索域。

物理結構上由5臺索引數據庫組成高擴展性的分布式ES索引集群,在任意一個節點宕機時,整個集群的服務依然可用,且由于具有副本設置,保證數據完整性。

3、存儲服務

存儲服務作為非結構化數據文件的載體,需要充分利用存儲,降低存儲成本,保證數據安全和服務質量。作為基礎服務平臺,為高效率利用存儲,將其分為在線、近線(GFS分布式存儲管理)、離線存儲配合影像數據文件的歸檔控制。

本平臺存儲服務在線區域存儲指存儲設備的響應速度和所存儲的數據時刻保持“在線”狀態,可供行內用戶隨存取與調閱,滿足對數據訪問速度的要求。這部分目前采用帶有去重壓縮功能的SSD NAS實現,可用容量在10TB,價格相對昂貴,但性能較好。

近線存儲選擇相對較廣泛,主要定位于在線存儲和離線存儲之間,將那些存調頻率相對較低,或者說數據的訪問量相對較小的數據存放在性能稍低的存儲設備上。近線存儲對性能要求相對來說并不高,但要求相對較好的訪問性能,各業務系統不常用的數據要占總數據量較大比重,這要求近線存儲設備容量相對較大,因此近線部分采用基于PC服務器實現橫向擴展的三副本GlusterFileSystem ,可用容量超100TB,雖然維護成本上升,但性能和安全性都比較高,價格也得到有效控制。

離線存儲被設計存放不常被業務系統調用,但仍需要長期或永久保存的冷數據存儲區域,存儲介質通常選擇訪問速度慢、效率低的存儲設備,系統最初選擇低成本的NAS設備,后續優化后,更改為物理磁帶庫,數據的存放介質變為磁介質后,價格相對低廉。

4、非結構化數據的生命周期管理與數據分層遷移

影像平臺的在線存儲區目前使用SSD NAS,保障關鍵生產系統的快速寫入,但總體容量有限;影像平臺的近線存儲區會定期將在線數據,無縫、安全、可靠的遷移到近線區域,一方面解決大量近線非結構化數據的存放空間與成本問題,另一方面保障調閱的速度,以及與結構化交易數據的一一映射關系,實現應用系統透明訪問;影像平臺的離線存儲區,按照數據全生命周期管控的規則,自動將近線數據遷移到離線區,并同步備份與結構化交易數據的映射關系,確保應用系統直接調閱,或者由影像平臺提供離線查閱功能調閱。

非結構化數據由在線到近線、由近線到離線的遷移過程中,保證下列關鍵性控制功能。首先,按照規則自動化或半自動化(或由作業調度系統調度工具)完成,并且提供MD5校驗/哈希值比對功能,確保備份數據的可靠歸檔,應刪除數據的安全可控刪除。其次,由在線到近線的遷移,為確保應用系統可透明訪問被遷移數據,需實現可靠程的原文件路徑操作系統連接處理,最后,由近線到離線的遷移,需同步更新影像文件的全路徑名稱與結構化數據的映射關系,確保離線數據可回調到近線進行查閱,并同步清理在線區域的操作系統連接,確保生產系統安全。

5、業務連續性的容錯、容災架構考量

容災容錯架構都是基于業務的可靠性和服務可用性,以及應對各種故障并能快速響應的可操控性去考慮和設計的,容災IDC要保證業務服務的連續性以及數據的可用性,因此在平臺前后端均有所考慮。

在同一數據中心之內,應對影像標準應用與非標準應用服務器硬件故障或應用程序BUG導致無法對上層業務系統提供影像接口服務,或是需要主動停止進行應用程序升級或故障維護,都可以通過負載均衡設備實現多活,以及調用均衡策略控制;若發生IDC級別的災難,則容災負載均衡及應用服務器會無縫接管業務。

ES的多副本分布式集群架構,天然帶有容錯屬性,集群內5節點組成的ES索引服務器集群,為元數據的高效數據訪問與搜索,集群將元數據以分片形式分布于各個節點,配合多副本保存,容許單節點或雙節點的故障前提下,仍可提供服務。那么以5節點ES集群分片數量為10(s0~s9),雙份數據副本的配置為例,演示分片和節點故障的容錯情況。

單分片故障的場景,另外的副本對外提供數據服務,待故障分片清理后,數據將由正常副本向清理副本同步,恢復集群分片狀態。

類似單節點故障,導致節點內所有分片不可用,整個集群服務仍然可用,保證s0-s9分片對外服務正常,節點故障恢復或重新部署后,啟動ES服務,分片副本將進行同步恢復集群狀態。

具體的配置策略與副本數,會根據承載渠道和業務重要性和訪問速度要求,進行合理配比。ES集群中元數據在本地備份至專用NAS設備和帶庫以外,還會通過消息隊列(Kafka)將兩中心的元數據準實時同步至對端數據中心,相應的非結構化數據也會在容災中心保留一份,形成對等的數據容災架構。

非結構化數據存儲的同城容災實現方式是:在線區高性能SSD NAS依靠SnapMirror技術,提供數據高可用性和快速數據復制服務,通過專用數據傳輸LAN網絡,實現同城容災中心NAS設備的高速數據復制,并不斷更新數據,保持最新且能隨時滿足使用需求。

容災NAS可選擇任意時間點進行快照恢復,提供零數據丟失同步復制 (RPO=0)方案,保護最關鍵的在線區存調業務文件,并利用精簡復制數據流創建容災數據保護,降低數據復制網絡帶寬利用率;近線區GFS存儲則在主備IDC各搭建一套,一方面承載在線區的下移數據,另一方面對于低失效調閱要求的業務系統的直接調閱,平臺會通過分布式消息隊列將調閱任務同步至對端影像應用服務,實現非結構化數據文件的準實時容災存儲,當一側GFS近線存儲發生災難故障短時間內無法恢復,則主備中心可快速切換至對側GFS提供對業務的數據服務;離線區的物理帶庫的歸檔數據,在歸檔之前會由前端虛擬帶庫完成容災端的異步復制,進而在容災端實現歸檔的異地磁介質永久備份。

6、業務訪問量監控與效果

非結構化數據服務平臺的監控,主要通過對各部分服務進程和業務端口的監視,和對負載模式下的服務健康檢查端口的通斷操作實現業務通道開啟關閉的控制這兩部分共同完成。

主要服務進程的狀態監視與驗證判斷

主要業務端口的狀態監視

配合上述業務監視方法在監控系統中的合理頻率配置以及值機人員對業務通道開關信號的標準化快速控制,實現“監”與“控”的閉環。

以非結構化數據服務平臺中影像文件讀寫數量和讀寫耗時為例,非工作日平均萬筆影像文件讀寫量之下,平均寫入耗時可維持在150毫秒以內,那么由于批量包下載調閱的情況存在,讀取平均耗時會被拉高,但也保持在平均250毫秒之內,能夠較好的滿足當前十幾套業務系統的存調需求。

四、非結構化數據服務平臺規劃與展望

非結構化數據服務平臺的未來規劃會從內部結構優化、數據中心運維服務支持、行內業務系統新增功能需求以及未來銀行有機會承接的非金融資產交易幾方面來進行規劃和展望。

在下一階段,非結構化數據服務平臺不斷優化自身功能與架構,或通過光盤介質庫對物理磁帶庫的存放年限和成本的進一步降低提供補充和完善,同時實現海量非結構化的驗證與快速恢復,將備份數據的敏捷驗證功能作為快速容災容錯的一種補充手段。

數據中心內部千臺以上生產服務器、操作系統、數據庫、中間件、網絡設備以及專用設備產生的海量日志,可交由非結構化數據服務平臺進行采集、萃取、清理與整合,并將非結構化與半結構化的數據提煉并應用在運維管理中。使用ES技術實現高效的搜索與存儲,用于系統問題的快速定位、搜索、分析、干預、解決和預測,為后續數據中心智能化運維進行有力輔助。

行內業務數量與種類的不斷增加與更新迭代的過程,也使非結構化數據服務平臺面臨的壓力和挑戰不斷攀升。呼叫中心與智能客服系統會產生大量語音錄入與智能存儲與分析需求,銀行銷售理財產品、基金、保險等產品時,全程同步錄音錄像產生的雙錄數據也有保存至對付后半年以上的需求,以及配合智能視頻分析、語音識別和自然語言處理技術,達到快速判斷合規性和稽核、風控智能化分析的需求。會計憑證、會計賬簿、財務會計報告以及其他會計檔案都有30年以上或永久保存的業務和監管需求。

在后疫情時代,金融行業也在不斷進行發展方向的思考。疫情沖擊加速了線上“無接觸”服務全面推進的進程。與區塊鏈技術不可篡改特性相結合,個人和企業在參與金融服務過程中,在存儲數據時存在信任的問題,就可以通過區塊鏈建立起信任,電子證據存證、電子簽約等業務逐漸在興起并日益成熟。以電子簽約為例,可將公證處、司法鑒定中心、仲裁委等權威機構納入區塊鏈節點生態,確??蛻綦娮雍贤C據鏈的數據真實、私密、無法篡改,可支持單日上億筆簽單的存儲量,并已廣泛應用于金融、供應鏈、租房租賃、人力資源等場景,實現電子合同全證據鏈溯源;與人工智能技術相結合,可對客戶提供線上合同智能歸檔、智能檢索、智能監測與提醒等服務,提供高效便捷的合同全生命周期服務。

針對上述線上簽約的場景,銀行系統可提供等級保護四級的IDC機房,提供私有云架構環境支持業務部署,提供高穩定性的系統環境和同城雙活、異地保護等多種容災機制,提供高并發業務量的性能保障,提供個人與企業資料審核、實名認證和CA證書頒發服務,在不接觸合同內容同時進行線上合同簽章,同時對敏感字段加密,保證客戶數據安全性和隱私性。

未來銀行要快速適應互聯網+的環境,消除摩擦,實現功能,原有的傳統銀行產品線上化已經不能滿足未來的客戶體驗和嵌入式銀行的功能,未來物聯網狀態下,銀行業務將以客戶為中心,基于數據預測算法,嵌入日常穿戴設備、智能汽車與智能樓宇的管家服務之中,逐漸步入銀行4.0時代。

作者介紹

張鵬,哈爾濱銀行系統管理組存儲/備份/應用負載管理員,具有豐富的項目實施與運維管理經驗,參與行內新一代核心系統建設、同城與異地容災系統建設與切換、非結構化數據服務平臺遷移改造等項目,對異構存儲設備監控、存儲虛擬化及同城雙活、分布式存儲有深入的研究和應用,結合業務數據訪問的多重需求進行存儲資源適配。

責任編輯:未麗燕 來源: DBAplus社群
相關推薦

2019-10-18 13:07:14

PB數據非結構化數據數據集

2021-12-12 08:37:18

結構化數據非結構化數據數據

2024-05-27 00:32:45

2018-04-03 14:00:03

結構化數據非結構化數據數據庫

2014-02-09 09:53:05

2011-08-03 09:40:29

云存儲存儲管理

2019-12-09 15:47:14

數據存儲非結構

2019-07-13 15:00:17

結構化SQLNOSQL數據庫

2011-05-25 15:16:55

非結構化數據庫異構數據庫

2020-05-21 11:11:58

存儲數據技術

2017-11-16 05:22:34

非結構化數據分析數據

2024-05-10 12:52:01

2023-09-12 07:01:33

非結構化數據商業智能

2025-04-18 02:55:00

2009-02-16 15:41:04

非結構化數據SQL Server SQL Server

2018-05-14 12:30:49

數據備份非結構

2025-06-05 01:22:00

2015-07-27 08:58:29

NAS云存儲非結構化數據存儲

2023-11-15 09:57:35

人工智能非結構化數據

2023-11-29 17:08:29

非結構化數據數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91一区二区三区在线观看 | 免费黄色在线 | 九色av| 国产一区二区三区欧美 | 国产日韩一区二区三区 | 国产av毛片 | 亚洲v日韩v综合v精品v | 中文在线视频 | 日韩av一区二区在线观看 | 国际精品鲁一鲁一区二区小说 | 久久亚洲一区二区三 | 中文在线一区二区 | 91视视频在线观看入口直接观看 | 亚洲欧洲一区 | 久久综合久色欧美综合狠狠 | 色999视频 | 国产精品成人一区二区三区夜夜夜 | 在线视频日韩 | 在线观看欧美日韩视频 | 国产一区视频在线 | 久久在线视频 | 日韩色视频 | 国产在线视频网 | 欧美在线日韩 | 国产精品自拍视频 | 国产一区影院 | 国产婷婷色一区二区三区 | 日韩理论电影在线观看 | 久久最新精品视频 | 国产精品毛片一区二区三区 | 日本久久黄色 | 国产激情福利 | 亚洲一区二区成人 | 美女逼网站 | 免费视频成人国产精品网站 | 亚洲免费视频一区二区 | 一级片免费视频 | 国产女人与拘做受视频 | 亚洲三级av | 久久国产精彩视频 | 精品成人佐山爱一区二区 |