用“極速統一”,開啟金融行業數據分析新范式
數據庫作為金融信息系統的核心基礎設施,歷經數十年發展,為金融行業轉型升級提供了有力的技術支撐。同時,以銀行為代表的金融行業是數據庫銷售額占比最高的市場,也是對數據庫技術依賴度最高、要求最嚴格的市場。
據統計,2021中國數據庫市場行業分布中,金融占20.2%,政府占18.4%,互聯網14.8%,運營商8.9%。IDC 預測, 2024 年全球數倉的市場規模將達到 297 億美元,2019-2024 年的年復合增長率將達到12%,其中云上的數倉市場規模將達到 181 億美元,2019-2024 年的 CAGR 將達到 25.3%。預計 2024 年,中國數倉市場的規模是 168.5 億元,中國大數據平臺軟件市場規模總體為 352.9 億元,中國分析型數據庫的整體市場將達到 521.4 億元,復合增長率為 27.7%。
以往商業集中式數據庫憑借較強的功能黏性、優秀的系統穩定性、良好的軟硬適配能力,一直在金融行業占據較大份額。而互聯網金融的異軍突起,帶來了高并發、海量數據、超高峰值等挑戰。為了應對這些實際場景,近年來各金融機構紛紛進行了關于數據庫的探索,并結合金融交易場景不斷推陳出新,拉動數據庫技術的迭代發展。
傳統IT系統無法滿足金融交易要求
信通院在去年發布的《金融級分布式數據庫白皮書》中指出,金融行業普遍對數據庫的安全性、可靠性、穩定性有著全行業最為嚴苛的要求,因此,滿足金融行業需求的金融級數據庫產品幾乎成為所有行業中的標桿。報告認為,金融級分布式數據庫是能夠滿足金融級要求的高可用、高性能、低成本、線性水平擴展、企業級安全、便捷性運維的分布式數據庫。
在眾多金融級分布式數據庫中,按照數據處理方式,大致可以分成兩大類:聯機事務處理OLTP(On-line Transaction Processing)、聯機分析處理OLAP(On-line Analytical Processing)。OLTP是傳統的關系型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。
可見,OLAP數據庫擁有高性能、可擴展、高可用和高容錯等特性,因此在金融行業的應用規模有了明顯的提升,并且正在從金融外圍系統向核心業務延伸,有力支撐著金融行業的數字化轉型。在過去幾年中,我國數據庫市場 “百花齊放”,包括傳統數據庫廠商,如達夢、人大金倉、神州通用;云廠商,如阿里云、騰訊云、華為云;新興數據庫廠商,如StarRocks、PingCAP、星環科技、OceanBase;ICT跨界廠商,如新華三、浪潮。這些廠商的數據庫產品和方案,正在各大商業銀行、金融機構及城商行的核心業務系統中投入使用并穩定運行,滿足了金融行業核心業務系統對數據庫的要求。
接下來我們來看兩個實際案例,希望能為更多金融行業用戶的轉型帶來借鑒和參考價值。
中原銀行和眾安保險邁入極速統一時代
中原銀行是河南省唯一一家分支機構網點覆蓋全省的省屬法人銀行,在全國城商行中的排名位列第 8 位,是河南首家資產超萬億的城商行。隨著業務不斷擴張、數據量的高速增長以及業務邏輯復雜程度的不斷提升,中原銀行需要快速響應客戶需求,為其提供更加精準的服務,同時借助實時數據進行客戶洞察,幫助銀行業務人員做出業務決策,提高管理水平。
為此,中原銀行搭建了一站式商業智能BI平臺,該平臺分為客戶行為分析系統知秋、一站式報表平臺魯班、一站式大屏平臺鴻圖和自助分析平臺云間四大應用系統,總用戶超過一萬人。為支持BI平臺的快速高效工作,中原銀行搭建了完整的數據平臺。其中,該平臺的存儲計算層分為數據湖、離線數倉與實時數倉三部分,由實時數倉對實時數據進行處理,輔助進行實時決策。隨著用戶的增加,基于原有的數據平臺架構,僅能支持T+1小時級別的準實時報表,難以滿足銀行在客戶分析、風控管理等場景下的實時查詢與分析需求。此外,原有數據平臺流批鏈路復雜,運維成本高,且實時數據與離線數據的存儲并不統一,存在冗余,造成存算資源的浪費。
為了提高數據平臺的查詢效率,深入挖掘實時數據的價值,提升實時響應能力,中原銀行調研了市面上兩款主流OLAP數據庫產品,發現ClickHouse在單表查詢和大寬表查詢表現優秀,查詢延遲也比較低,但是Join性能較差,且不易維護;StarRocks在固化查詢和靈活分析性能表現不錯,多表查詢性能也比較優秀,而且同時支持實時與離線導入分析場景。與此同時,StarRocks具有流批一體、向量化執行、運維簡單、查詢效率高、兼容性好且能夠滿足高并發查詢要求等六大優勢,恰好滿足了中原銀行構建極速統一的數據分析架構的業務需求。
(中原銀行基于StarRocks的實時數倉建設)
目前,中原銀行使用StarRocks完成了固定報表遷移、知秋系統改造與實時數倉建設,極大提高了銀行的數據導入、查詢與分析效率。遷移完成后,固定報表查詢效率提升為原來的2.7倍,所需時間下降到3秒以內;原耗時排行top10的報表,查詢效率優化了10倍以上,同時還實現了自助客戶行為分析。更值得一提的是,實時數倉架構將中原銀行的離線數據和實時數據進行了統一,極大減少了數據的冗余,同時支持秒級的導入與查詢,提高了業務的時效性和多樣性。
目前,中原銀行使用StarRocks完成了固定報表遷移、知秋系統改造與實時數倉建設,極大提高了銀行的數據導入、查詢與分析效率。遷移完成后,固定報表查詢效率提升為原來的2.7倍,所需時間下降到3秒以內;原耗時排行top10的報表,查詢效率優化了10倍以上,同時還實現了自助客戶行為分析。更值得一提的是,實時數倉架構將中原銀行的離線數據和實時數據進行了統一,極大減少了數據的冗余,同時支持秒級的導入與查詢,提高了業務的時效性和多樣性。
(中原銀行基于StarRocks的業務價值提升)
眾安保險是中國首家互聯網保險公司,不設任何分支機構,完全通過互聯網展業。截至2021年底,眾安保險服務超過5億用戶,累計出具約427億張保單。
眾安專注于應用新技術重塑保險價值鏈。在“保險+科技”雙輪驅動下,眾安將自身沉淀的保險科技能力和先進的商業模式向行業輸出,將數據作為支撐整體數字化路徑的基石,從看見到預見、從名單到客戶、從運營到創新,每一個環節和每一次升級都離不開數據賦能。
(眾安保險的數字化路徑)
在數字化轉型的進程中,多場景融合的精細化分析是數字化轉型破局的關鍵,但眾安遇到了一些困難,包括單一場景分析遭遇瓶頸、多場景數據分散嚴重和數據能力缺乏向業務層拓展。針對這些問題,眾安建立了“集智平臺”。目前在眾安保險內部各業務線和部門,超過3000人都在使用集智平臺,平均日活可達2000+。
集智上線后采?的是 ClickHouse,但隨著使?平臺的?戶?漸增多,業務?需要查詢的數據量也越來越?,業務場景變得復雜后,很多特定場景 ClickHouse 的表現都不夠理想:在多并發場景的查詢性能下降嚴重、多表關聯查詢性能?佳、排查運維成本較?、需要借助第三方工具等。針對實時場景,集智平臺在使? ClickHouse 的 Replacing 引擎中也遇到了查詢慢、不?持數據的刪除、只能對同一分?上同一分區的數據去重等痛點。
(眾安保險集智平臺介紹)
基于以上情況,集智平臺需要進行新的 OLAP 技術選型。經過選型評測發現,StarRocks支持高并發,部分場景可支持高達1萬以上的QPS,TP99可以控制在1秒以內。StarRocks通過CBO優化,可以自動選擇性能最優的查詢計劃,多表關聯性能的表現也更好。
因此,眾安保險在集智平臺引入了 StarRocks,支撐理賠風險洞察、精細化運營分析、營銷實時效果追蹤等方面的應用,賦能戰略決策人員、財務企劃人員、營銷管理人員、數據運營人員、數據分析人員。為了提升集智在查詢加載方面的性能,同時將StarRocks極速查詢及高并發相關能力更好地賦能給業務,集智在產品側深度集成了StarRocks,用戶可以在平臺上快速完成一站式的統一實時看板搭建。
通過引入StarRocks,眾安保險集智平臺解決了極速查詢和高并發等數據問題,提升了集智平臺整體的數據支持能力和市場競爭力。以保險產品中線上渠道投放場景為例,當保險產品開始對外發售前后,市場人員會將產品投放到多個渠道進行推廣曝光,通過經營的核心報表實時核算每個渠道的投放成本以及其對應的ROI,根據數據表現情況實時調整投放策略,控制渠道營銷流程中的獲客單價和投放費用。因此數據反饋的快慢也會決定業務人員在定位問題、調整策略等事件上是否占據最佳時機。
通過中原銀行、眾安保險這兩個案例可以看到,作為新一代極速全場景MPP數據庫,StarRocks 具有可伸縮性、高可用、高性能、優秀的性價比等優勢,在提升企業的業務價值方面深具潛力。
極速統一3.0 助力數據要素價值充分釋放
大數據技術應用于企業級數據基礎設施已不鮮見,而金融行業在實踐層面一直走在行業前列,它們在數據湖、融合數倉等典型的技術場景不斷探索,逐步將先進的大數據生態技術應用到風險控制、運營管理、信貸查詢、信用卡征信和財務分析等業務場景。
比如中國銀行就于2021年投產上線數據湖平臺,希望為中國銀行統一數據分析層、展現層、數據沙箱等探索提供平臺支撐,以及沉淀和深度挖掘全行數據資產。中國建設銀行則早早把數據倉庫和數據湖作為數據底座,不同于不少企業基于Hadoop體系的湖倉建設,通過一體化架構設計、一體化湖倉直訪、一體化數據視圖、一體化資產管理,形成了具有自身特色的湖倉技術體系。
通過對金融、游戲、制造等行業的深入洞察和技術共創,過去一年, StarRocks 不斷打磨產品的功能、性能、穩定性,修改了 80 多萬行代碼,發布了近 50 個版本。而在今年 9 月的 StarRocks Summit Asia 2022 上,StarRocks 社區正式發布了StarRocks 極速數據湖分析,開啟極速統一3.0時代。
(StarRocks 2.4 在 SSB單表、SSB多表、TPC-H三個標準測試集下,相比于去年同期,性能提升了50%-80%。在物化視圖、資源隔離、Query Cache、自動化數據分布、導入優化等各個核心功能均有重大突破)
StarRocks 認為,極速數據湖分析就是為用戶提供性能堪比數據倉庫的數據湖分析。在整個架構層面,當前StarRocks 的數據湖分析已經具備了存算分離、彈性伸縮的能力。在存儲層,數據支持按照Apache Hive、Apache Iceberg、Apache Hudi等主流表格式維護在對象存儲之上。在計算層,從查詢生命周期來說,StarRocks的無狀態計算節點compute node,已經可以負責從掃描到聚合的全部計算任務;在控制層,FE 統一接入各類主流數據湖的元數據,并對湖上查詢請求進行統一調度和規劃。用戶通過StarRocks進行數據湖分析,一方面能夠享受存算分離、彈性伸縮等前沿技術帶來的降本增效,另一方面,無需數據導入即可享受到堪比數倉分析的極速性能體驗,更加敏捷地從數據湖中獲取靈感和洞見,驅動業務增長。
人民銀行今年發布的《金融科技發展規劃(2022-2025年)》中提出了八大重點任務,明確到2025年,金融科技整體水平與核心競爭力實現跨越式提升,數據要素價值充分釋放、數字化轉型高質量推進、金融科技治理體系日臻完善、關鍵核心技術應用更為深化、數字基礎設施建設更加先進。其中,數據庫一直是金融行業持續創新的重點領域,涌現出了大批的熱點技術和產品。而數據庫產品無論選擇哪條技術路線,目的都是要滿足高可用容災、數據一致性、業務連續性和系統可擴展等方面的要求。
面對金融級高要求,基于“極速統一”的數據分析新范式打造出的MPP數據庫StarRocks,可以全面提升數據處理和分析的性能,將復雜分散的既有架構融合為簡單一致的嶄新架構。相信隨著金融行業數字化轉型的持續加速,StarRocks必將應對更多的復雜查詢、高并發、實時分析等場景,幫助用戶實現數據價值最大化。