成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

金融行業湖倉一體架構及數據平臺的技術演進

大數據
本次分享的內容涵蓋了數據平臺架構發展趨勢、湖倉一體的價值與挑戰,以及Alluxio 編排與緩存在湖倉一體架構中的價值等內容,希望通過本次分享,為讀者帶來經驗和靈感。

金融行業湖倉一體化在存算分離的架構下,通過解耦計算和存儲層,在中間產生一個數據編排層,負責對上層計算應用隱藏底層的實現細節。Alluxio 通過把數據緩存在靠近計算的地方,減少數據移動和復制所帶來的開銷,加速數據計算。

本次分享的內容涵蓋了數據平臺架構發展趨勢、湖倉一體的價值與挑戰,以及Alluxio 編排與緩存在湖倉一體架構中的價值等內容,希望通過本次分享,為讀者帶來經驗和靈感。

一、湖倉一體架構介紹

1、數據平臺架構發展趨勢—湖倉一體

首先簡要介紹一下湖倉一體架構。湖倉一體融合了數倉和數據湖的優勢,通過將數倉構建在數據湖上,在用于數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。其最重要的一點,是實現湖里和倉里的數據、元數據能夠無縫打通,并且自由流動。湖倉一體架構核心定位是基于一套存儲、一份數據、一套任務,實現數據集成、處理、治理等任務,面向可擴展的、可插拔的各種計算和應用的一種架構體系。

圖片

第一個階段:

隨著業務模式和技術的發展,數據應用場景越來越復雜度,數據也越來越豐富,數據平臺由傳統的數據倉庫發展到以大數據 Hadoop 平臺為主的數據湖架構,典型業務應用場景是 Hadoop 大數據平臺+MPP 數據庫。

第二個階段:

隨著流批需求的出現,架構出現了包括 Lambda 架構和 Kappa 架構的架構實現。Lambda 架構是通過同時維護兩套分布式系統,一套處理離線數據業務,一套處理實時數據業務來支撐流批需求的。Kappa 架構主要是通過計算引擎高速處理實時數據業務,對離線數據業務的處理稍顯不足。為了解決這個問題,流批一體的概念被提出來了,并最終出現了像 Hudi、Iceberg 等流批一體的解決方案,最終形成了湖倉一體的技術格局。

特別是最近幾年,數據越來越豐富,數據規模也越來越大,并且出現了豐富的 AI 應用場景,在湖倉一體化建設的過程中又會面臨一些新的挑戰:比如數據分布在多個集群、數據存儲集群技術選型不同、跨集群查詢效率低下、不同場景需要使用不同的訪問接口等問題,因此在基礎的湖倉一體架構下又衍生出了結合數據編制技術、數據虛擬化技術的方案,并且逐漸在實踐中得到越來越多的應用。

2、數據平臺架構發展趨勢—湖倉一體 Plus

湖倉一體數據平臺架構在實踐和落地過程中包括兩種模式,一種是集中式建設模式,另一種是非集中式建設模式。

圖片

  • 集中式建設

湖倉一體數據平臺架構數據規模較小、數據復雜度低、應用場景簡單,比較適合于集中式建設。

集中式建設數據分布相對集中,集群規模不大,比如基于原有的 Hadoop 的 HDFS 存儲、對象存儲,構建一個集中式的存儲體系。然后在其上構建元數據層,包括 Meta 和 schema,完成數據建模。通過流批處理引擎、交互式查詢與分析、AI 引擎,完成數據應用和數據治理。滿足業務應用場景和 AI 應用場景。集中式建設是大數據平臺建設中比較常見的一種建設模式。

  • 非集中式建設

另外一種建設模式是非集中式。由于數據量、安全、業務分布或成本等問題,數據可能分散在不同地方存儲,可能是數據中心或者云上云下,在物理上是分開的。要實現一套存儲、一份數據、一套任務,就需要去建設統一的元數據管理層、統一的數據開發平臺、統一的資源調度平臺,以及統一的任務調度平臺,最終形成一個基于非集中式建設的湖倉一體架構。在這個過程中需要用到數據編制或者數據虛擬化的技術。

3、湖倉一體的價值

湖倉一體的價值表現在兩個方面,一方面是降低成本,另一方面是提升效率。

圖片

在湖倉一體架構的發展過程中,除了一些技術或數據時效性的驅動力,更大的驅動來在于降低成本。傳統的 Lambda 或者 Kappa 架構,數據流是分開的,存儲和計算的成本,以及整個技術復雜性所帶來的維護成本都是非常高的。使用湖倉一體化架構后,第一個顯著的效果就是降低整體成本。

首先,可以降低存儲成本,數據不再需要存儲多個拷貝,只有一份數據就行了。第二,可以降低數據管理成本,減少拷貝帶來的復雜度,也減少數據搬運、數據治理以及開發維護的成本。第三,還可以避免多份數據導致的數據一致性問題以及各種數據安全問題,降低使用數據時的技術對接成本。

另一方面的價值就是增效。首先是提升業務 ROI,隨著業務孵化成本的降低,業務迭代效率將會更高。第二,提升數據質量和時效性,流批一體可以大大提升數據集成的時效性,由于源頭唯一,可以實時感知數據源頭的變化,并且基于一份數據集中安全和質量管理。第三,可以提升架構靈活性,解放了計算和應用的約束,只需要兼容湖倉的開放式存儲和模型的接口即可快速的部署應用。

4、湖倉一體的挑戰

湖倉一體架構在帶來了很多價值的同時,也帶來了一些挑戰。

圖片

  • 性能保障
    湖倉一體架構下很難確保所有的計算和存儲都在一起,遠程數據訪問會帶來數據訪問性能的下降,連帶引起計算性能和計算資源利用率的下降。
    網絡資源相對有限,擴展難,數據訪問高峰期會引發網絡波峰,導致數據訪問的性能下降。
    計算多樣性擴展迅速,數據讀寫的壓力被“一份”數據承載,存儲的服務能力可能會成為瓶頸。
  • 架構改造
    需要考慮兼容性,盡量減少或者避免湖倉一體架構下存儲、計算的技術選型引發上層應用的改造。
    原有的數據管理體系特別是數據安全的管理如何傳承和保障也是一大挑戰,特別是湖倉一體架構下的存儲可能變成了權限管理能力較弱的對象存儲。
    要將原有數據湖平臺平穩地遷移到湖倉一體架構中,在軟件、硬件、數據各方面充分利舊,降低改造遷移周期和成本,降低對業務的影響。

針對這些挑戰,接下來將介紹 Alluxio 是如何助力湖倉一體架構落地的。

二、Alluxio 在湖倉一體架構中的定位和作用

Alluxio 架構的定位為助力云原生大數據分析和 AI 計算的數據編排平臺。它處于計算層和存儲層之間,向下能夠兼容多種存儲引擎、不同存儲技術,對上能提供統一的數據服務能力。

圖片

1、Alluxio 能力概述

Alluxio 的核心是在計算層和存儲層之間起到承上啟下的作用。設計初衷是零侵入地實現計算應用和存儲數據之間的連接。

圖片

整體能力分為四個部分。

  • “南向”實現多個存儲系統的集成
    包括多存儲集群技術協議和安全協議的識別和對接。
  • “北向”實現多個計算/應用的對接
    包括主流的 Spark、Flink、Presto 等,以及基于一些接口協議的 AI 場景,S3 協議的接口等,并且接口統一,實現了存儲集群接口協議的轉換。
    安全統一,基于 Alluxio 進行安全認證、權限管理。
    數據視圖統一,將多個不同存儲中的數據以統一的目錄樹結構,對上提供統一的數據視圖。
  • “緩存”讓數據離計算更近
    一方面通過緩存命中,使數據離計算更近,提升數據的讀寫 IO。另一方面,緩存使用的存儲介質更高效,因此整體性能會更高。
  • “策略管理”解耦數據遷移對業務的影響
    多目錄聯合訪問,消除冷熱數據的訪問割裂。
    策略化遷移,消除數據在多個目標之間的遷移對上層數據訪問的影響。

2、Alluxio 在湖倉一體架構中的價值

(1)保障性能

圖片

Alluxio 從物理架構上,是貼近于計算層進行部署的,一個是貼近當前計算節點的local 層面的緩存 Alluxio Edge,另一個是 Alluxio Cluster 提供了一個分布式的、可擴展的分布式緩存。根據應用場景不同,可以選擇靈活選擇單獨使用或配合使用。

利用緩存的能力,Alluxio 可以帶來的價值主要為:

  • 提升計算性能
    貼近計算側部署,通過 Alluxio 雙層緩存,提供離計算更近、性能更高的數據讀寫,提升整體計算性能,最終提升終端業務效率。
  • 網絡削峰
    通過 Alluxio 緩存減少重復數據訪問以及臨時數據讀寫帶來的網絡流量,降低業務繁忙時的網絡流量,同時有效降低按流量收費的成本。
  • 緩解存儲負載
    通過緩存減少存儲側部分數據讀取和寫入,延緩因服務能力不夠的存儲擴展,同時有效降低按照接口調用收費的成本。特別是很多公有云,比如用多少的空間,可以得到相應的網絡帶寬,但如果數據量并沒有那么大,卻想達到更高的性能,可能就需要采購額外的空間。使用 Alluxio 即可減少這部分成本。

(2)降低改造成本

圖片

從邏輯上來看,Alluxio 架構更加貼近于存儲,因為其提供的是文件協議的接口能力。因此可以帶來如下價值:

  • 多存儲統一訪問
    通過 Alluxio 集成不同位置、不同接口、不同安全協議的存儲系統,提供統一數據訪問入口,降低存儲技術變動對上層的影響。
  • 零業務改造
    引入 Alluxio 不會引發業務代碼的改造,包括庫表 DDL 以及其他的數據訪問鏈路的改造,讓改造只停留在 Infra 層,降低架構升級的成本和阻力。
  • 策略化數據管理
    Alluxio 可以實現不同存儲的 Union,把不同位置的數據 Union 成一個目錄供訪問,降低數據冷熱分層、業務分區等改造成本。

3、基于 Alluxio 的湖倉一體架構

圖片

上圖展示了 Alluxio 湖倉一體的邏輯架構。無論是大數據平臺,還是湖倉一體化平臺,整體上并沒有很大區別,一般都是包括存儲層、元數據層、計算層和管理應用層。

對于湖倉一體,table format 會有所不同,主要為 Hudi、Iceberg,或者現在新的 Paimon。這樣湖倉 warehouse 和原有的 MPP 就統一了。另外,是 file format,不論數據是存在 HDFS 還是對象存儲,一般會使用 Parquet、ORC 等比較高效的數據存儲格式。

最終,形成統一的 Catalog service,對上服務。

從邏輯架構上來看,Alluxio 更加貼近存儲層。命名空間把多個存儲實現成一個統一視圖,對上提供服務,進行接口協議的轉換以及緩存加速,使得數據更容易被計算層使用。

從部署架構上,Alluxio 更加貼近于計算層,一般是使用計算層的資源進行部署,這樣可以讓 Alluxio 的緩存能力發揮最大化。

三、Alluxio 在湖倉一體架構中的應用場景

接下來介紹一些實際案例。

1、基于 Alluxio 的湖倉一體化實踐:傳統 Hadoop 向基于對象存儲的湖倉一體化架構升級

第一個案例是從傳統 Hadoop 向基于對象存儲的湖倉一體化架構的升級。

圖片

希望升級為基于 Iceberg 或者 Paimon 的湖倉一體架構,在數據時效性以及開放性上進行一次升級。

挑戰和痛點主要有:

  • 湖倉一體使用的對象存儲無法提供比較完善的數據安全保障。
  • 湖倉一體使用的對象存儲數據訪問性能較低,影響各個層面的業務效率。
  • 會有一段 Hadoop + 湖倉一體架構的并行期,有數據交互。

依托 Alluxio 構建了安全、高效的基于對象存儲的湖倉一體架構。帶來的價值收益包括:

  • 安全保障:基于 Alluxio 構建北向 Kerberos 認證、Ranger 安全體系。
  • 性能提升:對比直連 OSS,數據訪問性能提升 3-5 倍。
  • 新舊共存:HDFS 到 OSS 的策略化數據遷移,且不影響業務正常訪問。

2、基于 Alluxio 的湖倉一體化實踐:AI 和數據湖有機結合

最初的湖倉一體的架構是面向結構化和半結構化數據,但是現在隨著 AI 大模型的突飛猛進,金融行業從傳統的機器學習數據挖掘,轉變為 AI 大模型體系,面對著非常多的非結構化數據。因此需要將 AI 與數據湖有機結合。

圖片

作為在線服務,模型的更新會非常頻繁,隨著大模型的推廣,模型文件越來越大,更新上線效率挑戰也越來越大。另外,因為 GPU 資源的稀缺性,模型訓練往往需要跟著 GPU 分散在多個云上云下平臺,模型訓練獲取數據的挑戰也越來越大。

痛點主要有以下兩方面:

  • 在線推理服務往往跟離線數倉不在一起,并且使用的 S3 或者 FUSE 接口也不是 HDFS 可以提供的。
  • 不論是推理服務的模型結果數據還是模型訓練的訓練數據以往都是通過搬運數據解決的:需要維護復雜的工程,占用大量的重復存儲成本,數據等待也影響了GPU 利用率。

通過 Alluxio,連接唯一數據湖/倉庫作為模型訓練和推理集群的唯一真實數據來源,使用 GPU 集群的本地 SSD 資源作為緩存,只需要利用少量緩存空間即可,既實現了接口轉義也保障了性能。帶來的價值收益包括:

  • 性能提升:GPU 利用率從 20-30% 提高到了 90+%
  • 工程成本降低:數據遷移和搬運的開發和維護成本降低 75%。
  • 存儲成本降低:只需要整個數據集不到 3% 的緩存成本即可滿足需求。

圖片

上圖中展示了 AI 與數據湖結合的邏輯示意圖。基于唯一的一個數據湖,構建訓練集群,通過 Alluxio 實現數據鏈路的鏈接。通過 Alluxio 的數據預加載機制,配合數據模型訓練實現數據的預加載,基于唯一的真實數據源建立起AI 和數據湖的有機結合。使得數據的時效性新鮮度大大提升,GPU 利用率也更高,而同時維護改造成本則更低,數據遷移和多副本管理的成本都完全消除了。并且,不用再去額外采購高性能存儲介質,現有存儲即能支撐模型訓練。

3、基于 Alluxio 的湖倉一體實踐:OLAP 性能提升

一些業務訪問量大并且時效性要求高,針對這類需求,Alluxio 的緩存功能可以有效提升 OLAP 性能。

圖片

這一案例中,客戶數據湖 HDFS 負載較高,加入 OLAP 分析業務后,Namenode響應以及 Datanode 吞吐都面臨了很大挑戰,經常因為 HDFS 集群的超時,導致業務查詢延遲大大增加。

通過 Alluxio,既緩解了 Datanode 的壓力,更緩解了 Namenode 的壓力,使吞吐性能提升了 10 倍,整體端到端業務查詢性能提升了 40%。

4、基于 Alluxio 的湖倉一體實踐:網絡削峰

使用對象存儲,采購云上存儲,吞吐能力和帶寬都是有限的,任務量大時,對象存儲本身的服務能力受限,會成為瓶頸。Alluxio 可以實現網絡削峰。

圖片

可以看到在這一案例中,通過 Alluxio,大幅降低了查詢延遲,得到了 4-5 倍的性能提升,減少了 80% 以上的遠程訪問,節省了存儲成本。

5、Alluxio 帶來的業務和技術價值

Alluxio 的核心技術價值為通過緩存減少數據拷貝,提升訪問性能,并通過統一的數據訪問模式,降低各種適配、改造成本。同時,通過多租戶架構,保障各租戶SLA 不互相影響。

Alluxio 帶來的商業價值包括,更高的 ROI 和更低的 TCO,無需重組平臺架構,縮短價值實現時間,幫助企業獲得更高更快的營收。并且,應用可在不同存儲和云廠商間移植,可即刻實現混合云/多云部署,降低成本。

圖片

以上就是本次分享的內容,謝謝大家。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2024-03-05 08:21:23

湖倉一體數據湖數據倉庫

2021-06-07 11:22:38

大數據數據倉庫湖倉一體

2022-12-13 17:42:47

Arctic存儲湖倉

2023-04-19 15:52:15

ClickHouse大數據

2023-08-30 07:14:27

MaxCompute湖倉一體

2021-06-11 14:01:51

數據倉庫湖倉一體 Flink

2023-06-19 07:13:51

云原生湖倉一體

2022-09-29 09:22:33

數據倉

2020-12-02 17:20:58

數據倉庫阿里云數據湖

2024-09-03 14:59:00

2023-06-28 07:28:36

湖倉騰訊架構

2023-12-14 13:01:00

Hudivivo

2021-07-07 10:13:56

大數據Delta Lake 湖倉一體

2023-03-27 21:24:18

架構數據處理分析服務

2021-06-07 10:45:16

大數據數據倉庫數據湖

2023-05-26 06:45:08

2022-06-24 10:41:53

日志數據

2022-08-18 11:12:51

Cloudera?數據湖倉SaaS
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区三区在线观看 | 欧美在线一区视频 | 日韩成人精品 | 一级毛片免费完整视频 | 亚洲福利 | 欧美一级一区 | 久久国产精品99久久久久久丝袜 | 国产成人免费网站 | 国产一区三区视频 | 日韩色综合 | 成人一区二区在线 | 99精品视频免费观看 | 综合亚洲视频 | 国产精品国产a | 亚洲国产精品一区在线观看 | 99re免费 | 视频三区| 亚洲欧美一区二区三区在线 | 午夜激情影院 | 欧美日韩在线免费 | 亚洲欧美在线观看 | h漫在线观看 | 天天综合天天 | 一区在线观看 | 亚洲一区二区久久久 | 久久久夜色精品亚洲 | 国产精品一二区 | 中文字幕一区二区三区四区 | 日韩视频在线免费观看 | 成人免费福利 | 欧美一级片在线 | 国产色 | 热久久999 | 亚洲精色| 国产精品美女一区二区 | 国产一区二区三区久久 | 日韩h| 精品福利一区二区三区 | 成人免费看片 | 亚洲欧美日韩成人在线 | 中文字幕在线人 |