成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據湖存儲方案Lakehouse帶來數據倉庫架構的提升

譯文 精選
存儲 存儲架構
本文將從概念上向您重點介紹如何改進當前的數據湖平臺,并最終將其變成Lakehouse,以增強架構模式,進而改造傳統的數據倉庫。

眾所周知,數據倉庫的初始架構旨在通過把來自各種異構數據源的數據,收集到集中式的存儲庫中,以提供分析的見解,并充當決策支持和商業智能(business intelligence,BI)的支點。不過,由于它只能支持寫入時模式(schema-on-write),而無法存儲非結構化的數據、不能與計算緊密集成、以及只能實現本地設備存儲,因此近年來,數據倉庫碰到了諸如數據模型設計耗時過長等各種挑戰。

盡管目前的數據倉庫能夠支持以在線分析處理(OLAP)服務器作為中間層的三層架構,但是它仍然屬于一種被用于機器學習和數據科學的整合平臺。此類平臺雖然具有元數據層、緩存層和索引層,但是這些層次并非單獨存在。下面,我將向您重點介紹如何改進當前的數據湖平臺,并最終將其變成Lakehouse,以增強架構模式,進而改造傳統的數據倉庫。

傳統數據倉庫平臺的架構

HDFS

上圖展示了傳統數據倉庫平臺的邏輯架構。近年來,隨著音頻、視頻等非結構化數據集的快速增長,許多組織和企業都在尋找和探索某種高級的替代產品,以解決與傳統數據倉庫系統相關的復雜性問題(正如本文開頭所提到的各種痛點)。目前,業界常用的是于2006年面世的Apache Hadoop生態系統。通過利用HDFS(Hadoop分布式文件系統),它解決了在被加載到傳統數據倉庫系統之前,將原始數據提取并轉換為結構化格式(即:行和列的形式)的主要瓶頸問題。

HDFS不但能夠處理在商用硬件上運行的大型數據集,而且可以適應通常具有GB和TB體量的數據集應用程序。此外,它還可以通過在集群上添加新的節點,來進行水平擴展,以適應海量的數據,而無需考慮任何數據格式的需求。你可以通過鏈接—https://dataview.in/installation-of-apache-hadoop-3-2-0/,來進一步了解如何在多節點集群上安裝和配置Apache Hadoop。

Hadoop生態系統(Apache Hive)的另一個優勢在于,它支持讀取時模式(schema-on-read)。由于傳統數據倉庫具有嚴格的寫入時模式原則,因此ETL(Extract-Transform-Load的縮寫)步驟在遵守已設計好的表空間時,非常耗費時間。而通過一行語句,我們可以將數據湖定義為一個存儲庫,以存儲大量原始數據的原生格式(包括:結構化、非結構化和半結構化等),以用于后續分析,預測分析,通過執行機器學習代碼與APP,來構建算法等大數據處理操作。

數據湖架構

如上圖所示,由于沒有適合的數據模式,因此數據湖在加載之前不需要進行任何數據轉換,那么如何保持數據質量便成了一個大問題。數據湖并沒有完全具備解決數據治理和安全相關問題的能力。因此,機器學習(ML)以及數據科學的應用,需要使用非SQL代碼,來處理海量的數據,以便成功地部署和運行在數據湖上。但是與SQL引擎相比,由于缺乏已優化的處理引擎,因此數據湖往往無法很好地服務此類應用。而且,僅靠這些引擎,是不足以解決數據湖的所有問題,甚至取代數據倉庫的。此外,數據湖中仍然缺少諸如ACID(原子性,atomicity;一致性,consistency;隔離性,isolation;持久性durability)屬性等功能、以及索引等高效的訪問方法。據此,構建在它上面的機器學習和數據科學等應用,也會遇到例如數據質量、一致性和隔離性等數據管理問題。因此,數據湖需要額外的工具和技術,來支持SQL查詢,以便執行各種商業智能和報告。

Lakehouse

借助著S3、HDFS、Azure Blob等數據湖的處理能力,Lakehouse結合了數據湖的低成本存儲優勢,以開放的格式為各種系統提供訪問,并凸顯了數據倉庫強大的管理和優化功能。目前,??Databricks???和??AWS??都相繼引入了數據Lakehouse的概念。

數據Lakehouse架構的多層架構

Lakehouse能夠提高各種高級分析負載的速度,并為其提供更好的數據管理功能。如上圖所示,Lakehouse通常分為五層,它們分別是攝取層、存儲層、元數據層、API 層、以及最后的消費層。

  • 攝取層是Lakehouse的第一層,負責從各種來源提取數據,并將其傳送到存儲層。該層可以使用各種組件來攝取數據。其中包括:用于從IoT設備處流式傳輸數據的Apache Kafka、用于從關系數據庫管理系統(Relational Database Management System,RDBMS)處導入數據的Apache Sqoop、以及支持批量數據處理的更多組件。
  • 由于計算層和存儲層得到了分離,因此數據Lakehouse最適合云存儲庫服務。它可以利用HDFS平臺在本地得以實施。在設計上,Lakehouse允許開發者將各種數據保存在諸如AWS S3等低成本對象的存儲中,并作為使用標準文件格式(例如Apache Parquet)的對象。
  • Lakehouse中的元數據層負責為湖存儲(lake storage)中的所有對象提供元數據(即,提供有關其他數據片段信息的數據)。此外,它還可以管理如下方面:
  1. 確保并發各項ACID事務
  2. 使用更快的存儲設備(如,處理節點上的SSD和RAM)緩存來自云服務對象所存儲的文件
  3. 通過索引,以加快查詢的速度
  • Lakehouses中的API層提供了兩種類型的API:聲明性DataFrame API和SQL API。在DataFrame API的幫助下,數據科學家可以直接使用數據,來執行他們的各種應用。例如,TensorFlow和Spark MLlib等機器學習代碼庫,可以讀取Parquet等開放的文件格式,并直接查詢元數據層。而SQL API可以用于為組合業務分析、數據挖掘、數據可視化等商業智能、以及各種報告類工具,獲取數據。
  • 最后,消費層包含了諸如Power BI、Tableau等各種工具和應用。整個企業的所有用戶都可以使Lakehouse的消費層,來執行各種分析任務。其中包括:商業智能化儀表板、數據可視化、SQL查詢、以及機器學習作業等。

此外,Lakehouse架構也最適合在組織內部,為各種數據提供單點式訪問。

小結

Lakehouse架構是應對數據提純的復雜性、查詢的兼容性、熱數據的緩存等需求產生的。目前,該單體架構尚處于初級階段。但是,在不久的將來,Lakehouse作為一種數據工具,將能夠實現數據發現、數據使用指標、數據治理等更加豐富的功能。

原文標題:??The Lakehouse: An Uplift of Data Warehouse Architecture??,作者:Gautam Goswami


責任編輯:華軒 來源: 51CTO
相關推薦

2024-09-05 16:08:52

2024-03-19 13:45:27

數據倉庫數據湖大數據

2022-11-29 17:16:57

2023-12-01 14:55:32

數據網格數據湖

2017-01-22 15:43:47

數據架構演進

2023-12-13 07:26:24

數據湖倉數據倉庫性能

2025-05-12 09:34:39

2023-11-09 15:56:26

數據倉庫數據湖

2009-01-18 15:48:31

數據倉庫數據存儲OLTP

2018-07-24 09:28:18

存儲數據倉庫

2020-12-02 17:20:58

數據倉庫阿里云數據湖

2022-10-14 14:20:20

云原生數據倉庫

2021-03-31 10:16:00

架構運維技術

2020-10-20 18:59:40

數據湖數據倉庫采集

2022-10-21 16:38:57

數據湖數據倉庫數據庫

2018-03-20 09:36:57

數據倉庫數據存儲知識

2023-11-27 16:35:28

數據湖數據倉庫

2024-11-13 08:43:47

2021-06-07 10:45:16

大數據數據倉庫數據湖

2020-01-08 21:53:06

大數據數據倉庫數據湖
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中国人pornoxxx麻豆 | 亚洲h视频| 欧美舔穴 | 黄色大片毛片 | 欧美一级久久 | 国产精品免费在线 | 久久精品亚洲欧美日韩久久 | 91香蕉视频在线观看 | 欧美精品一区二区三区视频 | 国产精品免费观看 | 亚洲69p| 国产免费一区二区三区免费视频 | 这里精品 | 成人小视频在线观看 | 精品欧美一区二区三区久久久小说 | 成人在线视 | 中文字幕国产视频 | 国产黄色免费网站 | 精品国产高清一区二区三区 | 亚洲国产一区二区三区在线观看 | 成人a免费 | 91高清视频 | 午夜天堂| 色爱综合网 | 欧美成视频 | 女人精96xxx免费网站p | 免费国产视频 | 欧美一级二级在线观看 | 日本网站免费观看 | 亚州精品天堂中文字幕 | 国产精品国产成人国产三级 | 国产a爽一区二区久久久 | 91免费高清 | 久久综合成人精品亚洲另类欧美 | 黄网站涩免费蜜桃网站 | 成人在线| 一区二区三区不卡视频 | 在线播放国产一区二区三区 | 日韩免费视频一区二区 | 精品一区二区三区四区视频 | 国产精品a级 |