成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

什么是數據湖?用于大數據分析的大規模可擴展存儲

譯文
大數據 數據湖
用戶需要深入了解什么是數據湖、如何使用數據湖以及數據湖與數據倉庫的不同之處和他們之間的互補性。

?譯者 | 李睿

審校 | 孫淑娟

2011年,時任商業智能開發商Pentaho公司首席技術官的James Dixon創造了“數據湖”這一術語。他將數據湖與當時流行的數據集市的典型信息孤島進行了對比:如果將數據集市視為銷售瓶裝水的商店(經過清潔和包裝處理以便于飲用),那么數據湖就是處于更自然狀態的大片水體。數據湖的內容從一個源頭流入,填滿湖泊。采用數據湖,用戶可以來檢查、潛入或采集樣本。

從那時起,數據湖技術不斷發展,現在正在與數據倉庫爭奪大數據存儲和分析的市場份額。各種工具和產品支持數據湖中更快的SQL查詢,而全球三個主要云計算提供商都提供了數據湖存儲和分析。甚至還推出了將治理、安全性和分析與成本更低的存儲結合起來的數據湖屋的概念。本文將深入探討數據湖是什么、如何使用數據湖以及如何確保數據湖不會成為數據沼澤。  

對數據湖的解釋  

數據湖本質上是一個單一的數據存儲庫,它保存用戶的所有數據,直到準備好進行分析,或者可能只保存不適合數據倉庫的數據。通常情況下,數據湖以其原生文件格式存儲數據,但可以將數據轉換為另一種格式以提高分析效率。擁有數據湖的目標是從數據中提取業務或其他分析的價值數據。

數據湖可以托管二進制數據(例如圖像和視頻)、非結構化數據(例如PDF文檔)和半結構化數據(例如CSV和JSON文件)以及結構化數據(通常來自關系數據庫)。結構化數據對分析更有用,但半結構化數據可以很容易地導入結構化形式中。非結構化數據通常可以使用智能自動化轉換為結構化數據。  

數據湖vs數據倉庫  

問題不在于是否需要數據湖或數據倉庫。很可能兩者都需要,但其目的不同,也可以將它們組合起來。首先了解數據湖和數據倉庫之間的主要區別:  

  • 數據源:數據湖的典型數據源包括日志文件、來自點擊流的數據、社交媒體帖子以及來自互聯網連接設備的數據。數據倉庫通常存儲從事務數據庫、業務線應用程序和操作數據庫中提取的數據以供分析。  
  • 模式策略:數據湖的數據庫模式通常在分析時應用,稱之為讀模式。企業數據倉庫的數據庫模式通常在創建數據存儲之前設計,并在數據導入時應用于數據,這稱之為寫模式。  
  • 存儲基礎設施:數據倉庫通常采用大量價格高昂的內存和SSD硬盤,以便快速提供查詢結果。數據湖通常在計算機集群上使用價格較低的機械硬盤進行存儲。數據倉庫和數據湖都使用大規模并行處理(MPP)來加速SQL查詢。  
  • 原始數據與精選數據:數據倉庫中的數據應該被整理到可以將數據倉庫視為企業的“單一事實來源”的程度。數據湖中的數據可能會或可能不會被管理:數據湖通常從原始數據開始,然后可以過濾和轉換以進行分析。  
  • 誰使用它:數據倉庫用戶通常是業務分析師。數據湖用戶通常是數據科學家或數據工程師,至少在最初是這樣。數據在經過整理之后,業務分析師就可以訪問這些數據。  
  • 分析類型:數據倉庫的典型分析包括商業智能、批處理報告和可視化。對于數據湖,典型的分析包括機器學習、預測分析、數據發現和數據剖析。  

什么是數據集市?  

數據集市是僅限于來自單個部門或業務單位數據的分析數據庫,這與數據倉庫相反。數據倉庫將企業的所有關系數據組合成適合分析的形式,而數據集市通過僅包含與部門相關的數據來提供有效的分析。因此,它們本質上是孤立的。有人聲稱孤島無關緊要,因為業務部門不需要排除的數據。在現實生活中,這通常很重要——總有一些企業高管需要基于來自多個業務部門的組合數據的報告。這就是目前看到有很多數據湖和數據倉庫而很少看到數據集市的原因之一。

數據湖上更快的SQL查詢  

當企業將原始數據存儲在數據池中時,在數據工程師或數據科學家對數據進行處理之前,這些數據可能對業務分析師毫無用處。除了過濾和數據轉換之外,數據湖還需要數據目錄、數據安全性和模式定義。對于沒有這些功能的數據湖來說,就是數據沼澤。

幸運的是,有很多工具可以幫助過濾和組織數據湖中的數據。例如,企業可以通過創建ORC格式的Hive元存儲來滿足對模式的需求。在設置完成之后,元存儲通過Presto等大規模并行SQL引擎支持快速SQL查詢(優化的行-列格式是一種壓縮的列存儲,針對Hive進行了優化,并與Presto配合使用)。  

ApacheSpark是另一個大規模并行SQL引擎。雖然它可以使用ORC格式,但它更適用于另一種壓縮的列式存儲Parquet。Spark可以對Parquet文件執行垂直和水平分區,生成只需要讀取必要數據,并可以跳過不相關數據的查詢計劃。  

數據湖屋  

Spark和MLflow背后的Databricks公司提供了他們所謂的數據湖屋(Data Lakehouse)。根據Databricks公司的介紹,數據湖屋結合了數據倉庫和數據湖的最佳特性:數據湖屋將數據倉庫和數據湖統一在一個簡單的平臺中,以處理其所有數據、分析和人工智能用例。它建立在開放且可靠的數據基礎之上,可以有效處理所有數據類型,并在其所有數據和云平臺上應用一種通用的安全和治理方法。  

Databricks公司開源發布的DeltaLake通過直接為數據湖中的數據保證了可靠性和高性能,這構成了數據湖屋的基礎。Databricks Lakehouse平臺還包括Unity Catalog,它為數據和人工智能提供細粒度的治理。Databricks聲稱其數據湖庫的性價比是數據倉庫的12倍。  

內部部署和公共云中的數據湖  

從歷史上看,數據湖是使用Apache Hadoop計算機集群和HDFS(Hadoop分布式文件系統)在內部部署設施實施的。Hadoop集群曾經是Cloudera、Hortonworks等公司的主要業務,而Cloudera與Hortonworks在2018年合并。  

改變的是云計算服務,特別是超大規模公共云供應商AWS、微軟Azure和谷歌云平臺(GCP)。這三個主要云計算提供商都提供數據湖存儲產品:Amazon S3和Amazon EMR(以前稱為Amazon Elastic Map Reduce)、Azure DataLake Store(ADLS)和Google Cloud Storage(GCS)。這三者還提供數據攝取、數據處理、分析和機器學習服務。創建、管理和擴展云數據湖比在數據中心管理Hadoop集群要容易和快捷得多。其權衡的結果是,云計算中的長期運營支出最終將變得更高。

數據湖的分析和機器學習  

在此之前討論了使用Presto和ApacheSpark在數據湖上進行更快的SQL查詢。SQL只是分析數據的一種方法,盡管它非常重要并且通常是第一步。此外,考慮采用Power BI、Tableau或Qlik等商業智能工具;Jupyter、Zeppelin或Spark notebooks;, scikit-learn、SparkML或KNIME等機器學習技術;TensorFlow或PyTorch等深度學習技術。  

超大規模云計算供應商擁有自己的分析和機器學習工具,用戶可以連接到他們的數據湖。

Amazon Athena使用Presto和Hive對AmazonS3中的數據執行SQL查詢。Amazon EMR是一個基于云計算的大數據平臺,用于使用Apache Spark、Apache Hive和Presto等開源分析框架運行大規模分布式數據處理作業、交互式SQL查詢和機器學習應用程序。Amazon SageMaker是一項完全托管的服務,用于構建、訓練和部署機器學習模型。  

Azure Data Lake Analytics (ADLA)是一種傳統的按需分析作業服務,可以簡化大數據,并使用U-SQL,也就是SQL+C#。ADLA正被Azure Synapse Analytics所取代,這是一種將數據集成、企業數據倉庫和大數據分析結合在一起的無限分析服務。它讓用戶可以自由地根據自己的條件查詢數據,可以使用無服務器選項,也可以大規模使用專用選項。Synapse結合了數據湖、企業數據倉庫和操作數據查詢功能,可以自動從ADLA和數據倉庫遷移數據和代碼。Synapse與Azure機器學習、Azure認知服務和Power BI進行了深度集成。

Google云存儲提供與許多強大的谷歌云服務的原生集成,例如BigQuery(數據倉庫)、Dataproc(Hadoop生態系統)、Dataflow(無服務器流式分析)、視頻智能API、Cloud Vision API和人工智能平臺。

總之,用戶可以非常靈活地選擇合適的工具來分析其數據。  

結論  

自從進入Hadoop集群和MapReduce時代以來,數據湖變得更加有用。由于內存和大規模并行處理以及基于Hive的模式,Presto和ApacheSpark提供比MapReduce更快的SQL處理。與內部部署的計算機集群相比,基于云計算的數據湖更易于創建、管理和擴展。而云計算數據湖也將與廣泛的分析和人工智能工具緊密集成。

原文標題:??What is a data lake? Massively scalable storage for big data analytics???,作者:Martin Heller?

責任編輯:華軒 來源: 51CTO
相關推薦

2018-08-24 09:42:05

云存儲存儲大數據

2015-03-04 11:01:36

大數據數據分析分析

2015-07-29 16:19:54

大數據時代分析

2016-10-12 09:22:51

數據分析技術Apache Kyli

2021-08-25 08:23:51

AI數據機器學習

2022-03-29 14:49:14

大數據數據分析

2013-04-27 09:09:07

大數據全球技術峰會

2019-08-22 09:08:53

大數據HadoopStorm

2023-12-21 11:44:11

數據湖數據管理數據存儲庫

2020-12-11 19:52:06

數據中心超大規模數據中心

2023-02-14 11:24:36

2023-12-01 10:25:34

數據存儲

2022-12-30 14:14:51

數據中心服務器

2017-02-27 16:35:00

HDFS大數據分析

2019-04-15 15:32:12

大數據開發數據分析數據科學

2015-01-27 14:36:18

2015-09-01 11:31:50

數據英雄

2013-05-09 09:35:00

Cloudmeter大數據

2025-03-24 12:18:25

數據庫數據倉庫存儲

2018-08-16 10:01:40

數據存儲數據中心
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: a久久 | 激情 亚洲| 欧美精品1区2区3区 免费黄篇 | 极品久久| 国产精品自拍av | 日本一区二区不卡 | 怡红院免费的全部视频 | 美女久久 | 男女免费网站 | 中文字幕在线精品 | 国产激情网 | 日韩91| 精品在线一区二区三区 | 久久精品国产v日韩v亚洲 | 91大神在线资源观看无广告 | 日本黄色大片免费看 | 91资源在线 | 久久精品一区 | 国产高清精品在线 | 在线观看视频一区 | 精品欧美一区二区久久久伦 | 日本高清中文字幕 | 99国产精品久久久久老师 | 国产成人网 | 日韩av在线一区 | 伊人操| 最新国产福利在线 | 亚洲激情在线观看 | 亚洲一区二区三区四区五区中文 | 日韩一区二区三区视频在线观看 | 日韩视频一区二区 | 欧美中文字幕 | 国产精品资源在线观看 | 中文字幕在线观 | 亚洲传媒在线 | 国产女人与拘做视频免费 | 99日韩| 91丨九色丨国产在线 | 色综合成人网 | 国产精品久久久久久久久久 | 日本aaaa |