成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

什么是數據湖?有什么用?終于有人講明白了……

存儲 存儲軟件 數據湖
如果需要給數據湖下一個定義,可以定義為這樣:數據湖是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。

[[382052]]

本文轉載自微信公眾號「大數據DT」,作者約翰、米斯拉 。轉載本文請聯系大數據DT公眾號。  

 01 什么是數據湖

如果需要給數據湖下一個定義,可以定義為這樣:數據湖是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。

數據湖從企業的多個數據源獲取原始數據,并且針對不同的目的,同一份原始數據還可能有多種滿足特定內部模型格式的數據副本。因此,數據湖中被處理的數據可能是任意類型的信息,從結構化數據到完全非結構化數據。

企業對數據湖寄予厚望,希望它能幫助用戶快速獲取有用信息,并能將這些信息用于數據分析和機器學習算法,以獲得與企業運行相關的洞察力。

  • 數據湖與企業的關系

數據湖能給企業帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。

另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化后的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的后續增長。

企業數據中隱藏著多種能力,然而,在重要數據能夠被具備商業數據洞察力的人使用之前,人們無法利用它們來改善企業的商業表現。

02 數據湖如何幫助企業

長期以來,企業一直試圖找到一個統一的模型來表示企業中所有實體。這個任務有極大的挑戰性,原因有很多,下面列舉了其中的一部分:

  • 一個實體在企業中可能有多種表示形式,因此可能不存在某個完備的模型來統一表示實體。
  • 不同的企業應用程序可能會基于特定的商業目標來處理實體,這意味著處理實體時會采用或排斥某些企業流程。
  • 不同應用程序可能會對每個實體采用不同的訪問模式及存儲結構。

這些問題已困擾企業多年,并阻礙了業務處理、服務定義及術語命名等事務的標準化。

從數據湖的角度來看,我們正在以另外一種方式來看待這個問題。使用數據湖,隱式實現了一個較好的統一數據模型,而不用擔心對業務程序產生實質性影響。這些業務程序則是解決具體業務問題的“專家”。數據湖基于從實體所有者相關的所有系統中捕獲的全量數據來盡可能“豐滿”地表示實體。

因為在實體表示方面更優且更完備,數據湖確實給企業數據處理與管理帶來了巨大的幫助,使得企業具備更多關于企業增長方面的洞察力,幫助企業達成其商業目標。

值得一提的是,Martin Fowler寫過一篇很有意思的文章,在這篇文章中,他對企業數據湖的一些關鍵方面做了簡明扼要的闡述,可參考下面這個鏈接:

https://martinfowler.com/bliki/DataLake.html

  • 數據湖的優點

企業會在其多個業務系統中產生海量數據,隨著企業體量增大,企業也需要更智能地處理這些橫跨多個系統的數據。

一種最基本的策略是采用一個單獨的領域模型,它能精準地描述數據并能代表對總體業務最有價值的那部分數據。這些數據指的是前面提到的企業數據。

對企業數據進行了良好定義的企業當然也有一些管理數據的方法,因此企業數據定義的更改能保持一致性,企業內部也很清楚系統是如何共享這些信息的。

在這種案例中,系統被分為數據擁有者(data owner)及數據消費者(data consumer)。對于企業數據來說,需要有對應的擁有者,擁有者定義了數據如何被其他消費系統獲取,消費系統扮演著消費者的角色。

一旦企業有了對數據和系統的明晰定義,就可以通過該機制利用大量的企業信息。該機制的一種常見實現策略是通過構建企業級數據湖來提供統一的企業數據模型,在該機制中,數據湖負責捕獲數據、處理數據、分析數據,以及為消費者系統提供數據服務。

數據湖能從以下方面幫助到企業:

  • 實現數據治理(data governance)與數據世系。
  • 通過應用機器學習與人工智能技術實現商業智能。
  • 預測分析,如領域特定的推薦引擎。
  • 信息追蹤與一致性保障。
  • 根據對歷史的分析生成新的數據維度。
  • 有一個集中式的能存儲所有企業數據的數據中心,有利于實現一個針對數據傳輸優化的數據服務。
  • 幫助組織或企業做出更多靈活的關于企業增長的決策。

在本節中,我們討論數據湖應該具備哪些能力。后續將會討論和評述數據湖是如何工作的,以及應該如何去理解其工作機制。

03 數據湖是如何工作的

為了準確理解數據湖能給企業帶來哪些好處,理解數據湖的工作機制以及構建功能齊全的數據湖需要哪些組件就顯得尤為重要了。在一頭扎進數據湖架構細節之前,不妨先來了解數據湖背景中的數據生命周期。

在一個較高的層面來看,數據湖中數據生命周期如圖2-1所示。

▲圖2-1 數據湖的生命周期

上述生命周期也可稱為數據在數據湖中的多個不同階段。每個階段所需的數據和分析方法也有所不同。數據處理與分析既可按批量(batch)方式處理,也可以按近實時(near-real-time)方式處理。

數據湖的實現需要同時支持這兩種處理方式,因為不同的處理方式服務于不同的場景。處理方式(批處理或近實時處理)的選擇也依賴數據處理或分析任務的計算量,因為很多復雜計算不可能在近實時處理模式中完成,而在一些案例中,則不能接受較長的處理周期。

同樣,存儲系統的選擇還依賴于數據訪問的要求。例如,如果希望存儲數據時便于通過SQL查詢訪問數據,則選擇的存儲系統必須支持SQL接口。

如果數據訪問要求提供數據視圖,則涉及將數據存儲為對應的形式,即數據可以作為視圖對外提供,并提供便捷的可管理性和可訪問性。

最近出現的一個日漸重要的趨勢是通過服務(service)來提供數據,它涉及在輕量級服務層上對外公開數據。每個對外公開的服務必須準確地描述服務功能并對外提供數據。此模式還支持基于服務的數據集成,這樣其他系統可以消費數據服務提供的數據。

當數據從采集點流入數據湖時,它的元數據被捕獲,并根據其生命周期中的數據敏感度從數據可追溯性、數據世系和數據安全等方面進行管理。

數據世系被定義為數據的生命周期,包括數據的起源以及數據是如何隨時間移動的。它描述了數據在各種處理過程中發生了哪些變化,有助于提供數據分析流水線的可見性,并簡化了錯誤溯源。

可追溯性是通過標識記錄來驗證數據項的歷史、位置或應用的能力。

——維基百科

04 數據湖與數據倉庫的區別

很多時候,數據湖被認為與數據倉庫是等同的。實際上數據湖與數據倉庫代表著企業想達成的不同目標。表2-1中顯示了兩者的關鍵區別。

數據湖
數據倉庫
能處理所有類型的數據,如結構化數據,非結構化數據,半結構化數據等,數據的類型依賴于數據源系統的原始數據格式。
只能處理結構化數據進行處理,而且這些數據必須與數據倉庫事先定義的模型吻合。
擁有足夠強的計算能力用于處理和分析所有類型的數據,分析后的數據會被存儲起來供用戶使用。
處理結構化數據,將它們或者轉化為多維數據,或者轉換為報表,以滿足后續的高級報表及數據分析需求。
數據湖通常包含更多的相關的信息,這些信息有很高概率會被訪問,并且能夠為企業挖掘新的運營需求。
數據倉庫通常用于存儲和維護長期數據,因此數據可以按需訪問。

▲表2-1 數據湖與數據倉庫的關鍵區別

從表2-1來看,數據湖與數據倉庫的差別很明顯。然而,在企業中兩者的作用是互補的,不應認為數據湖的出現是為了取代數據倉庫,畢竟兩者的作用是截然不同的。

05 數據湖的構建方法

不同的組織有不同的偏好,因此它們構建數據湖的方式也不一樣。構建方法與業務、處理流程及現存系統等因素有關。

簡單的數據湖實現幾乎等價于定義一個中心數據源,所有的系統都可以使用這個中心數據源來滿足所有的數據需求。雖然這種方法可能很簡單,也很劃算,但它可能不是一個非常實用的方法,原因如下:

  • 只有當這些組織重新開始構建其信息系統時,這種方法才可行。
  • 這種方法解決不了與現存系統相關的問題。
  • 即使組織決定用這種方法構建數據湖,也缺乏明確的責任和關注點隔離(responsibility and separation of concerns)。
  • 這樣的系統通常嘗試一次性完成所有的工作,但是最終會隨著數據事務、分析和處理需求的增加而分崩離析。

更好的構建數據湖的策略是將企業及其信息系統作為一個整體來看待,對數據擁有關系進行分類,定義統一的企業模型。

這種方法雖然可能存在流程相關的挑戰,并且可能需要花費更多的精力來對系統元素進行定義,但是它仍然能夠提供所需的靈活性、控制和清晰的數據定義以及企業中不同系統實體之間的關注點隔離。

這樣的數據湖也可以有獨立的機制來捕獲、處理、分析數據,并為消費者應用程序提供數據服務。

關于作者:湯姆斯·約翰(Tomcy John)是一名企業級Java技術專家,擁有工學學士學位,并且有超過14年多行業的開發經驗。

潘卡·米斯拉(Pankaj Misra)是一名技術傳播者,擁有工程學士學位,并且有超過16年跨多個業務領域的技術經驗。

本文摘編自《企業數據湖》,經出版方授權發布。

 

責任編輯:武曉燕 來源: 大數據DT
相關推薦

2021-09-03 18:38:13

數據湖數據倉庫

2021-09-16 12:10:24

物聯網互聯網應用

2022-08-08 20:23:14

一網統管企業協商

2021-04-18 21:30:25

架構網絡系統

2022-04-27 18:25:02

數據采集維度

2021-12-03 18:25:56

數據指標本質

2020-11-30 08:34:44

大數據數據分析技術

2022-01-05 18:27:44

數據挖掘工具

2021-06-29 11:21:41

數據安全網絡安全黑客

2022-04-22 11:26:55

數據管理架構

2022-04-12 18:29:41

元數據系統架構

2020-07-23 09:55:59

深度學習神經網絡人工智能

2022-03-27 20:32:28

Knative容器事件模型

2021-06-13 12:03:46

SaaS軟件即服務

2021-10-09 00:02:04

DevOps敏捷開發

2021-12-07 18:24:26

數據安全

2022-05-01 22:09:27

數據模型大數據

2022-11-01 18:21:14

數據埋點SDK

2025-05-29 01:00:00

數據架構大數據數據湖

2022-01-03 20:18:37

定理應用貝葉斯
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品69毛片高清亚洲 | 天堂一区二区三区 | 欧美在线视频免费 | 欧美日韩在线一区二区 | 亚洲一区 中文字幕 | 成人亚洲一区 | 亚洲欧美中文日韩在线v日本 | 久久久久国产一区二区三区四区 | 日韩中文电影 | 在线一级片 | 国产精品久久久久无码av | 精品亚洲一区二区三区 | 91久久精品一区二区二区 | 国产精品一区久久久 | 91亚洲免费 | 亚洲一区二区av | 精品乱子伦一区二区三区 | www日本高清 | 色啪网 | a免费视频 | 亚洲区中文字幕 | 美女天天干天天操 | 爱爱免费视频网站 | 免费国产视频 | 日韩亚洲视频 | 久久婷婷av | 亚洲国产日本 | 一区二区在线不卡 | 久久久性色精品国产免费观看 | 在线成人www免费观看视频 | 蜜臀久久| 亚洲人成人一区二区在线观看 | 亚洲欧美视频一区二区 | 一区二区视频在线 | 久草成人网 | 日韩综合一区 | 欧洲一区二区在线 | 一区在线视频 | 亚洲大片在线观看 | 日本手机看片 | 一道本在线 |