成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從數(shù)據(jù)庫思維到數(shù)據(jù)湖思維的轉(zhuǎn)變

數(shù)據(jù)庫 數(shù)據(jù)湖
在這篇文章中,讓我們來確定數(shù)據(jù)庫和數(shù)據(jù)湖的一些差異,這些差異在第一眼看到時可能并不直觀,特別是對于具有強大關(guān)系型數(shù)據(jù)庫背景的人來說。

在數(shù)據(jù)庫和數(shù)據(jù)湖的工作中,有幾個關(guān)鍵的概念性差異。

在這篇文章中,讓我們來確定其中的一些差異,這些差異在第一眼看到時可能并不直觀,特別是對于具有強大關(guān)系型數(shù)據(jù)庫背景的人來說。

[[397713]]

服務(wù)器是一次性的。數(shù)據(jù)在云中。

解耦存儲和計算。在談?wù)摂?shù)據(jù)湖時,這是一個典型的問題。

在傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)(以及最初的基于Hadoop的數(shù)據(jù)湖)中,存儲與計算服務(wù)器緊密結(jié)合。服務(wù)器要么有內(nèi)置的存儲,要么直接連接到存儲。

在現(xiàn)代基于云的數(shù)據(jù)湖架構(gòu)中,數(shù)據(jù)存儲和計算是獨立的。數(shù)據(jù)被保存在云對象存儲(例如:AWS S3、Azure Storage)中,通常是以一種開放的格式,如parquet,而計算服務(wù)器是無狀態(tài)的,它們可以在必要時啟動/關(guān)閉。

擁有一個解耦的存儲和計算使。

  • 降低計算成本。服務(wù)器在必要時運行。當(dāng)不使用時,它們可以被關(guān)閉,從而降低了計算成本。
  • 可擴展性。你不必為高峰期的使用而購置硬件。服務(wù)器/中央處理器/內(nèi)存的數(shù)量可以根據(jù)當(dāng)前的使用情況動態(tài)地增加/減少。
  • 沙盒化。相同的數(shù)據(jù)可以被多個計算服務(wù)器/集群同時讀取。這使得你可以讓多個團隊在不同的集群中并行工作,讀取相同的數(shù)據(jù),而不影響彼此。

RAW數(shù)據(jù)才是王道!策劃的數(shù)據(jù)只是衍生的。

在數(shù)據(jù)庫范式中,來自源系統(tǒng)的數(shù)據(jù)被轉(zhuǎn)化并加載到數(shù)據(jù)庫表中后,它就不再有用了。在數(shù)據(jù)湖范式中,RAW數(shù)據(jù)被保留為真理的源泉,最終永遠(yuǎn)保留,因為它是真正的資產(chǎn)。

然而,RAW數(shù)據(jù)通常不適合商業(yè)用戶的消費,因此它要經(jīng)過一個策劃過程,以提高其質(zhì)量,提供結(jié)構(gòu)并方便消費。經(jīng)過整理的數(shù)據(jù)最終被儲存起來,供數(shù)據(jù)科學(xué)團隊、數(shù)據(jù)倉庫、報告系統(tǒng)以及業(yè)務(wù)用戶的一般消費使用。

數(shù)據(jù)湖整理(來源:作者的圖片

典型的數(shù)據(jù)湖消費者只看到策劃過的數(shù)據(jù),因此他們對策劃過的數(shù)據(jù)的重視程度遠(yuǎn)遠(yuǎn)超過產(chǎn)生這些數(shù)據(jù)的RAW數(shù)據(jù)。

然而,數(shù)據(jù)湖的真正資產(chǎn)是RAW數(shù)據(jù)(連同策展管道),從某種意義上說,策展的數(shù)據(jù)類似于一個可以隨時刷新的物化視圖。

主要收獲:

  • 可以在任何時候從RAW中重新創(chuàng)建。
  • 可以通過改進策展過程來重新創(chuàng)建。
  • 我們可以有多個策劃好的視圖,每個視圖都用于特定的分析。

今天做出的模式?jīng)Q定不會制約未來的需求

通常情況下,信息需求會發(fā)生變化,一些原先沒有從源頭/運營系統(tǒng)中收集的信息需要被分析。

在一個典型的情況下,如果原始的RAW數(shù)據(jù)沒有被存儲,歷史數(shù)據(jù)就會永遠(yuǎn)丟失。

然而,在數(shù)據(jù)湖架構(gòu)中,今天決定不把某個字段加載到策劃的模式中,以后可以推翻,因為所有的詳細(xì)信息都安全地存儲在數(shù)據(jù)湖的RAW區(qū)域,歷史策劃的數(shù)據(jù)可以用額外的字段重新創(chuàng)建。

策劃的模式演變(圖片由作者提供

主要收獲:

  • 如果你現(xiàn)在不需要,就不要花大量的時間去創(chuàng)建一個通用的一刀切的策劃模式。
  • 迭代地創(chuàng)建一個策劃的模式,從添加你現(xiàn)在需要的字段開始。
  • 當(dāng)需要額外的字段時,將它們添加到策展過程中并重新處理。

最后的思考

數(shù)據(jù)湖不是數(shù)據(jù)庫的替代品,每種工具都有它的優(yōu)勢和致命弱點。

將數(shù)據(jù)湖用于OLTP可能是一個壞主意,就像使用數(shù)據(jù)庫來存儲數(shù)千兆字節(jié)的非結(jié)構(gòu)化數(shù)據(jù)一樣。

我希望這篇文章有助于闡明兩個系統(tǒng)之間的一些關(guān)鍵設(shè)計差異。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2011-04-06 15:44:02

SQLNOSQL思維轉(zhuǎn)變

2021-03-01 10:43:56

大數(shù)據(jù)人工智能

2021-02-28 13:57:51

大數(shù)據(jù)人工智能信息

2023-09-07 13:56:45

2020-03-25 09:39:03

數(shù)據(jù)數(shù)據(jù)湖數(shù)據(jù)倉庫

2022-01-25 10:15:34

項目大廠學(xué)習(xí)

2009-08-11 15:05:55

云應(yīng)用開發(fā)思維

2022-03-22 12:56:53

垃圾數(shù)據(jù)數(shù)據(jù)完整性

2017-07-17 13:19:04

大數(shù)據(jù)云計算環(huán)保

2015-06-23 13:56:30

數(shù)據(jù)庫設(shè)計面向?qū)ο?/a>

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2018-04-18 17:08:45

2023-08-07 06:55:56

2019-08-27 09:34:29

數(shù)據(jù)科學(xué)統(tǒng)計機器學(xué)習(xí)

2014-08-07 08:49:47

數(shù)據(jù)庫

2024-09-23 22:08:54

2009-01-18 09:24:00

Windows Vis文件共享

2021-06-01 21:55:33

物聯(lián)網(wǎng) IoTDB數(shù)據(jù)庫

2020-12-22 10:26:17

混合IT混合云云計算

2013-01-22 10:10:45

大數(shù)據(jù)小數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人在线观看免费视频 | 一区二区三区在线电影 | 国产免费一区二区三区最新6 | 91精品国产91久久综合桃花 | 精品日本久久久久久久久久 | 国产韩国精品一区二区三区 | 日韩视频精品在线 | 麻豆精品国产91久久久久久 | 国产成人一区二区 | 欧美人成在线视频 | 日本精品视频在线 | 成人黄视频在线观看 | 婷婷桃色网| 国产精品久久久久久久久久久久久 | 国产美女在线精品免费 | 最新毛片网站 | 亚洲综合无码一区二区 | 亚洲激情专区 | 国产一区二区精品在线 | 亚洲97| 亚洲最大看片网站 | 国产欧美精品一区二区三区 | 干干干操操操 | 国产精品免费视频一区 | 一级黄色片美国 | 亚洲成人一区二区三区 | 亚洲第一黄色网 | 91久久精品国产91久久性色tv | 成人欧美一区二区三区黑人孕妇 | 国产精品一区二区在线 | 97日日碰人人模人人澡分享吧 | 亚洲欧美一区二区三区国产精品 | av在线伊人| 国产在线高清 | 女同久久另类99精品国产 | 国产亚洲一区二区三区 | 偷牌自拍 | 精品一区在线看 | 亚洲成人综合社区 | 亚洲欧美一区二区三区国产精品 | 狠狠草视频|