4分鐘帶你看懂究竟什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫是商業(yè)和數(shù)據(jù)科學中最熱門的話題之一。
但是,如果你是該領域的新手,你可能想知道什么是數(shù)據(jù)倉庫?為什么我們需要它,它是怎么運行的?

別擔心,因為在接下來的4分鐘,你將知曉這所有問題的答案。
好的,首先讓我們看到定義。
唯一數(shù)據(jù)源——這個詞是什么意思?
在信息系統(tǒng)理論中,唯一數(shù)據(jù)源是在一個地方構造全部最佳質量數(shù)據(jù)的實踐。

.
讓我們看到一個簡單的例子:
你肯定遇到過這種情況,當你在處理文件,并且創(chuàng)建不同的版本,這時你怎么給文件命名?
當你完成后,你通常會在結尾加上“最終版”。
這導致產(chǎn)生一堆帶有擴展名的文件:
最終版,最終的最終版,最終的最終的最終版…
或者是我的最愛,真正最終版…的最終版。

如果你是這樣,恭喜你,你不是一個人。
有時候,即使是公司,也都不知道最新或最合適的文件在哪里。
但是如果你知道有個地方會始終存放著唯一的數(shù)據(jù)源,那就太棒了,不是么?
數(shù)據(jù)倉庫就可以滿足這種需求,那到底什么是數(shù)據(jù)倉庫呢?
其實就是公司存儲其寶貴數(shù)據(jù)資產(chǎn)的地方。包括客戶數(shù)據(jù)、銷售數(shù)據(jù)、員工數(shù)據(jù)等。
簡而言之,數(shù)據(jù)倉庫是公司事實上的唯一數(shù)據(jù)源。
通常創(chuàng)建它是為了將其主要用于數(shù)據(jù)報告和分析目的。
數(shù)據(jù)倉庫有幾個定義特征:
面向對象性
集成性
時變性
永久性
歸納性

讓我們快速地分別看看。
01 面向對象性

這意味著數(shù)據(jù)倉庫中的信息會圍繞某些方面。
因此,它永遠不會包含所有公司數(shù)據(jù),不過只會包含相關的主題。
例如,競爭對手的數(shù)據(jù)不需要出現(xiàn)在數(shù)據(jù)倉庫中。但是,自己的銷售數(shù)據(jù)肯定會在。
02 集成性

對應于視頻開頭的例子。在命名方面,對于每個數(shù)據(jù)庫、每個團隊甚至每個人都有自己的偏好。
這就是為什么要開發(fā)通用標準,以確保數(shù)據(jù)倉庫在任何方面都能選擇最佳質量的數(shù)據(jù)。這與主數(shù)據(jù)治理有關,但這是另一個話題了。
03 時變性

數(shù)據(jù)倉庫也包含歷史數(shù)據(jù)。如前所述,我們主要使用數(shù)據(jù)倉庫進行分析和報告。這意味著我們需要知道五到十年前發(fā)生的事情。
04 永久性

意味著數(shù)據(jù)僅按原樣錄入數(shù)據(jù)倉庫,一旦存入,就無法更改或刪除。
05 歸納性

再次觸及將數(shù)據(jù)用于數(shù)據(jù)分析這一事實。通常,它會以某種方式進行匯總或細分,為了便于分析和報告。
好的,這就是數(shù)據(jù)倉庫,是對于公司而言結構優(yōu)良,永久性事實上的單一數(shù)據(jù)源。