成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

必備數(shù)據(jù)知識(shí):數(shù)據(jù)倉(cāng)庫(kù)之?dāng)?shù)據(jù)存儲(chǔ)

存儲(chǔ) 存儲(chǔ)軟件 數(shù)據(jù)倉(cāng)庫(kù)
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)。

元數(shù)據(jù)

描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。兩方面用途:

首先,元數(shù)據(jù)能提供基于用戶的信息,如記錄數(shù)據(jù)項(xiàng)的業(yè)務(wù)描述信息的元數(shù)據(jù)能幫助用戶使用數(shù)據(jù)。

其次,元數(shù)據(jù)能支持系統(tǒng)對(duì)數(shù)據(jù)的管理和維護(hù),如關(guān)于數(shù)據(jù)項(xiàng)存儲(chǔ)方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問(wèn)數(shù)據(jù)。

元數(shù)據(jù)機(jī)制主要支持以下五類系統(tǒng)管理功能:

(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中;

(2)定義要進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)和從數(shù)據(jù)倉(cāng)庫(kù)中產(chǎn)生的數(shù)據(jù);

(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排;

(4)記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;

(5)衡量數(shù)據(jù)質(zhì)量。

[[223041]]

ODSOperational Data Store

ODS為企業(yè)提供即時(shí)的,操作型的,集成的數(shù)據(jù)集合,具有面向主題性,集成性,動(dòng)態(tài)性,即時(shí)性,明細(xì)性等特點(diǎn)

ODS作為數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)的一種過(guò)渡形式,與數(shù)據(jù)倉(cāng)庫(kù)在物理結(jié)構(gòu)上不同,能提供高性能的響應(yīng)時(shí)間,ODS設(shè)計(jì)采用混合設(shè)計(jì)方式。

ODS中的數(shù)據(jù)是"實(shí)時(shí)值",而數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)卻是"歷史值",一般ODS中儲(chǔ)存的數(shù)據(jù)不超過(guò)一個(gè)月,而數(shù)據(jù)倉(cāng)庫(kù)為10年或更多.

Data Mart

為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)。需要注意的就是在實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣再以后實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí)才不會(huì)造成大麻煩。

DDS決策支持系統(tǒng):

用于支持管理決策的系統(tǒng)。通常,DSS包括以啟發(fā)的方式對(duì)大量的數(shù)據(jù)單元進(jìn)行的分析,通常不涉及數(shù)據(jù)更新。

OLAP

聯(lián)機(jī)分析處理,On-Line Analysis Processing 即從數(shù)據(jù)倉(cāng)庫(kù)中抽取詳細(xì)數(shù)據(jù)的一個(gè)子集并經(jīng)過(guò)必要的聚集,存儲(chǔ)到OLAP存儲(chǔ)器中供前端分析工具讀取。

OLAP系統(tǒng)按照數(shù)據(jù)存儲(chǔ)格式可以分為關(guān)系OLAP(RelationalOLAP,簡(jiǎn)稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡(jiǎn)稱MOLAP)和混合型OLAP(HybridOLAP,簡(jiǎn)稱HOLAP)三種類型。

ROLAP將分析要用的多維數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,并根據(jù)應(yīng)用的需要有選擇的定義一批實(shí)視圖也存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中。MOLAP將OLAP分析所要用到的多維數(shù)據(jù)物理上存儲(chǔ)為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。HOLAP能把MOLAP和ROLAP兩種結(jié)構(gòu)的優(yōu)點(diǎn)有機(jī)的結(jié)合起來(lái),能滿足用戶各種復(fù)雜的分析請(qǐng)求。

事實(shí)表

事實(shí)表是包含大量數(shù)據(jù)值的一種結(jié)構(gòu)。事實(shí)數(shù)據(jù)表可能代表某次銀行交易,包含一個(gè)顧客的來(lái)訪次數(shù),并且這些數(shù)字信息可以匯總,以提供給有關(guān)單位作為歷史的數(shù)據(jù)。

每個(gè)數(shù)據(jù)倉(cāng)庫(kù)都包含一個(gè)或者多個(gè)事實(shí)數(shù)據(jù)表。事實(shí)數(shù)據(jù)表只能包含數(shù)字度量字段和使事實(shí)表與維度表中對(duì)應(yīng)項(xiàng)的相關(guān)索引字段.,該索引包含作為外鍵的所有相關(guān)性維度表的主鍵。

事實(shí)數(shù)據(jù)表中的“度量值”有兩中:一種是可以累計(jì)的度量值,另一種是非累計(jì)的度量值。用戶可以通過(guò)累計(jì)度量值獲得匯總信息。

維度表

用來(lái)描述事實(shí)表的某個(gè)重要方面,維度表中包含事實(shí)表中事實(shí)記錄的特性:有些特性提供描述性信息,有些特性指定如何匯總事實(shí)數(shù)據(jù)表數(shù)據(jù),以便為分析者提供有用的信息,維度表包含幫助匯總數(shù)據(jù)的特性的層次結(jié)構(gòu)

緩慢變化維

在實(shí)際情況下,維度的屬性并不是靜態(tài)的,它會(huì)隨著時(shí)間的流失發(fā)生緩慢的變化。處理方法:

1.新信息直接覆蓋舊信息

2.保存多條記錄,并添加字段加以區(qū)分(用y,n;0,1,2或用時(shí)間來(lái)區(qū)別新舊記錄)

3.保存多條記錄,并添加字段加以區(qū)分

4.另外建表保存歷史記錄.

5.混合模式

退化維

一般來(lái)說(shuō)事實(shí)表中的外鍵都對(duì)應(yīng)一個(gè)維表,維的信息主要存放在維表中。但是退化維僅僅是事實(shí)表中的一列,這個(gè)維的相關(guān)信息都在這一列中,沒(méi)有維表與之相關(guān)聯(lián)。比如:發(fā)票號(hào),序列號(hào)等等。

那么退化維有什么作用呢?

1.退化維具有普通維的各種操作,比如:上卷,切片,切塊等

2.(上卷匯總,下鉆明細(xì);切片,切塊:對(duì)二維數(shù)據(jù)進(jìn)行切片,三維數(shù)據(jù)進(jìn)行切塊,,可得到所需要的數(shù)據(jù))

3.如果存在退化維,那么在ETL的過(guò)程將會(huì)變得容易。它可以讓group by等操作變得更快

粒度:(granularity)

是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別,細(xì)化程度越高,粒度就越小。

鉆取:

首先從某一個(gè)匯總數(shù)據(jù)出發(fā),查看組成該數(shù)據(jù)的各個(gè)成員數(shù)據(jù)。

星形模型與雪花模型的區(qū)別?

1.星星的中心是一個(gè)大的事實(shí)表,發(fā)散出來(lái)的是維度表,每一個(gè)維度表用一個(gè)PK-FK連接到事實(shí)表,維度表之間彼此并不關(guān)聯(lián)。一個(gè)事實(shí)表又包括一些度量值和維度。

2.雪花模型通過(guò)規(guī)范維度表來(lái)減少冗余度,也就是說(shuō),維度表數(shù)據(jù)已經(jīng)被分組成一個(gè)個(gè)的表而不是使用一個(gè)大表。例如產(chǎn)品表被分成了產(chǎn)品大類和產(chǎn)品小類兩個(gè)表。盡管這樣做可以節(jié)省了空間,但是卻增加了維度表的數(shù)量和關(guān)聯(lián)的外鍵的個(gè)數(shù)。這就導(dǎo)致了更復(fù)雜的查詢并降低了數(shù)據(jù)庫(kù)的效率

維度建模(dimensional modeling):

是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的一種數(shù)據(jù)建模方法。按照事實(shí)表,維表來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市。這種方法最被人廣泛知曉的名字就是星型模式(Star-schema)。

什么叫查找表,為什么使用替代鍵?(其實(shí)目的和上面一樣,從基礎(chǔ)表到緩慢維度表的過(guò)程中的一種實(shí)現(xiàn)途徑)

替代鍵(alternate key)可以是數(shù)據(jù)表內(nèi)不作為主鍵的其他任何列,只要該鍵對(duì)該數(shù)據(jù)表唯一即可。換句話說(shuō),在唯一列內(nèi)不允許出現(xiàn)數(shù)據(jù)重復(fù)的現(xiàn)象。

數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目最重要或需要注意的是什么,以及如何處理?

數(shù)據(jù)質(zhì)量,主要是數(shù)據(jù)源數(shù)據(jù)質(zhì)量分析,數(shù)據(jù)清洗轉(zhuǎn)換,當(dāng)然也可以定量分析

數(shù)據(jù)倉(cāng)庫(kù)有兩個(gè)重要目的,一是數(shù)據(jù)集成,二是服務(wù)BI

數(shù)據(jù)準(zhǔn)確性是數(shù)據(jù)倉(cāng)庫(kù)的基本要求,而效率是項(xiàng)目事實(shí)的前提,數(shù)據(jù)質(zhì)量、運(yùn)行效率和擴(kuò)展性是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目設(shè)計(jì)、實(shí)施高明與否的三大標(biāo)志;

代理鍵:

在關(guān)系型數(shù)據(jù)庫(kù)設(shè)計(jì)中,是在當(dāng)資料表中的候選鍵都不適合當(dāng)主鍵時(shí),例如資料太長(zhǎng),或是意義層面太多,就會(huì)用一個(gè)attribute來(lái)當(dāng)代理主鍵,此主鍵可能是用流水號(hào),來(lái)代替可辨識(shí)唯一值的主鍵

在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域有一個(gè)概念叫Surrogate key,中文一般翻譯為“代理關(guān)鍵字”。代理關(guān)鍵字一般是指維度表中使用順序分配的整數(shù)值作為主鍵,也稱為“代理鍵”。代理關(guān)鍵字用于維度表和事實(shí)表的連接。可以避免通過(guò)主鍵的值就可以了解一些業(yè)務(wù)信息。

另一種來(lái)源:

1. (Dimension)

維度是用來(lái)反映業(yè)務(wù)的一類屬性,這類屬性的集合構(gòu)成一個(gè)維度。如、地理位置或產(chǎn)品,

2.粒度

粒度將直接決定所構(gòu)建倉(cāng)庫(kù)能夠提供決策支持的細(xì)節(jié)級(jí)別。粒度越高表示倉(cāng)庫(kù)中的較粗,反之,較細(xì)。粒度是與具體指標(biāo)相關(guān)的,具體表現(xiàn)在描述此指標(biāo)的某些可分層次維的維值上。例如,時(shí)間維度,時(shí)間可以分成年、季、月、周、日等。

3. 指標(biāo)(Measure)

指標(biāo)也稱關(guān)鍵性能指標(biāo)、事實(shí)或關(guān)鍵事務(wù)指標(biāo),是沿維度衡量商務(wù)信息的。每一個(gè)指標(biāo)代表了業(yè)務(wù)對(duì)象所固有的一個(gè)可供分析的屬性。指標(biāo)是典型的數(shù)量、容量或?qū)⑼ㄟ^(guò)同標(biāo)準(zhǔn)的比較查明的款項(xiàng)。這些數(shù)據(jù)點(diǎn)可用于商務(wù)性能的定量的比較。

4. 指標(biāo)組(Relation Measures)

實(shí)際上每一組用于分析的業(yè)務(wù)對(duì)象會(huì)有若干相互關(guān)聯(lián)的指標(biāo),如營(yíng)業(yè)額、納稅額。這些指標(biāo)之間存在計(jì)算關(guān)系,往往是作為一個(gè)整體用于分析的,這個(gè)整體稱之為指標(biāo)組。

5. 元數(shù)據(jù)(Metadata)

關(guān)于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)用于描述中的數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和。

6. 元(Metadata Repository)

一種提供數(shù)據(jù)詳細(xì)情況的詞典。這些詳細(xì)的信息包括數(shù)據(jù)源的目錄和它們相關(guān)的標(biāo)準(zhǔn)。該數(shù)據(jù)目錄描述的是數(shù)據(jù)捕捉和數(shù)據(jù)兩種環(huán)境中可用的數(shù)據(jù)。該目錄還應(yīng)說(shuō)明數(shù)據(jù)最后一次更新的時(shí)間和計(jì)劃將要更新的時(shí)間—最起碼,要說(shuō)明數(shù)據(jù)維護(hù)的調(diào)度。數(shù)據(jù)目錄還應(yīng)說(shuō)明數(shù)據(jù)的物理屬性;也就是說(shuō),數(shù)據(jù)是如何存儲(chǔ)的。數(shù)據(jù)目錄幫助數(shù)據(jù)弄清楚“從哪里”可獲得“什么樣”的數(shù)據(jù)。

7. 中央數(shù)據(jù)庫(kù)(Center Database)

數(shù)據(jù)倉(cāng)庫(kù)中用于存儲(chǔ)原始數(shù)據(jù)的存儲(chǔ)介質(zhì)。此處的原始數(shù)據(jù)指從業(yè)務(wù)系統(tǒng)中采集后經(jīng)過(guò)清洗、轉(zhuǎn)換的數(shù)據(jù)。

8. 指標(biāo)數(shù)據(jù)庫(kù)(Indicator Databases)

數(shù)據(jù)倉(cāng)庫(kù)中用于存放指標(biāo)數(shù)據(jù)的存儲(chǔ)介質(zhì)。指標(biāo)數(shù)據(jù)庫(kù)根據(jù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的使用對(duì)象劃分,通常分成多個(gè)。

9. 星形圖(Star-Schema)

是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序的最佳模式。它的命名是因其在物理上表現(xiàn)為中心實(shí)體,典型內(nèi)容包括指標(biāo)數(shù)據(jù)、輻射數(shù)據(jù),通常是有助于瀏覽和聚集指標(biāo)數(shù)據(jù)的維度。星形圖得到的結(jié)果常常是查詢式數(shù)據(jù)結(jié)構(gòu),能夠?yàn)榭焖夙憫?yīng)用戶的查詢要求提供最優(yōu)的數(shù)據(jù)結(jié)構(gòu)。星形圖還常常產(chǎn)生一種包含維度數(shù)據(jù)和指標(biāo)數(shù)據(jù)的兩層模型。

10.雪花圖(Snowflake-Schema)

指一種擴(kuò)展的星形圖。星形圖通常生成一個(gè)兩層結(jié)構(gòu),即只有維度和指標(biāo),雪花圖生成了附加層。實(shí)際數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)建設(shè)過(guò)程中,通常只擴(kuò)展三層:維度(維度實(shí)體)、指標(biāo)(指標(biāo)實(shí)體)和相關(guān)的描述數(shù)據(jù)(類目細(xì)節(jié)實(shí)體)超過(guò)三層的雪花圖模型在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中應(yīng)該避免。因?yàn)樗鼈冮_(kāi)始像更傾向于支持OLTP 應(yīng)用程序的規(guī)格化結(jié)構(gòu),而不是為數(shù)據(jù)倉(cāng)庫(kù)和OLAP應(yīng)用程序而優(yōu)化的非格式化結(jié)構(gòu)。

責(zé)任編輯:武曉燕 來(lái)源: 中國(guó)統(tǒng)計(jì)網(wǎng)
相關(guān)推薦

2018-07-24 09:28:18

存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)分層

2009-01-18 15:48:31

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)OLTP

2021-04-16 10:21:50

數(shù)據(jù)庫(kù)數(shù)據(jù)湖數(shù)據(jù)

2021-10-27 11:33:31

數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

2022-02-18 09:02:04

數(shù)據(jù)倉(cāng)庫(kù)治理

2018-07-13 16:10:21

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)

2019-06-06 14:08:37

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析數(shù)據(jù)報(bào)表

2018-03-15 08:50:46

Hive-數(shù)據(jù)存儲(chǔ)

2021-09-01 10:03:44

數(shù)據(jù)倉(cāng)庫(kù)云數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

2013-03-20 16:23:53

數(shù)據(jù)清洗

2021-11-30 08:11:19

數(shù)據(jù)倉(cāng)庫(kù)經(jīng)驗(yàn)

2022-11-29 17:16:57

2022-05-11 08:00:00

Lakehouse存儲(chǔ)數(shù)據(jù)湖

2017-06-27 10:08:29

數(shù)據(jù)倉(cāng)庫(kù)模型

2024-09-05 16:08:52

2024-03-19 13:45:27

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖大數(shù)據(jù)

2023-08-14 16:56:53

2017-02-28 09:21:56

HadoopHive數(shù)據(jù)倉(cāng)庫(kù)

2019-05-24 11:51:18

BI數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品亚洲91 | 成人av一区| 国产精品久久一区二区三区 | 欧美视频在线播放 | 国产精品一区久久久久 | 久久精品国产久精国产 | 国产成人精品免费视频大全最热 | 午夜不卡一区二区 | 国产乱码精品一区二区三区五月婷 | 日本高清中文字幕 | 免费成人毛片 | 一区二区三区四区免费在线观看 | 久久99这里只有精品 | 成人在线一区二区 | 日韩视频免费看 | 91亚洲免费 | 精品九九在线 | 国产午夜一级 | 亚洲一区视频在线 | 91视频一区二区三区 | 欧美成人第一页 | 丁香婷婷久久久综合精品国产 | 韩国精品一区二区三区 | 日韩中文字幕 | 欧美成人a∨高清免费观看 老司机午夜性大片 | 国产精品视频一区二区三 | 精品欧美一区二区三区久久久小说 | 少妇淫片aaaaa毛片叫床爽 | 亚洲国产成人久久综合一区,久久久国产99 | 精品一二三区 | 国产欧美精品一区二区 | 亚洲欧美视频 | 日本在线视频一区二区 | 成人精品一区 | 日韩一二区在线 | 国产一区二区a | 精品无码久久久久久国产 | 欧美 日本 国产 | 伊人网站| a精品视频 | 欧美a在线 |