成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)產(chǎn)品必備技術(shù)知識(shí):數(shù)據(jù)倉(cāng)庫(kù)入門,看這這一篇就夠了

大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)
對(duì)于準(zhǔn)備求職數(shù)據(jù)產(chǎn)品的童鞋來(lái)說(shuō),可能身邊沒(méi)有做數(shù)倉(cāng)開(kāi)發(fā)的朋友可以請(qǐng)教。自學(xué)吧,而那幾本經(jīng)典書籍里面又過(guò)于理論,看起真是生不如死,而且數(shù)據(jù)產(chǎn)品并不是數(shù)據(jù)開(kāi)發(fā),可能了解一些入門的常識(shí),有個(gè)大概的概念就可以了。我也一直零零散散的積累這方面的知識(shí),這兩天梳理了下,形成下文。

數(shù)據(jù)倉(cāng)庫(kù)可以算是數(shù)據(jù)產(chǎn)品必須要了解的技術(shù)知識(shí)了, 在一年前的數(shù)據(jù)產(chǎn)品求職分析中,其中技能要求這一項(xiàng)中,數(shù)據(jù)倉(cāng)庫(kù)可是占了一席之地的。

但是,對(duì)于準(zhǔn)備求職數(shù)據(jù)產(chǎn)品的童鞋來(lái)說(shuō),可能身邊沒(méi)有做數(shù)倉(cāng)開(kāi)發(fā)的朋友可以請(qǐng)教。自學(xué)吧,而那幾本經(jīng)典書籍里面又過(guò)于理論,看起真是生不如死,而且數(shù)據(jù)產(chǎn)品并不是數(shù)據(jù)開(kāi)發(fā),可能了解一些入門的常識(shí),有個(gè)大概的概念就可以了。

我也一直零零散散的積累這方面的知識(shí),這兩天梳理了下,形成下文,希望對(duì)大家有所幫助,非專業(yè)數(shù)倉(cāng)開(kāi)發(fā)人員,如有不準(zhǔn)確的地方,還望大家指正。

文章結(jié)構(gòu)

  • 一、數(shù)據(jù)倉(cāng)庫(kù)是什么
  • 二、數(shù)據(jù)倉(cāng)庫(kù)有什么特點(diǎn)
  • 三、為什么搭建數(shù)據(jù)倉(cāng)庫(kù)
  • 四、數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)
  • 五、ETL
  • 六、數(shù)據(jù)集市
  • 七、ODS
  • 八、元數(shù)據(jù)

一、數(shù)據(jù)倉(cāng)庫(kù)是什么

可以理解為:面向分析的存儲(chǔ)系統(tǒng)。

也就是說(shuō)數(shù)倉(cāng)是存數(shù)據(jù)的,企業(yè)的各種數(shù)據(jù)往里面塞,主要目的是為了有效分析數(shù)據(jù),后續(xù)會(huì)基于它產(chǎn)出供分析挖掘的數(shù)據(jù),或者數(shù)據(jù)應(yīng)用需要的數(shù)據(jù),如企業(yè)的分析性報(bào)告和各類報(bào)表,為企業(yè)的決策提供支持。

上面的意思先理解著,接下來(lái)從頭講起,先看關(guān)系型數(shù)據(jù)庫(kù),它可以被劃分為兩大基本類型:操作型數(shù)據(jù)庫(kù)和分析型數(shù)據(jù)庫(kù)。

1. 操作型數(shù)據(jù)庫(kù)

主要面向應(yīng)用,用于業(yè)務(wù)支撐,支持對(duì)實(shí)際業(yè)務(wù)的處理,也可以叫業(yè)務(wù)型數(shù)據(jù)庫(kù)。

可以理解為通常意義上的數(shù)據(jù)庫(kù)(后端開(kāi)發(fā)同學(xué)口中的經(jīng)常提到的就是這種)。

2. 分析型數(shù)據(jù)庫(kù)

主要面向數(shù)據(jù)分析,側(cè)重決策支持,作為公司的單獨(dú)數(shù)據(jù)存儲(chǔ),負(fù)責(zé)利用歷史數(shù)據(jù)對(duì)公司各主題域進(jìn)行統(tǒng)計(jì)分析。

由于分析型數(shù)據(jù)庫(kù)中的操作都是查詢,因此也就不需要嚴(yán)格滿足關(guān)系型數(shù)據(jù)庫(kù)一些設(shè)計(jì)規(guī)范,這樣的情況下再將它歸為數(shù)據(jù)庫(kù)不太合適,也容易不引起混淆,所以稱之為數(shù)據(jù)倉(cāng)庫(kù)。

這里可以說(shuō)一下,數(shù)據(jù)處理大致可以分成兩大類:OLTP(聯(lián)機(jī)事務(wù)處理)和OLAP(聯(lián)機(jī)分析處理)。

  • OLTP(聯(lián)機(jī)事務(wù)處理)就是操作型數(shù)據(jù)庫(kù)的主要應(yīng)用,更側(cè)重于基本的、日常的事務(wù)處理,包括數(shù)據(jù)的增刪改查。
  • OLAP(聯(lián)機(jī)分析處理)就是分析型數(shù)據(jù)庫(kù)的主要應(yīng)用,以多維度的方式分析數(shù)據(jù), 這個(gè)后續(xù)會(huì)整理。

二、數(shù)據(jù)倉(cāng)庫(kù)有什么特點(diǎn)

相對(duì)于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)有以下特點(diǎn)

(1)面向主題

數(shù)據(jù)倉(cāng)庫(kù)通過(guò)一個(gè)個(gè)主題域?qū)⒍鄠€(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)加載到一起,為了各個(gè)主題(如:用戶、訂單、商品等)進(jìn)行分析而建,操作型數(shù)據(jù)庫(kù)是為了支撐各種業(yè)務(wù)而建立。

(2)集成性

數(shù)據(jù)倉(cāng)庫(kù)會(huì)將不同源數(shù)據(jù)庫(kù)中的數(shù)據(jù)匯總到一起。

(3)歷史性

較之操作型數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是為企業(yè)數(shù)據(jù)分析而建立,所以數(shù)據(jù)被加載后一般情況下將被長(zhǎng)期保留,前者通常保存幾個(gè)月,后者可能幾年甚至幾十年。

(4)時(shí)變性

是指數(shù)據(jù)倉(cāng)庫(kù)包含來(lái)自其時(shí)間范圍不同時(shí)間段的數(shù)據(jù)快照,有了這些數(shù)據(jù)快照以后,用戶便可將其匯總,生成各歷史階段的數(shù)據(jù)分析報(bào)告。

(5)穩(wěn)定性

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般僅執(zhí)行查詢操作,很少會(huì)有刪除和更新。但是需定期加載和刷新數(shù)據(jù)。

三、為什么搭建數(shù)據(jù)倉(cāng)庫(kù)

簡(jiǎn)單來(lái)說(shuō),就是為了有效分析數(shù)據(jù) 。

你說(shuō)直接從業(yè)務(wù)數(shù)據(jù)庫(kù)中取數(shù)據(jù)來(lái)做分析?

也不是不可以,就是業(yè)務(wù)系統(tǒng)多,業(yè)務(wù)復(fù)雜時(shí),會(huì)發(fā)現(xiàn)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)臟亂,難以理解,缺少歷史,大規(guī)模查詢緩慢這些問(wèn)題。

業(yè)務(wù)到一定規(guī)模,大家需要面臨的問(wèn)題越來(lái)越復(fù)雜和深入,數(shù)據(jù)需求不再只是昨日的營(yíng)收,上月的uv這些,而是“28到45歲女性在社區(qū)的活躍度與公司策劃的專題內(nèi)容活動(dòng)的關(guān)系”這類精細(xì)化的分析,而從數(shù)據(jù)庫(kù)是很難取出這類數(shù)據(jù)的。

畢竟業(yè)務(wù)型數(shù)據(jù)庫(kù)是為了支撐業(yè)務(wù)設(shè)計(jì)的,不是為了查詢和分析數(shù)據(jù)。

四、數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)

用AXURE畫了個(gè)結(jié)構(gòu)圖,如下:簡(jiǎn)單來(lái)說(shuō),就是把各數(shù)據(jù)源的數(shù)據(jù)ETL到數(shù)倉(cāng)中,數(shù)倉(cāng)再對(duì)數(shù)據(jù)進(jìn)行集成和統(tǒng)計(jì),然后再輸出給各數(shù)據(jù)應(yīng)用,圖中涉及的模塊,接下來(lái)會(huì)分別介紹。

數(shù)據(jù)產(chǎn)品必備技術(shù)知識(shí):數(shù)據(jù)倉(cāng)庫(kù)入門,看這這一篇就夠了

五、ETL

ETL分別代表:抽取extraction、轉(zhuǎn)換transformation、加載load。

(1)抽取(Extract)

從數(shù)據(jù)來(lái)源提取指定數(shù)據(jù),數(shù)據(jù)是需要指定的,不是所有的數(shù)據(jù)都要抽取過(guò)來(lái), 某些源數(shù)據(jù)對(duì)于分析而言沒(méi)有價(jià)值,或者其可能產(chǎn)生的價(jià)值,遠(yuǎn)低于儲(chǔ)存這些數(shù)據(jù)所需要的數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)和性能上的成本,就不會(huì)抽取了。

(2)轉(zhuǎn)換(Transform)

將數(shù)據(jù)轉(zhuǎn)換為指定格式并進(jìn)行數(shù)據(jù)清洗保證數(shù)據(jù)質(zhì)量。

數(shù)據(jù)轉(zhuǎn)換,如包括編碼轉(zhuǎn)換(m/f->男/女),字段轉(zhuǎn)換(balance->bal),度量單位的轉(zhuǎn)換(cm->m),數(shù)據(jù)粒度的轉(zhuǎn)換。業(yè)務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)非常明細(xì)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是用分析的,不需要非常明細(xì),會(huì)將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合。

數(shù)據(jù)清洗,如會(huì)對(duì)不完整數(shù)據(jù),錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù)等臟數(shù)據(jù)進(jìn)行清洗。

(3)加載(Load)

將轉(zhuǎn)換過(guò)后的數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù),加載可分為兩種:

  • 全量加載:一次對(duì)全部數(shù)據(jù)進(jìn)行加載。
  • 增量加載:一般***需要全量加載,但是在第二次周期或者第三次周期的時(shí)候仍然全量加載的話,耗費(fèi)了極大的物理和時(shí)間資源。有可能部分?jǐn)?shù)據(jù)源并未發(fā)生變化,而有的數(shù)據(jù)源可能只是增加了少量的數(shù)據(jù)。 對(duì)數(shù)據(jù)源中的數(shù)據(jù)只考慮新修改的記錄和新插入的記錄就是增量加載。

ETL很可能是數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)中最耗時(shí)最耗資源的一個(gè)環(huán)節(jié),因?yàn)樵摥h(huán)節(jié)要整理各大業(yè)務(wù)系統(tǒng)中雜亂無(wú)章的數(shù)據(jù),并協(xié)調(diào)元數(shù)據(jù)上的差別,工作量很大,但也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié),對(duì)數(shù)據(jù)倉(cāng)庫(kù)的后續(xù)環(huán)節(jié)影響比較大。

六、數(shù)據(jù)集市

數(shù)據(jù)集市(DM)可以理解為是一種“小型數(shù)據(jù)倉(cāng)庫(kù)”,一般面向部門、單個(gè)主題或特定應(yīng)用,且之間互不影響。

可以分為以下兩種:

  • 獨(dú)立數(shù)據(jù)集市:有自己的源數(shù)據(jù)庫(kù)和ETL架構(gòu);
  • 非獨(dú)立數(shù)據(jù)集市:沒(méi)有自己的源數(shù)據(jù),它的數(shù)據(jù)來(lái)自數(shù)據(jù)倉(cāng)庫(kù)。當(dāng)用戶或者應(yīng)用程序不需要/不必要/不允許訪問(wèn)整個(gè)數(shù)倉(cāng)數(shù)據(jù)時(shí),就可以直接訪問(wèn)數(shù)據(jù)集市,為用戶提供一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的“子集”。

數(shù)據(jù)產(chǎn)品必備技術(shù)知識(shí):數(shù)據(jù)倉(cāng)庫(kù)入門,看這這一篇就夠了

簡(jiǎn)單理解就是一個(gè)結(jié)構(gòu)完全和數(shù)倉(cāng)一樣,有ETL,然后自己存儲(chǔ)和計(jì)算;另一種就是直接用數(shù)倉(cāng)處理過(guò)的數(shù)據(jù),再次進(jìn)行組合集成。可能后面結(jié)合數(shù)據(jù)分層更好理解。

七、ODS

ODS:全稱是Operational Data Store,操作數(shù)據(jù)存儲(chǔ)。

存儲(chǔ)各大業(yè)務(wù)型數(shù)據(jù)庫(kù)ETL后的數(shù)據(jù),是最接近數(shù)據(jù)源中數(shù)據(jù)的一層,主要目的是為了數(shù)據(jù)集中。

總體上大多是按照源業(yè)務(wù)系統(tǒng)的分類方式而分類的,因此會(huì)具有鮮明的業(yè)務(wù)數(shù)據(jù)庫(kù)的特征,甚至還具有一定的關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)范式的組織形式。

但是不等同于原始數(shù)據(jù),數(shù)據(jù)格式按照數(shù)倉(cāng)要求統(tǒng)一,并經(jīng)過(guò)簡(jiǎn)單的清洗。

八、元數(shù)據(jù)

元數(shù)據(jù)(Meta Date),即數(shù)據(jù)的數(shù)據(jù),元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。

技術(shù)元數(shù)據(jù)為開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的IT 人員使用,描述了與數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問(wèn)權(quán)限等。

而業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)、數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉(cāng)庫(kù)中哪些數(shù)據(jù)是可用的以及如何使用。

寫到這里,發(fā)現(xiàn)內(nèi)容已經(jīng)很多了,像數(shù)倉(cāng)建模、數(shù)據(jù)分層、olap、BI這些留到下篇再講吧。

提一下數(shù)據(jù)分析報(bào)告,去年爬了3份數(shù)據(jù),本來(lái)準(zhǔn)備寫三篇數(shù)據(jù)報(bào)告,結(jié)果寫了一篇之后,就再也沒(méi)有下文了,前段時(shí)間又重新爬了份,準(zhǔn)備至少再寫一篇,雖然現(xiàn)在還沒(méi)開(kāi)始動(dòng)筆。

責(zé)任編輯:未麗燕 來(lái)源: 簡(jiǎn)書
相關(guān)推薦

2023-09-11 08:13:03

分布式跟蹤工具

2022-05-19 08:28:19

索引數(shù)據(jù)庫(kù)

2020-10-18 07:32:06

SD-WAN網(wǎng)絡(luò)傳統(tǒng)廣域網(wǎng)

2021-05-14 23:31:50

大數(shù)據(jù)計(jì)算機(jī)開(kāi)發(fā)

2020-02-18 16:20:03

Redis ANSI C語(yǔ)言日志型

2022-06-20 09:01:23

Git插件項(xiàng)目

2023-02-10 09:04:27

2022-08-01 11:33:09

用戶分析標(biāo)簽策略

2021-04-08 07:37:39

隊(duì)列數(shù)據(jù)結(jié)構(gòu)算法

2018-11-14 11:57:28

2023-10-30 07:12:04

2020-07-03 08:21:57

Java集合框架

2024-09-23 08:00:00

消息隊(duì)列MQ分布式系統(tǒng)

2019-05-14 09:31:16

架構(gòu)整潔軟件編程范式

2023-10-17 08:15:28

API前后端分離

2018-05-22 08:24:50

PythonPyMongoMongoDB

2017-03-11 22:19:09

深度學(xué)習(xí)

2022-04-07 10:39:21

反射Java安全

2023-11-18 09:30:42

模型AI

2023-02-16 13:42:00

MongoDB數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 综合激情网| 亚洲精品日韩在线 | 91精品久久久久久久久久 | 亚洲欧美一区二区三区视频 | 国产成人一区在线 | 国产精品1区 | 日韩欧美三级电影 | 狠狠干天天干 | 午夜精品一区二区三区三上悠亚 | 国产精品欧美一区二区三区不卡 | 俺去俺来也www色官网cms | 国产欧美一区二区三区在线看 | 午夜爽爽爽男女免费观看 | 超碰在线97国产 | 在线视频 亚洲 | 久久亚 | 黄色毛片在线看 | 国产精品久久久久久久久久久久久久 | 红桃视频一区二区三区免费 | 99视频网 | 日日干天天操 | 色综合九九 | 美女久久 | 国产精品视频999 | 国产在线h | av在线播放国产 | 亚洲日韩欧美一区二区在线 | 久久综合九色综合欧美狠狠 | 国产人成精品一区二区三 | 欧美一区二区三区在线观看视频 | 国产成人在线视频播放 | 国产精品a久久久久 | 欧美激情在线播放 | 欧美美女爱爱 | 精品国产伦一区二区三区观看说明 | 色香蕉在线| 九九av| 日韩福利电影 | 亚洲一区久久久 | www.日日夜夜 | 成人国产一区二区三区精品麻豆 |