成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據分析必不可少之數據倉庫!

大數據 數據倉庫
數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持(Decision Support)。數據倉庫本身并不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源于外部,并且開放給外部應用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。

數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持(Decision Support)。數據倉庫本身并不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源于外部,并且開放給外部應用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。

01 數據倉庫的特點

  1. 面向主題的,按照一定的主題進行組織,主題是指用戶使用數據倉庫進行決策時所關心的重點方面,后面會重點舉例說明。
  2. 數據倉庫是集成的,數據倉庫的數據有來自于分散的操作型數據,將所需數據從原來的數據中抽取出來,進行加工和集成之后,進入數據倉庫。
  3. 數據倉庫是不可更新的,數據倉庫主要是為決策分析供數據,所涉及的操作主要是數據的查詢;

02 數據倉庫有如下要求

  1. 效率足夠高:數據倉庫的分析數據一般分為日、周、月、季、年等,可以看出,日為周期的數據要求的效率***。
  2. 數據質量:由于數據倉庫流程通常分為多個步驟,包括數據清洗,轉換,裝載等,那么由于臟數據會導致數據失真,就可能導致做出錯誤的決策。
  3. 可擴展性:主要體現在數據建模的合理性。

數據倉庫的基本架構主要包含的是數據流入流出的過程,可以分為三層——數據獲取、數據倉庫、數據應用:

 

數據分析必不可少之數據倉庫!

數據倉庫的結構

數據倉庫從各數據源獲取數據及在數據倉庫內的數據轉換和流動都可以認為是ETL(抽取Extra, 轉化Transfer, 裝載Load)的過程。ETL是數據倉庫的流水線,也可以認為是數據倉庫的血液,它維系著數據倉庫中數據的新陳代謝,而數據倉庫日常的管理和維護工作的大部分精力就是保持ETL的正常和穩定。

03 數據倉庫

1.數據獲取

對于網站數據倉庫而言,點擊流日志是一塊主要的數據來源,它是網站分析的基礎數據;當然網站的數據庫數據也并不可少,其記錄這網站運營的數據及各種用戶操作的結果,其他是網站內外部可能其它各類對于公司決策有用的數據。

2.數據倉庫

2.1數據模型:

數據模型是抽象描述現實世界的一種工具和方法,是通過抽象的實體及實體之間聯系的形式,來表示現實世界中事務的相互關系的一種映射。在這里,數據模型表現的抽象的是實體和實體之間的關系,通過對實體和實體之間關系的定義和描述,來表達實際的業務中具體的業務關系。

數據倉庫模型是數據模型中針對特定的數據倉庫應用系統的一種特定的數據模型

 

數據分析必不可少之數據倉庫!

數據模型的層次劃分

通過上圖,我們能夠很容易的看出在整個數據倉庫的建模過程中,我們需要經歷一般四個過程:

  • 業務建模:生成業務模型,主要解決業務層面的分解和程序化。
  • 領域建模:生成領域模型,主要是對業務模型進行抽象處理,生成領域概念模型。
  • 邏輯建模:生成邏輯模型,主要是將領域模型的概念實體以及實體之間的關系進行數據庫層次的邏輯化。
  • 物理建模:生成物理模型,主要解決,邏輯模型針對不同關系型數據庫的物理化以及性能等一些具體的技術問題。

因此,在整個數據倉庫的模型的設計和架構中,既涉及到業務知識,也涉及到了具體的技術,我們既需要了解豐富的行業經驗,同時,也需要一定的信息技術來幫助我們實現我們的數據模型,最重要的是,我們還需要一個非常適用的方法論,來指導我們自己針對我們的業務進行抽象,處理,生成各個階段的模型。

2.2數據主題:

 

數據分析必不可少之數據倉庫!

數據主題

數據模型的建設,維度的選擇,是為了滿足數據主題的需求。數據主題通常就是業務需求的提煉。

2.3數據報表:

報表幾乎是每個數據倉庫的必不可少的一類數據應用,將聚合數據和多維分析數據展示到報表,提供了最為簡單和直觀的數據。

這里的數據匯總指的是基于特定需求的簡單匯總(基于多維數據的聚合體現在多維數據模型中),簡單匯總可以是網站的總Pageviews、Visits、Unique Visitors等匯總數據,也可以是Avg. time on page、Avg. time on site等平均數據,這些數據可以直接地展示于報表上。

 

數據分析必不可少之數據倉庫!

數據報表示例

2.4數據集市和開放API

數據集市(Data Mart) ,也叫數據市場,可以理解為字段非常多的寬表,比如銷售表,除了包含訂單和金額等必需的字段,還包含可能使用的產品信息集合、用戶信息集合、甚至銷售人員的信息,是數據倉庫的核心組成部分。

  1. 提升數據準確性:因為建立面向主題的數據表之后,不用再根據需求的不同,建立不同的結果表,自然發生錯誤的幾率會大大降低
  2. 提升效率:由于是面向主題的,所以需要的任何數據都可以從數據集市表直接簡單獲取。

開放API,指對外開放的查詢等接口。

數據質量中心:

元數據管理

元數據(Meta Date),其實應該叫做解釋性數據,或者數據字典,即數據的數據。主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及ETL的任務運行狀態。一般會通過元數據資料庫(Metadata Repository)來統一地存儲和管理元數據,其主要目的是使數據倉庫的設計、部署、操作和管理能達成協同和一致。

責任編輯:未麗燕 來源: 簡書
相關推薦

2016-11-08 09:16:54

數據倉庫優化

2013-08-26 10:10:23

2023-08-23 15:33:15

數據倉庫數據分析

2023-09-05 16:30:53

數據倉庫數據分析

2011-03-21 14:08:57

2017-04-06 22:15:07

數據分析數據存儲數據倉庫

2020-01-03 09:40:13

大數據數據倉庫分層

2023-08-22 14:20:21

2011-04-14 14:28:53

數據倉庫數據分析

2018-01-09 15:51:05

數據科學大數據工程師

2022-03-14 14:36:31

大數據數據分析急速

2018-03-20 09:36:57

數據倉庫數據存儲知識

2018-01-10 22:31:07

機器學習開源開發

2013-07-24 09:22:59

BYOA自備應用程序云應用

2021-03-21 22:32:23

5G網絡安全網絡攻擊

2014-12-01 15:18:31

虛擬機DockerLinux

2020-04-29 16:49:33

機器學習人工智能計算機

2020-06-22 14:09:24

數據中心遷移基礎架構

2021-10-27 11:33:31

數據倉庫架構

2022-02-18 09:02:04

數據倉庫治理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 69性欧美高清影院 | 91久久精品国产免费一区 | 中文在线一区二区 | 日本一区二区三区四区 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | 国产精品美女www爽爽爽视频 | 91精品国产乱码久久久 | 国产aⅴ精品 | 亚洲毛片在线 | 亚洲精品国产综合区久久久久久久 | 天天草av | 精品一区av | 视频一二三区 | 国产线视频精品免费观看视频 | 中文字幕亚洲精品 | 久久精品一区二区视频 | www.色婷婷 | 成人午夜性成交 | 国产精品久久精品 | 成人一级视频在线观看 | 91视频进入 | 91欧美激情一区二区三区成人 | 国产一区二区在线视频 | 欧美最猛性xxxxx亚洲精品 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 国产一区精品在线 | www.com久久久 | 国产精品夜夜春夜夜爽久久电影 | 亚洲劲爆av | 日本亚洲一区 | 国产精品一区二区在线 | 国产成人精品综合 | 久久久久黄色 | 中国一级特黄视频 | 亚洲成人免费视频在线 | 欧美国产一区二区 | 国产精品成人一区二区三区夜夜夜 | 欧美一区二区三区在线看 | 777zyz色资源站在线观看 | 粉嫩粉嫩芽的虎白女18在线视频 | 精品国产一区二区三区久久久久久 |