成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

漫談數據倉庫之拉鏈表(原理、設計以及在Hive中的實現)

大數據 數據倉庫
本文將會談一談在數據倉庫中拉鏈表相關的內容,包括它的原理、設計、以及在我們大數據場景下的實現方式。

0x00 前言

本文將會談一談在數據倉庫中拉鏈表相關的內容,包括它的原理、設計、以及在我們大數據場景下的實現方式。

[[191222]]

全文由下面幾個部分組成:

  1. 先分享一下拉鏈表的用途、什么是拉鏈表。
  2. 通過一些小的使用場景來對拉鏈表做近一步的闡釋,以及拉鏈表和常用的切片表的區別。
  3. 舉一個具體的應用場景,來設計并實現一份拉鏈表,***并通過一些例子說明如何使用我們設計的這張表(因為現在Hive的大規模使用,我們會以Hive場景下的設計為例)。
  4. 分析一下拉鏈表的優缺點,并對前面的提到的一些內容進行補充說明,比如說拉鏈表和流水表的區別。

0x01 什么是拉鏈表

拉鏈表是針對數據倉庫設計中表存儲數據的方式而定義的,顧名思義,所謂拉鏈,就是記錄歷史。記錄一個事物從開始,一直到當前狀態的所有變化的信息。

我們先看一個示例,這就是一張拉鏈表,存儲的是用戶的最基本信息以及每條記錄的生命周期。我們可以使用這張表拿到***的當天的***數據以及之前的歷史數據。

我們暫且不對這張表做細致的講解,后文會專門來闡述怎么來設計、實現和使用它。

拉鏈表的使用場景

在數據倉庫的數據模型設計過程中,經常會遇到下面這種表的設計:

  1. 有一些表的數據量很大,比如一張用戶表,大約10億條記錄,50個字段,這種表,即使使用ORC壓縮,單張表的存儲也會超過100G,在HDFS使用雙備份或者三備份的話就更大一些。
  2. 表中的部分字段會被update更新操作,如用戶聯系方式,產品的描述信息,訂單的狀態等等。
  3. 需要查看某一個時間點或者時間段的歷史快照信息,比如,查看某一個訂單在歷史某一個時間點的狀態。
  4. 表中的記錄變化的比例和頻率不是很大,比如,總共有10億的用戶,每天新增和發生變化的有200萬左右,變化的比例占的很小。

那么對于這種表我該如何設計呢?下面有幾種方案可選:

  1. 方案一:每天只留***的一份,比如我們每天用Sqoop抽取***的一份全量數據到Hive中。
  2. 方案二:每天保留一份全量的切片數據。
  3. 方案三:使用拉鏈表。

為什么使用拉鏈表

現在我們對前面提到的三種進行逐個的分析。

方案一

這種方案就不用多說了,實現起來很簡單,每天drop掉前一天的數據,重新抽一份***的。

優點很明顯,節省空間,一些普通的使用也很方便,不用在選擇表的時候加一個時間分區什么的。

缺點同樣明顯,沒有歷史數據,先翻翻舊賬只能通過其它方式,比如從流水表里面抽。

方案二

每天一份全量的切片是一種比較穩妥的方案,而且歷史數據也在。

缺點就是存儲空間占用量太大太大了,如果對這邊表每天都保留一份全量,那么每次全量中會保存很多不變的信息,對存儲是極大的浪費,這點我感觸還是很深的……

當然我們也可以做一些取舍,比如只保留近一個月的數據?但是,需求是無恥的,數據的生命周期不是我們能完全左右的。

拉鏈表

拉鏈表在使用上基本兼顧了我們的需求。

首先它在空間上做了一個取舍,雖說不像方案一那樣占用量那么小,但是它每日的增量可能只有方案二的千分之一甚至是萬分之一。

其實它能滿足方案二所能滿足的需求,既能獲取***的數據,也能添加篩選條件也獲取歷史的數據。

所以我們還是很有必要來使用拉鏈表的。

0x02 拉鏈表的設計和實現

如何設計一張拉鏈表

下面我們來舉個栗子詳細看一下拉鏈表。

我們先看一下在Mysql關系型數據庫里的user表中信息變化。

在2017-01-01這一天表中的數據是:

在2017-01-02這一天表中的數據是, 用戶002和004資料進行了修改,005是新增用戶:

在2017-01-03這一天表中的數據是, 用戶004和005資料進行了修改,006是新增用戶:

如果在數據倉庫中設計成歷史拉鏈表保存該表,則會有下面這樣一張表,這是***一天(即2017-01-03)的數據:

說明

  • t_start_date表示該條記錄的生命周期開始時間,t_end_date表示該條記錄的生命周期結束時間。
  • t_end_date = ‘9999-12-31’表示該條記錄目前處于有效狀態。
  • 如果查詢當前所有有效的記錄,則select * from user where t_end_date = ‘9999-12-31’。
  • 如果查詢2017-01-02的歷史快照,則select from user where t_start_date <= ‘2017-01-02’ and t_end_date >= ‘2017-01-02’。(*此處要好好理解,是拉鏈表比較重要的一塊。**)

在Hive中實現拉鏈表

在現在的大數據場景下,大部分的公司都會選擇以Hdfs和Hive為主的數據倉庫架構。目前的Hdfs版本來講,其文件系統中的文件是不能做改變的,也就是說Hive的表智能進行刪除和添加操作,而不能進行update。基于這個前提,我們來實現拉鏈表。

還是以上面的用戶表為例,我們要實現用戶的拉鏈表。在實現它之前,我們需要先確定一下我們有哪些數據源可以用。

  1. 我們需要一張ODS層的用戶全量表。至少需要用它來初始化。
  2. 每日的用戶更新表。

而且我們要確定拉鏈表的時間粒度,比如說拉鏈表每天只取一個狀態,也就是說如果一天有3個狀態變更,我們只取***一個狀態,這種天粒度的表其實已經能解決大部分的問題了。

另外,補充一下每日的用戶更新表該怎么獲取,據筆者的經驗,有3種方式拿到或者間接拿到每日的用戶增量,因為它比較重要,所以詳細說明:

  1. 我們可以監聽Mysql數據的變化,比如說用Canal,***合并每日的變化,獲取到***的一個狀態。
  2. 假設我們每天都會獲得一份切片數據,我們可以通過取兩天切片數據的不同來作為每日更新表,這種情況下我們可以對所有的字段先進行concat,再取md5,這樣就ok了。
  3. 流水表!有每日的變更流水表。

ods層的user表

現在我們來看一下我們ods層的用戶資料切片表的結構:

  1. CREATE EXTERNAL TABLE ods.user ( 
  2.   user_num STRING COMMENT '用戶編號'
  3.   mobile STRING COMMENT '手機號碼'
  4.   reg_date STRING COMMENT '注冊日期' 
  5. COMMENT '用戶資料表' 
  6. PARTITIONED BY (dt string) 
  7. ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 
  8. STORED AS ORC 
  9. LOCATION '/ods/user'

ods層的user_update表

然后我們還需要一張用戶每日更新表,前面已經分析過該如果得到這張表,現在我們假設它已經存在。

  1. CREATE EXTERNAL TABLE ods.user_update ( 
  2.   user_num STRING COMMENT '用戶編號'
  3.   mobile STRING COMMENT '手機號碼'
  4.   reg_date STRING COMMENT '注冊日期' 
  5. COMMENT '每日用戶資料更新表' 
  6. PARTITIONED BY (dt string) 
  7. ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 
  8. STORED AS ORC 
  9. LOCATION '/ods/user_update'

拉鏈表

現在我們創建一張拉鏈表:

  1. CREATE EXTERNAL TABLE dws.user_his ( 
  2.   user_num STRING COMMENT '用戶編號'
  3.   mobile STRING COMMENT '手機號碼'
  4.   reg_date STRING COMMENT '用戶編號'
  5.   t_start_date , 
  6.   t_end_date 
  7. COMMENT '用戶資料拉鏈表' 
  8. ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' 
  9. STORED AS ORC 
  10. LOCATION '/dws/user_his'

實現sql語句

然后初始化的sql就不寫了,其實就相當于是拿一天的ods層用戶表過來就行,我們寫一下每日的更新語句。

現在我們假設我們已經已經初始化了2017-01-01的日期,然后需要更新2017-01-02那一天的數據,我們有了下面的Sql。

然后把兩個日期設置為變量就可以了。

  1. INSERT OVERWRITE TABLE dws.user_his 
  2. SELECT * FROM 
  3.     SELECT A.user_num, 
  4.            A.mobile, 
  5.            A.reg_date, 
  6.            A.t_start_time, 
  7.            CASE 
  8.                 WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL THEN '2017-01-01' 
  9.                 ELSE A.t_end_time 
  10.            END AS t_end_time 
  11.     FROM dws.user_his AS A 
  12.     LEFT JOIN ods.user_update AS B 
  13.     ON A.user_num = B.user_num 
  14. UNION 
  15.     SELECT C.user_num, 
  16.            C.mobile, 
  17.            C.reg_date, 
  18.            '2017-01-02' AS t_start_time, 
  19.            '9999-12-31' AS t_end_time 
  20.     FROM ods.user_update AS C 
  21. AS T 

0x03 補充

好了,我們分析了拉鏈表的原理、設計思路、并且在Hive環境下實現了一份拉鏈表,下面對拉鏈表做一些小的補充。

拉鏈表和流水表

流水表存放的是一個用戶的變更記錄,比如在一張流水表中,一天的數據中,會存放一個用戶的每條修改記錄,但是在拉鏈表中只有一條記錄。

這是拉鏈表設計時需要注意的一個粒度問題。我們當然也可以設置的粒度更小一些,一般按天就足夠。

查詢性能

拉鏈表當然也會遇到查詢性能的問題,比如說我們存放了5年的拉鏈數據,那么這張表勢必會比較大,當查詢的時候性能就比較低了,個人認為兩個思路來解決:

  1. 在一些查詢引擎中,我們對start_date和end_date做索引,這樣能提高不少性能。
  2. 保留部分歷史數據,比如說我們一張表里面存放全量的拉鏈表數據,然后再對外暴露一張只提供近3個月數據的拉鏈表。

0xFF 總結

我們在這篇文章里面詳細地分享了一下和拉鏈表相關的知識點,但是仍然會有一會遺漏。歡迎交流。

在后面的使用中又有了一些心得,補充進來:

  1. 使用拉鏈表的時候可以不加t_end_date,即失效日期,但是加上之后,能優化很多查詢。
  2. 可以加上當前行狀態標識,能快速定位到當前狀態。
  3. 在拉鏈表的設計中可以加一些內容,因為我們每天保存一個狀態,如果我們在這個狀態里面加一個字段,比如如當天修改次數,那么拉鏈表的作用就會更大。
責任編輯:武曉燕 來源: 36大數據
相關推薦

2017-10-20 12:59:05

數據分層數據建設數據倉庫

2021-09-01 10:03:44

數據倉庫云數據倉庫數據庫

2021-01-08 05:27:49

數據庫拉鏈表存儲

2016-12-21 12:46:47

數據倉庫SQLHive

2021-04-15 07:40:44

數據倉庫Hive環境搭建

2011-05-13 14:17:27

智能數據倉庫

2013-03-20 16:23:53

數據清洗

2020-01-03 09:40:13

大數據數據倉庫分層

2009-01-18 15:48:31

數據倉庫數據存儲OLTP

2017-11-24 17:20:37

數據庫數據倉庫讀寫分離

2011-07-15 10:28:18

OLTP數據倉庫

2023-12-01 14:55:32

數據網格數據湖

2023-08-14 16:56:53

2022-12-13 09:54:52

數據倉庫

2021-10-27 11:33:31

數據倉庫架構

2022-02-18 09:02:04

數據倉庫治理

2017-02-28 09:21:56

HadoopHive數據倉庫

2017-03-16 20:00:17

Kafka設計原理達觀產品

2018-03-15 08:50:46

Hive-數據存儲

2018-03-20 09:36:57

數據倉庫數據存儲知識
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产黄色一级片 | 国产精品国色综合久久 | 日韩在线不卡视频 | 国产伦精品一区二区三区精品视频 | 国产在线精品一区 | 自拍偷拍一区二区三区 | 国产精品国产精品国产专区不片 | 日韩成人一区 | 男人的天堂久久 | 日韩免费在线视频 | 欧美天堂 | 亚洲精品在线国产 | 老外几下就让我高潮了 | 国产精品久久99 | 亚洲黄色网址视频 | 黄色网址在线免费观看 | jlzzjlzz欧美大全 | 一级看片免费视频囗交动图 | 一区二区三区在线看 | 自拍偷拍一区二区三区 | 日韩成人精品一区二区三区 | 成在线人视频免费视频 | 99色在线| 在线国产一区二区 | 国产目拍亚洲精品99久久精品 | 亚洲视频免费观看 | 欧美日韩一区不卡 | 亚洲精品黑人 | 国内精品久久久久 | 草草视频在线观看 | 国产亚洲精品精品国产亚洲综合 | 国产精品一区2区 | 国产精品一区二区久久 | 一区二区三区av | 国产精品久久久久久久久久免费看 | 欧美黑人体内she精在线观看 | 精品久久久久久久久久久久久久 | 日韩精品一区二区三区在线观看 | 国产精品精品视频一区二区三区 | 毛片一级电影 | 免费av直接看 |