成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hive實踐分享之存儲和壓縮的坑

存儲 存儲軟件 大數(shù)據(jù)
在學習大數(shù)據(jù)技術的過程中,HIVE是非常重要的技術之一,但我們在項目上經(jīng)常會遇到一些存儲和壓縮的坑,本文通過科多大數(shù)據(jù)的武老師整理,分享給大家。

 在學習大數(shù)據(jù)技術的過程中,HIVE是非常重要的技術之一,但我們在項目上經(jīng)常會遇到一些存儲和壓縮的坑,本文通過科多大數(shù)據(jù)的武老師整理,分享給大家。

大家都知道,由于集群資源有限,我們一般都會針對數(shù)據(jù)文件的「存儲結構」和「壓縮形式」進行配置優(yōu)化。在我實際查看以后,發(fā)現(xiàn)集群的文件存儲格式為Parquet,一種列式存儲引擎,類似的還有ORC。而文件的壓縮形式為Snappy。具體的操作形式如下:

① 創(chuàng)建Parquet結構的表(Hive 0.13 and later):

  1. CREATE TABLE CRM.DEMO(A INT) STORED AS PARQUET ; 

② 確認表的文件存儲格式:

  1. desc formatted crm.demo; 

結果輸出如下

  1. # Storage Information              
  2.  
  3. SerDe Library:          org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe       
  4.  
  5. InputFormat:                 org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat      
  6.  
  7. OutputFormat:               org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat  

③ 創(chuàng)建Snappy壓縮格式的Parquet結構的表(待考察):

  1. ALTER TABLE crm.demo SET TBLPROPERTIES ('parquet.compression'='SNAPPY') ; 

或,寫入時

  1. SET parquet.compression=SNAPPY ; 

回到最初的問題,如果是按Snappy壓縮的格式,這份用戶行為數(shù)據(jù)沒辦法分析了,因此有兩種辦法去解決:

① 安裝Snappy的解壓工具

可自行百度,由于沒有權限,所以這條路行不通;

② 更改數(shù)據(jù)的壓縮格式可以

最初我試了一下更改Parquet格式表的壓縮格式,但是沒有用!因為我最后是需要將查詢數(shù)據(jù)導出到本地文件系統(tǒng),如下語句所示:

  1. insert overwrite local directory '/home/etl/tmp/data' 
  2. select * 
  3. from crm.demo 

所以,通過這樣的形式得到的數(shù)據(jù),壓縮格式依然是. Snappy。因此,這里就需要配置Hive執(zhí)行過程中的中間數(shù)據(jù)和最終數(shù)據(jù)的壓縮格式。

如MapReduce的shuffle階段對mapper產(chǎn)生的中間結果數(shù)據(jù)壓縮:

  1. hive> set mapred.map.output.compression.codec;  
  2. mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec 

如對最終生成的Hive表的數(shù)據(jù)壓縮:

  1. hive> set mapred.output.compression.codec;  
  2. mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec 

這里,我們要設置結果表數(shù)據(jù)的壓縮格式,語句如下:

  1. set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 

最終的結果就是 .gz 的壓縮格式

  1. -rw-r--r-- 1 etl etl 342094 May 10 11:13 000000_0.gz 

最后,我們直接下載到電腦本地,直接解壓就可以通過Excel分析用戶行為路徑數(shù)據(jù)了。

總結:從Hive應用層的角度來說,關于數(shù)據(jù)文件的「存儲結構」和「壓縮形式」,這兩個點我們不需要關心,只是在導出數(shù)據(jù)的時候需要結合文件大小,以及數(shù)據(jù)類型去設置合適的壓縮格式。不過從Hive底層維護的角度來說,涉及到各種各樣的「存儲結構」和「壓縮形式」,都需要開發(fā)者去研究和調整,這樣才能保證集群上的文件在「時間」和「空間」上相對平衡。

責任編輯:武曉燕 來源: 成都科多大數(shù)據(jù)
相關推薦

2023-05-15 08:24:46

2021-02-22 17:00:31

Service Mes微服務開發(fā)

2020-03-17 09:21:20

MariaDBSpider存儲

2018-06-07 16:33:31

大數(shù)據(jù)冷熱數(shù)據(jù)存儲平臺

2018-12-25 09:26:28

2022-08-10 13:54:40

云存儲存儲私有云

2024-11-04 15:15:00

AI模型

2018-02-24 10:58:34

存儲DASNAS

2025-06-06 02:00:00

2024-08-13 08:48:50

2015-08-10 14:11:48

亞馬遜AWS中國Amazon S3

2014-01-09 11:09:52

手游創(chuàng)業(yè)運營立項

2018-08-23 11:06:15

重刪壓縮存儲

2024-02-27 07:44:20

2023-10-07 16:20:34

JavaAPI

2018-05-04 14:00:24

2021-07-28 14:37:57

WKWebviewh5網(wǎng)絡

2023-07-13 11:03:12

2009-04-09 19:18:44

云存儲存儲虛擬化虛擬化

2021-01-20 10:53:41

云計算云存儲云遷移
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕在线一区二区三区 | 精品国产99| 夜夜草 | 国产一区二区三区四区五区加勒比 | 免费观看www | 欧美一区中文字幕 | 亚洲精品aⅴ | 97国产在线视频 | aⅴ色国产 欧美 | 天天干天天想 | 91文字幕巨乱亚洲香蕉 | 日日夜夜天天 | 午夜久久久 | 国产成人精品一区二区三 | 亚洲成人一区 | 亚洲人精品午夜 | 91视频一区二区三区 | 91操操操 | 韩日一区二区 | 在线不卡视频 | 99精品欧美一区二区三区 | 在线亚洲电影 | 欧美在线视频网 | 亚洲永久免费观看 | 亚洲一区综合 | 色资源在线观看 | 中文字幕 在线观看 | 亚洲日本欧美日韩高观看 | 亚洲一区二区电影在线观看 | 免费成人午夜 | 国产精品特级毛片一区二区三区 | 亚洲欧美日韩精品久久亚洲区 | 一级毛片在线播放 | 日日骚视频 | 99精品欧美一区二区蜜桃免费 | 国产成人叼嘿视频在线观看 | 中文字幕国产视频 | 成人欧美一区二区三区1314 | 亚洲www | 天天久| 欧美精品一区二区三区在线播放 |