成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式

大數(shù)據(jù) Hadoop
幾周前,我寫了一篇有關(guān)Hadoop的文章,并談到了它的不同部分。 以及它如何在數(shù)據(jù)工程中扮演重要角色。 在本文中,我將總結(jié)Hadoop中不同的文件格式。 本主題將是一個簡短而快速的主題。

Hadoop文件格式初學(xué)者指南

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式

幾周前,我寫了一篇有關(guān)Hadoop的文章,并談到了它的不同部分。 以及它如何在數(shù)據(jù)工程中扮演重要角色。 在本文中,我將總結(jié)Hadoop中不同的文件格式。 本主題將是一個簡短而快速的主題。 如果您想了解Hadoop的工作原理以及它在數(shù)據(jù)工程師中的重要作用,請在此處訪問我關(guān)于Hadoop的文章,或樂于跳過。

Hadoop中的文件格式大致分為兩類:面向行和面向列:

  • 面向行:在一起存儲的同一行數(shù)據(jù)是連續(xù)存儲:SequenceFile,MapFile,Avro Datafile。 這樣,如果僅需要訪問該行的少量數(shù)據(jù),則需要將整個行讀入存儲器。 延遲序列化可以將問題減輕到一定程度,但是無法取消從磁盤讀取整行數(shù)據(jù)的開銷。 面向行的存儲適用于需要同時處理整行數(shù)據(jù)的情況。
  • 面向列:整個文件分為幾列數(shù)據(jù),每列數(shù)據(jù)存儲在一起:Parquet,RCFile,ORCFile。 面向列的格式可以在讀取數(shù)據(jù)時跳過不需要的列,適用于字段中只有一小部分行的情況。 但是這種讀取和寫入格式需要更多的存儲空間,因為高速緩存行需要位于內(nèi)存中(以獲取多行中的一列)。 同時,它不適合流式傳輸,因為一旦寫入失敗,就無法恢復(fù)當(dāng)前文件,并且在寫入失敗時,面向行的數(shù)據(jù)可以重新同步到最后一個同步點,因此Flume使用 面向行的存儲格式。

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> Picture 1.(Left Side )Show the Logical Table and Picture 2. ( Right Side) Row-Oriented Layout(Sequ

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> Picture 3. Column-oriented Layout (RC File)

如果仍不清楚行和列的方向,請不用擔(dān)心,您可以訪問此鏈接,了解它們之間的區(qū)別。

以下是在Hadoop系統(tǒng)上廣泛使用的一些相關(guān)文件格式:

序列文件

存儲格式取決于是否壓縮以及使用記錄壓縮還是塊壓縮而有所不同:

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> The Internal structure of a sequence file with no compression and with record compression.
  • 不壓縮:根據(jù)記錄長度,鍵長,值程度,鍵值和值值順序存儲。 范圍是字節(jié)數(shù)。 使用指定的序列化執(zhí)行序列化。
  • 記錄壓縮:僅壓縮值,并將壓縮的編解碼器存儲在標(biāo)頭中。
  • 塊壓縮:將多個記錄壓縮在一起,以利用記錄之間的相似性并節(jié)省空間。 同步標(biāo)記被添加在塊之前和之后。 該屬性的最小值為io.seqfile.compress.blocksizeset。

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> The internal structure of a sequence file with block compression

地圖文件

MapFile是SequenceFile的變體。 將索引添加到SequenceFile并對其進(jìn)行排序后,它就是MapFile。 索引存儲為單獨的文件,通常每128條記錄存儲一個索引。 可以將索引加載到內(nèi)存中以進(jìn)行快速查找-存儲按Key定義的順序排列的數(shù)據(jù)的文件。 MapFile記錄必須按順序編寫。 否則,將引發(fā)IOException。

MapFile的派生類型:

  • SetFile:一個特殊的MapFile,用于存儲可寫類型的鍵序列。 密鑰是按順序?qū)懭氲摹?/li>
  • ArrayFile:鍵是一個整數(shù),表示數(shù)組中的位置,值是可寫的。
  • BloomMapFile:使用動態(tài)Bloom過濾器針對MapFile get()方法進(jìn)行了優(yōu)化。 過濾器存儲在內(nèi)存中,并且僅當(dāng)鍵值存在時,才會調(diào)用常規(guī)的get()方法來執(zhí)行讀取操作。

Hadoop系統(tǒng)下面列出的文件包括RCFile,ORCFile和Parquet。 Avro的面向列的版本是Trevni。

RC文件

Hive的Record Columnar File(記錄列文件),這種類型的文件首先將數(shù)據(jù)按行劃分為行組,然后在行組內(nèi)部將數(shù)據(jù)存儲在列中。 其結(jié)構(gòu)如下:

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> Data Layout of RC File in an HDFS block

與純面向行和面向列的比較:

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> Row-Store in an HDFS Block

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> Column Group in HDFS Block

ORC文件

ORCFile(優(yōu)化的記錄列文件)提供了比RCFile更有效的文件格式。 它在內(nèi)部將數(shù)據(jù)劃分為默認(rèn)大小為250M的Stripe。 每個條帶均包含索引,數(shù)據(jù)和頁腳。 索引存儲每列的最大值和最小值以及列中每一行的位置。

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> ORC File Layout

在Hive中,以下命令用于使用ORCFile:

CREATE TABLE ...STORED AAS ORC ALTER TABLE ... SET FILEFORMAT ORC SET hive.default.fileformat=ORC

Parquet

一種通用的基于列的存儲格式,基于Google的Dremel。 特別擅長處理深度嵌套的數(shù)據(jù)。

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式
> The internal Structure of Parquet File

對于嵌套結(jié)構(gòu),Parquet會將其轉(zhuǎn)換為平面列存儲,該存儲由重復(fù)級別和定義級別(R和D)表示,并在讀取數(shù)據(jù)以重建整個文件時使用元數(shù)據(jù)來重建記錄。 結(jié)構(gòu)體。 以下是R和D的示例:

AddressBook { contacts: { phoneNumber: "555 987 6543" } contacts: { } } AddressBook { }

 

大數(shù)據(jù)新人應(yīng)該了解的Hadoop中的各種文件格式

就這樣,現(xiàn)在,您知道了Hadoop中不同的文件格式。 如果您發(fā)現(xiàn)任何錯誤并提出建議,請隨時與我聯(lián)系。 您可以在我的LinkedIn上與我聯(lián)系。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2012-05-29 09:48:21

Hadoop

2012-05-29 09:06:32

Hadoop文件格式

2017-08-25 17:41:17

Paradox數(shù)據(jù)文件格式

2019-11-18 09:00:10

大數(shù)據(jù)數(shù)據(jù)格式文件格式

2010-08-16 10:26:36

DB2數(shù)據(jù)庫

2021-01-06 13:45:32

大數(shù)據(jù)語言編程

2018-03-22 16:32:49

大數(shù)據(jù)數(shù)據(jù)集數(shù)據(jù)處理

2023-12-11 16:36:09

2010-08-03 15:40:30

NFS文件格式

2017-06-15 10:21:30

Apache Hado存儲引擎性能

2018-09-13 15:21:54

2016-12-01 14:47:20

2010-08-02 14:19:28

DB2數(shù)據(jù)庫

2024-05-07 08:49:36

Hadoop數(shù)據(jù)存儲-分布式存儲

2017-06-16 09:58:34

Hive格式壓縮算法

2010-11-03 15:15:26

DB2數(shù)據(jù)移動

2014-11-11 10:47:19

hadoop數(shù)據(jù)流

2017-10-25 14:59:18

大數(shù)據(jù)術(shù)語物聯(lián)網(wǎng)

2020-12-09 14:24:29

大數(shù)據(jù)Hadoop

2023-11-02 09:54:21

ODT文件
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 麻豆久久久9性大片 | 日本中出视频 | 国产精品嫩草影院精东 | 97综合在线 | 亚洲激情专区 | 国产国产精品久久久久 | 美女爽到呻吟久久久久 | 日韩成人免费视频 | 黄色大片在线播放 | 影音先锋中文字幕在线观看 | 97av视频在线 | 国产大毛片 | 精品国产一区一区二区三亚瑟 | 91 在线 | 精品无码久久久久久国产 | 在线播放中文字幕 | 99久视频 | 在线观看亚洲专区 | 国产91丝袜在线播放 | 九九亚洲精品 | 91久久综合 | 日日噜 | 国产乱码精品1区2区3区 | 国产高清一区二区三区 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 日韩国产在线观看 | 久久久美女| 国产成人精品高清久久 | 久久国产亚洲 | 国产三级日本三级 | 黄色一级免费观看 | 免费在线一区二区三区 | 国外激情av| 在线中文字幕视频 | 久久精品 | 日韩网站在线观看 | 精品国产免费一区二区三区五区 | 国产精品日韩欧美一区二区三区 | 少妇一级淫片免费放播放 | 久久久久久99 | 成年人精品视频在线观看 |