成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據之謎Spark基礎篇,核心RDD特征分析講解

存儲 存儲軟件 大數據 Spark
RDD(Resilient Distributed Datasets)彈性分布式數據集,是分布式內存的一個抽象概念。我們可以抽象的代表對應一個HDFS上的文件,但是他實際上是被分區的,分為多個分區撒落在Spark集群中的不同節點上。

 RDD特征概要總結:

a、RDD是Spark提供的核心抽象,全稱為Resillient Distributed Dataset,即彈性分布式數據集。

b、RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,分為多個分區,每個分區分布在集群中的不同節點上,從而讓RDD中的數據可以被并行操作。

c、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創建;有時也可以通過應用程序中的集合來創建。

d、RDD最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition,因為節點故障,導致數據丟了,那么RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的。

[[226176]]

e、RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤。

下面我們一起來對其關鍵特征進行詳細分析

圖1-RDD分布式特征

分析:

RDD(Resilient Distributed Datasets)彈性分布式數據集,是分布式內存的一個抽象概念。我們可以抽象的代表對應一個HDFS上的文件,但是他實際上是被分區的,分為多個分區撒落在Spark集群中的不同節點上。比如現在我們的一個RDD有40萬條數據,并分為4個partition,這4個分區數據分別存儲在集群中的節點1、2、3、4中,而每個partition分到10萬條數據。如圖1所示,這樣的一個RDD將數據分布式撒落在集群的一批節點上,每個節點只是存儲RDD的部分partition,這就是RDD的分布式結構模型。

圖2-RDD彈性式特征

分析:

RDD的彈性特征說明,當RDD的每個partition數據都存放到Spark集群節點上時候,默認是都存放在內存中的,但是如果內存放不下這么多的數據時,我們該怎么辦呢?這時候RDD的彈性特征就表現出來了。如上圖2所示,在節點3內存中最多只能存儲6萬數據,結果我們需要存放一個partition數據為10萬,那么這時就得把partition中的剩余4萬數據寫入到磁盤上進行保存了。而這種存儲的分配針對用戶是透明的,我們不用管他怎么存儲,雖然這種存儲機制是有配置參數提供我們選擇的,后續深入講解時候會介紹到如何選擇存儲策略,這里就不加深難度了,所以,RDD的這種自動進行內存和磁盤之間權衡和卻換的機制,就是RDD的彈性特征所在。

圖3-RDD容錯性特征

分析:

***我們來看看RDD被分散的存放在集群的各個節點上了,那假如某個節點運行時候出現問題,數據該怎么辦呢?這里Spark的RDD支持了強大的容錯機制,如上圖3,在運行節點n時候出現了問題,這時候就需要重新獲取數據進行計算,那RDD將啟動容錯機制,嘗試尋找上游依賴數據源節點3來重新獲取數據進行計算,這里深入分析將會提出另外一個概念來了,那就是DAG(有向無環圖)、進一步了解RDD的依賴關系,與底層邏輯關系了,期待分析的時候您能光臨。

責任編輯:武曉燕 來源: 大數據之謎
相關推薦

2016-10-24 09:52:45

SparkRDD容錯

2016-10-24 23:04:56

SparkRDD數據

2015-08-11 15:52:52

大數據數據分析

2015-07-13 09:56:37

2019-04-17 15:16:00

Sparkshuffle算法

2015-07-09 15:57:35

2017-04-25 09:50:16

SparkRDD核心

2015-03-20 16:40:40

Spark大數據分析大數據

2020-12-04 14:31:45

大數據Spark

2012-08-30 14:33:03

Spark

2021-03-04 08:39:21

SparkRDD調優

2013-03-01 10:46:50

大數據核心海量數據

2017-10-19 08:28:15

大數據HadoopSpark

2021-01-25 20:20:35

數據分析SparkHadoop

2018-11-08 15:12:16

數據分析算法決策樹

2021-09-05 07:55:36

Lsm核心實現

2018-05-06 16:59:14

大數據python數據可視化

2017-10-11 11:10:02

Spark Strea大數據流式處理

2021-03-02 12:36:49

MQKafkaRocketMQ

2016-08-22 11:06:43

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美一区在线 | 成人国产精品色哟哟 | 一二三区av | 国产欧美日韩一区二区三区在线 | 久久精品国产清自在天天线 | 中文字幕爱爱视频 | 男女羞羞视频在线 | 福利久久 | 逼逼网| 欧美日韩视频在线播放 | 国产一区二区 | 日韩中文字幕第一页 | 日韩国产精品一区二区三区 | 久久国产婷婷国产香蕉 | 亚洲一区二区三区四区视频 | 国产精品一区二区无线 | 日韩www | 精品久久精品 | 精品国产乱码久久久久久久久 | 美女黄网| 视频在线一区 | 欧美精品一区三区 | 蜜桃精品在线 | 中文字幕一区二区三区乱码在线 | 在线只有精品 | 国产精品日产欧美久久久久 | 日韩欧美在线不卡 | 天天插天天操 | 久久成人精品视频 | 亚洲区一 | 男女精品久久 | 亚洲综合色网站 | 久久精品91久久久久久再现 | 中文精品视频 | 欧美日韩综合 | 国产精品久久久久久久模特 | 成人一区二区三区在线观看 | 高清国产午夜精品久久久久久 | 日韩精品999 | 成人小视频在线 | 国产婷婷色综合av蜜臀av |