成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop和Spark之間有什么區別,現工業界都在使用何種技術?

大數據 Hadoop Spark
談到大數據,相信大家對hadoop和Apache Spark這兩個名字并不陌生。然而,最近業界有一些人正在大張旗鼓的宣揚Hadoop將死,Spark將立。他們究竟是危言聳聽?嘩眾取寵?還是眼光獨到堪破未來呢?與Hadoop相比,Spark技術如何?現工業界大數據技術都在使用何種技術?如果現在想要參加大數據培訓的話,應該從哪一種開始呢?

談到大數據,相信大家對hadoop和Apache Spark這兩個名字并不陌生。然而,最近業界有一些人正在大張旗鼓的宣揚Hadoop將死,Spark將立。他們究竟是危言聳聽?嘩眾取寵?還是眼光獨到堪破未來呢?與Hadoop相比,Spark技術如何?現工業界大數據技術都在使用何種技術?如果現在想要參加大數據培訓的話,應該從哪一種開始呢?

 

Hadoop

(1)先說二者之間的區別吧。

首先,Hadoop與Spark解決問題的層面不同。

Hadoop和Apache Spark兩者都是大數據框架,但是各自存在的目的不盡相同。Hadoop實質上更多是一個分布式數據基礎設施: 它將巨大的數據集分派到一個由普通計算機組成的集群中的多個節點進行存儲,意味著您不需要購買和維護昂貴的服務器硬件。

同時,Hadoop還會索引和跟蹤這些數據,讓大數據處理和分析效率達到***的高度。Spark,則是那么一個專門用來對那些分布式存儲的大數據進行處理的工具,它并不會進行分布式數據的存儲。

其次,還有一點也值得注意——這兩者的災難恢復方式迥異。因為Hadoop將每次處理后的數據都寫入到磁盤上,所以其天生就能很有彈性的對系統錯誤進行處理。

Spark的數據對象存儲在分布于數據集群中的叫做彈性分布式數據集(RDD: Resilient Distributed Dataset)中。這些數據對象既可以放在內存,也可以放在磁盤,所以RDD同樣也可以提供完成的災難恢復功能。

由于兩者的側重點不同,使用場景不同,大講臺老師認為其實并沒有替代之說。Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面,有RDD的概念。RDD可以cache到內存中,那么每次對RDD數據集的操作之后的結果,都可以存放到內存中,下一個操作可以直接從內存中輸入,省去了MapReduce大量的磁盤IO操作。但是,我們也要看到spark的限制:內存。我認為 Hadoop雖然費時,但是在OLAP等大規模數據的應用場景,還是受歡迎的。目前Hadoop涵蓋了從數據收集、到分布式存儲,再到分布式計算的各個領域,在各領域都有自己獨特優勢。

(2)為什么有這么多人不看好Hadoop,力捧Spark呢?

很多人在談到Spark代替Hadoop的時候,其實很大程度上指的是代替MapReduce。

MapReduce的缺陷很多,***的缺陷之一是Map + Reduce的模型。這個模型并不適合描述復雜的數據處理過程。很多公司把各種奇怪的Machine Learning計算用MR模型描述,不斷挖掘MR潛力,對系統工程師和Ops也是極大挑戰了。很多計算,本質上并不是一個Map,Shuffle再Reduce的結構,比如我編譯一個SubQuery的SQL,每個Query都做一次Group By,我可能需要Map,Reduce+Reduce,中間不希望有無用的Map;又或者我需要Join,這對MapReduce來說簡直是噩夢,什么給左右表加標簽,小表用Distributed Cache分發,各種不同Join的Hack,都是因為MapReduce本身是不直接支持Join的,其實我需要的是,兩組不同的計算節點掃描了數據之后按照Key分發數據到下一個階段再計算,就這么簡單的規則而已;再或者我要表示一組復雜的數據Pipeline,數據在一個無數節點組成的圖上流動,而因為MapReduce的呆板模型,我必須一次一次在一個Map/Reduce步驟完成之后不必要地把數據寫到磁盤上再讀出,才能繼續下一個節點,因為Map Reduce2個階段完成之后,就算是一個獨立計算步驟完成,必定會寫到磁盤上等待下一個Map Reduce計算。

上面這些問題,算是每個號稱下一代平臺都嘗試解決的?,F在號稱次世代平臺現在做的相對有前景的是Hortonworks的Tez和Databricks的Spark。他們都嘗試解決了上面說的那些問題。Tez和Spark都可以很自由地描述一個Job里執行流。他們相對現在的MapReduce模型來說,極大的提升了對各種復雜處理的直接支持,不需要再絞盡腦汁“挖掘”MR模型的潛力。綜上,Spark數據處理速度秒殺MapReduce因為其處理數據的方式不一樣,會比MapReduce快上很多。

(3)可以判Hadoop“死刑”嗎?

目前備受追捧的Spark還有很多缺陷,比如:

穩定性方面,由于代碼質量問題,Spark長時間運行會經常出錯,在架構方面,由于大量數據被緩存在RAM中,Java回收垃圾緩慢的情況嚴重,導致Spark性能不穩定,在復雜場景中SQL的性能甚至不如現有的Map/Reduce。

不能處理大數據,單獨機器處理數據過大,或者由于數據出現問題導致中間結果超過RAM的大小時,常常出現RAM空間不足或無法得出結果。然而,Map/Reduce運算框架可以處理大數據,在這方面,Spark不如Map/Reduce運算框架有效。

不能支持復雜的SQL統計;目前Spark支持的SQL語法完整程度還不能應用在復雜數據分析中。在可管理性方面,SparkYARN的結合不完善,這就為使用過程中埋下隱憂,容易出現各種難題。

大講臺老師并不想說Spark和Hadoop誰強誰弱,而是想告訴大家——在比較Hadoop和Spark方面要記住的最重要一點就是,它們并不是非此即彼的關系,因為它們不是相互排斥,也不是說一方是另一方的簡易替代者。兩者彼此兼容,這使得這對組合成為一種功能極其強大的解決方案,適合諸多大數據應用場合。

也就是說,大數據行業的老鳥們如果只會Hadoop就要當心了,擠出時間來學習Spark和其他新技術是絕對必要的;而對于目前正準備嘗試大數據培訓的朋友們,從Hadoop開始仍然是***的選擇。長遠來看新技術總會不斷出現,不管是Spark還是Tez似乎都有著更美妙的大數據前景,然而沒有人會勸你完全拋開Hadoop。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2017-10-19 08:28:15

大數據HadoopSpark

2021-09-08 05:52:57

工業物聯網物聯網IOT

2020-09-08 11:00:00

IaaSPaaSSaaS

2021-05-31 09:26:01

機器學習人工智能計算機

2020-11-13 11:49:56

物聯網

2020-06-02 10:28:17

機器學習技術人工智能

2021-05-16 15:28:59

沙箱容器惡意軟件

2021-02-25 10:07:42

人工智能AI機器學習

2022-01-16 07:46:53

SpringDataASSM

2022-01-04 10:09:10

CRM營銷自動化客戶關系

2019-01-29 07:06:57

2010-03-19 09:48:12

智能交換機

2021-12-17 14:40:02

while(1)for(;;)語言

2022-02-27 15:33:22

安全CASBSASE

2024-05-27 00:40:00

2021-05-16 14:26:08

RPAIPACIO

2022-08-02 08:23:37

SessionCookies

2024-09-09 13:10:14

2024-03-05 18:59:59

前端開發localhost

2020-03-09 20:56:19

LoRaLoRaWAN無線技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美午夜视频 | 一级片在线免费看 | 国产欧美在线观看 | 国产免费一区二区三区网站免费 | 欧美4p| 精品国产一区二区三区免费 | 国产日韩一区二区三免费高清 | 日韩综合在线 | 日韩一区二区三区在线观看 | 色欧美片视频在线观看 | 亚洲巨乳自拍在线视频 | 美日韩视频 | 亚洲电影第三页 | 黄色在线免费播放 | 99久久久久久99国产精品免 | 中文字幕av一区二区三区 | 欧美综合自拍 | 成人av免费| 久久久久国产一区二区三区 | 国产一区二区在线视频 | 91福利网 | 久久精品亚洲精品国产欧美 | 可以看黄的视频 | 欧美jizzhd精品欧美巨大免费 | 欧美激情精品久久久久久变态 | 亚洲成人自拍 | 日韩欧美一区二区三区 | 成人一区av | 国产三区四区 | 国产91丝袜在线播放 | 夜夜草视频 | 日韩精品成人网 | 一区二区蜜桃 | 澳门永久av免费网站 | 欧美激情国产日韩精品一区18 | 久久国产精品免费一区二区三区 | h视频免费看 | 亚洲视频在线免费观看 | 欧美一级免费观看 | 亚洲三区视频 | 一区中文 |