成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度解析:Spark優于Hadoop嗎?

大數據 Hadoop Spark
對于任何一個進入大數據世界的人來講,大數據和Hadoop 就成了同義詞。隨著人們學習了大數據生態系統及其工具和運作原理,他們更能理解大數據的實際意義以及Hadoop 在生態系統中所扮演的角色。

對于任何一個進入大數據世界的人來講,大數據和Hadoop 就成了同義詞。隨著人們學習了大數據生態系統及其工具和運作原理,他們更能理解大數據的實際意義以及Hadoop 在生態系統中所扮演的角色。

[[209697]]

維基百科對大數據這樣解釋:大數據是一個寬泛的術語,它指傳統數據處理應用程序無法處理的巨大而復雜的數據集。

簡單來講,隨著數據量的增加,采用常規處理方法需要花費大量時間且價格不菲。

Doug Cutting受谷歌GFS及MapReduce白皮書的啟發,在 2005年創辦了Hadoop 。Hadoop 采用開源軟件框架對超大數據集進行分布式存儲技術及分布式處理。換句話說,設計這一產品的目的在于縮減處理大數據集的時間和成本。

Hadoop,其分布式文件系統(HDFS)和分布式處理模塊(MapReduce)成為大數據計算的實際標準。Hadoop 這一術語不僅可以與基礎模塊相關,也與可兼容Hadoop的其他軟件包生態系統息息相關。

隨著時間的推移,生成的數據量猛增,處理大量數據的需求也隨之猛增。這最終使大數據計算需要滿足各種不同需求,而這些需求并非都可以全部由Hadoop 完成。

大多數數據分析本質上是迭代處理。盡管迭代處理可以由MapReduce完成,但數據讀取應該在每次迭代中進行。通常情況下,這并沒有問題。但如果讀取100GB的數據或幾個TB的數據時,就會費時,而人們會不耐煩

許多人認為數據分析是一門藝術而非一門科學。在任何藝術領域,藝術家創造一小塊部分拼圖,又將小拼圖將放到更大的拼圖上,見證它的生長。可以粗略的翻譯為:數據分析師想在下一個處理開始之前得到前一個處理的結果。換句話說,許多數據分析學在本質上都是交互式的。在傳統意義上,交互式分析習慣上受結構化查詢語言(SQL)的影響。分析師在數據庫中撰寫可在數據中運行的查詢條件。盡管Hadoop 也有同類產品(Hive和Pig),這原本也耗時,因為每個查詢條件需要大量時間處理數據。

這些障礙促使了Spark的誕生,這種新型處理模塊能促進迭代編程和交互式分析。Spark裝備了一個將數據載入存儲器并反復查詢的內存原始模型。這使Spark非常適合大量數據分析及機器學習算法。

注意,Spark僅僅規定了分布式處理模塊。存儲數據部分仍然依賴Hadoop(分布式文件系統HDFS)采用分布存儲方式高效存儲數據,而不由Spark完成

Spark 將大數據生態系統設置在超光速磁盤上,確保比MapReduce快10-100倍。許多人認為這可能是MapReduce的終結。

操作簡單

相比MapReduce來講,Spark操作簡單,甚至可以說非常便捷。即使對于一個簡單邏輯或算法,MapReduce也需要100行代碼;但使用Spark,一個簡單邏輯,幾行代碼就可以完成。這就引出了一個關鍵因素,叫做用途廣泛。許多對于MapReduce來講不可能完成的機器學習或圖表問題的高級算法,都可以由Spark完成。這讓Spark的采用率相當高。

MapReduce沒有交互模塊。盡管Hive和Pig包含命令行接口,這些系統的性能仍然依賴MapReduce。MapReduce對于批處理仍然十分受用。

Spark 在內存中處理數據,而MapReduce卻將處理后的數據傳送回磁盤。所以Spark將優于MapReduce。

在2014年,Spark晉級Daytona GraySort測試并拔得頭籌。對于門外漢來說,DaytonaGraySort是測試系統檢索100TB(一萬億條記錄)數據速度的第三方評判基準。

Spark使用206個AWS EC2 設備,在23分鐘內將100TB的數據存儲到磁盤上。此前的***記錄保持者是MapReduce,它使用了2100臺設備,總共花費了72分鐘。Spark在相同的條件下卻比MapReduce快了3倍,使用的設備總數也少了10倍。

Spark占用大量內存。如果我們運行Spark的同時運行其他占用內存的服務,其性能可能大打折扣。但是,我們可以有把握地說,Spark在迭代處理方面占上風(需要多次傳遞同一數據)。

成本

這兩者在計算能力、磁盤和網絡環境方面的硬件要求都十分相似。內存越大,Spark表現越好。這兩者都使用商品服務器。

MapReduce編程費力,市場上這方面的專家并不多。即便有為數不多的Spark專家,但這也僅僅是因為Spark是初創產品。所以學習Spark編程比MapReduce要容易的多。

脫離了Hadoop 的Spark

運行Spark其實并不需要Hadoop的支持。如果我們沒有從分布式文件系統(HDFS)中讀取數據,Spark也可以自行運行。Spark也可以從諸如S3, Cassandra等其他存儲中讀寫數據。在這種架構下,Spark可在獨立模式下運行,并不需要Hadoop 組件的支持。

產品使用

近期研究表明在產品中使用Spark的用戶激增。許多用戶同時運行Spark和Cassandra, 或者Spark和Hadoop ,又或者在Apche Mesos上運行Spark. 盡管Spark用戶數量有所增長,但并沒有在大數據社區造成恐慌。MapReduce使用率可能會下降,但具體降幅未知。

許多人預測Spark會促使另一種更優質堆棧的發展。但這種新型堆棧可能會與Hadoop 及其軟件包生態系統非常相似。

Spark的***優點是簡潔。但它并不會徹底消滅MapReduce,因為使用MapReduce依然大有人在。即便Spark成為大贏家,除非研發新分布式文件系統,我們將同時使用Hadoop 和Spark處理數據。

責任編輯:未麗燕 來源: 36大數據
相關推薦

2010-11-24 09:27:39

調試器部署爭論

2018-06-04 11:28:49

HadoopSpark數據

2018-03-01 14:56:11

HadoopSpark大數據

2021-04-20 23:16:06

SparkSQL語法

2016-01-13 10:34:57

物聯網物聯網技術

2013-04-27 09:16:35

數據庫安全NoSQL安全NoSQL

2017-04-19 11:17:48

SparkHadoopMapReduce

2024-01-11 12:14:31

Async線程池任務

2014-04-09 10:55:55

Cloudera\Sp

2023-05-29 08:11:42

@Value注解Bean

2015-04-28 14:55:01

HadoopSpark技術

2013-12-09 10:34:12

2023-03-06 11:13:20

Spring注解加載

2023-03-13 08:12:25

@DependsOn源碼場景

2023-03-27 08:12:40

源碼場景案例

2023-10-10 11:02:00

LSM Tree數據庫

2022-08-01 10:36:37

機器學習數據模型

2022-08-29 14:59:12

深度學習樹的模型神經網絡

2018-12-11 12:52:00

閉源開源協議

2013-11-15 11:06:27

閉源開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 视频在线亚洲 | 国产精品国产三级国产aⅴ中文 | 婷婷精品 | 国产精品色 | 91av视频在线免费观看 | 色综合色综合色综合 | 电影午夜精品一区二区三区 | 懂色av一区二区三区在线播放 | 久久国产精品一区二区三区 | 久久久久国产一区二区三区四区 | 久久精品av | 天天射视频 | 波多野结衣亚洲 | 国产午夜精品一区二区三区嫩草 | 亚洲欧美日韩电影 | 日韩在线不卡 | 伊人免费网 | 色久在线| 中国黄色在线视频 | 国产激情第一页 | 午夜免费电影院 | 日日操操操 | 欧美中文在线 | 国产一区二区三区四区三区四 | 黄色免费观看 | 亚洲国产免费 | 日韩欧美一级精品久久 | 亚洲人成人网 | 精精国产xxxx视频在线播放7 | 日本久久精| 亚洲视频精品在线 | 欧美一级毛片久久99精品蜜桃 | 欧美日韩大陆 | 天堂免费 | 无码一区二区三区视频 | 在线免费观看日本视频 | 欧美一级在线 | 中文字幕 欧美 日韩 | 蜜桃在线视频 | 久久久久久亚洲精品 | 日本综合在线观看 |